Nature方法学：测序前如何预测所得数据

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2013年02月28日 来源：生物通

编辑推荐：

　　想知道要解答自己的研究谜题，需要多少序列数据吗？现在一种新技术也许能用于预测……

生物通报道：虽然目前DNA测序越来越便宜，但是大规模的深度测序实验仍然需要耗费大量的时间和金钱，而且也无法确保能得到有用的数据。如果能够通过前期的一些初步数据，预测到底还需要多少序列信息，那岂不是能省时省力。现在研究人员开发出了一种新的算法，能做到这一点。

在这篇发表于Nature Methods杂志上的文章中，来自南加州大学（USC）的研究人员公布了一种称为Preseq的运算方法，能预测某个DNA样品或DNA文库的分子复杂性。

“对于类似NCBI中Sequence Read Archive中的数据，许多研究人员可能都存在这个疑问，”文章作者，南加州大学生物科学助理教授Andrew Smith说，“在那里有大量的数据集，当我们浏览数据的时候，很明显会发现人们不断重复的测序相同的分子。”

Smith相信，这项研究中获得的方法可以帮助研究人员在分析突变或者其它罕见分子的时候，确定适当的测序深度，从而能更有效的完成研究项目。

“比如说，你正在进行一个癌症基因组的测序，寻找特定类型突变，就可以采用这种方法，这样就能更快的接近靶标，并且无需再耗时进行多余的研究，”Smith说，“或者这种方法告诉我们还有大量的不同分子剩下来，可以继续进行寻找。”

Smith和USC研究生Timothy Daley研发的这种算法可以用于重亚硫酸盐测序方法，这种测序方法会造成DNA损伤，只获得低复杂度的文库。为了解决这一问题，这两位研究人员希望能找到一种方法，预测基于小型初步试验的大型测序实验特征。

他们通过检测了多种方法，最终发现了这一新运算方法，这一方法基于一种统计学框架：capture-recapture，在生态学上用于测量物种丰度的。

“目前我们可以预测测序试验产量比小型实验高出100倍的结果，”Daley说，“该方法的准确性是随着数据量而增加的，但是如果没有足够的测序实验数据，也能检测出相关结果。”

现在，Smith研究小组正在进一步提高算法的精度，深入了解测序无限发生后会如何。“很多事情都会随着放大到无穷大后，而变得不稳定”。

原文检索：

1. Daley T, Smith AD Predicting the molecular complexity of sequencing libraries. Nat Methods. 2013 Feb 24

热点排行

新闻专题

联系信箱：

粤ICP备09063491号