-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature Methods》2022年度技术:长读长测序
【字体: 大 中 小 】 时间:2023年02月09日 来源:生物通
编辑推荐:
考虑到长读长测序的飞跃进步和广泛应用,《Nature Methods》杂志将2022年度方法授予长读长测序。
2022年4月,T2T联盟发表了首个完整的人类基因组。这一成就是通过实验和计算上的一系列创新实现的,而长读长测序正是负责生成T2T数据的主要技术。参与这项工作的加州大学伯克利分校的Nicolas Altemose博士认为:“这些新的长读长DNA测序技术令人难以置信,它们是游戏规则的改变者。”
当然,这只是其中的一个例子,说明了长读长测序正帮助科学家从人类及其他物种的基因组、转录组和表观基因组中获得大量见解。考虑到长读长测序的飞跃进步和广泛应用,《Nature Methods》杂志将2022年度方法授予长读长测序。
自2005年新一代测序出现以来,技术创新的步伐从未放缓,新型平台不断涌现。不过,早期平台的读长较短,需要依靠强大的算法将重叠序列的短读数连接起来。然而,许多基因组庞大且复杂,这就给完整序列的生成带来了严重的障碍,导致基因组中的许多部分出现缺口。于是,人们着手开发各种长读长测序的策略。
目前最广泛使用的两种商业化技术分别是Pacific Biosciences的SMRT测序(HiFi读数的平均读长约为20 kb,准确度>99.9%)和Oxford Nanopore Technologies的纳米孔测序(超长读数的平均读长约为100 kb,R10.4的准确度~99%)。这两种技术的测序原理和数据生成方法不同,因此测序读数的读长、通量和错误率也不同。
长读长测序的用武之地
如今,长读长测序技术已应用在多个大型项目中,除了T2T联盟的项目,还有脊椎动物基因组计划(VGP)。在发表了16个脊椎动物物种的高质量基因组后,研究人员总结出,长读长测序技术是保证基因组质量最大化的关键因素。更长的测序读数能最大程度地提高基因组质量,而组装后的结果还能校正先前参考基因组的重大错误。
在面对高度重复的基因组区域时,长读长测序具有独特的优势。它们产生的长读数可跨越复杂结构或重复序列,包括短串联重复序列、Alu元件(长约300 bp)、LINE1元件(长约6 kb)、片段重复区域,以及着丝粒和核糖体中的重复片段。长读长测序鉴定结构变异的能力也要优于短读长测序及其他技术。
除了基因组,转录组研究也大大受益于长读长测序,因为转录组是动态且组织特异性的。威尔康奈尔医学院的Hagen Tilgner解释说,长读长测序有望揭开转录组隐藏的复杂性,如异构体结构和表达。考虑到异构体多样性在基因调控中的重要作用,这些知识将有助于人们全面了解转录组动态及其潜在机制。
同样地,长读长测序也将助力表观基因组学和表观转录组学研究。巴塞罗那科学技术学院的Maria Novoa认为,长读长测序检测DNA和RNA化学修饰的能力将促进这一领域的发展。如今人们通过直接分析纳米孔测序信号就能读取不同类型的修饰,而不再需要繁冗的检测。考虑到还有大量DNA和RNA修饰意义未明,长读长测序为探索其分布和功能打开了一扇大门。
对长读长测序的期望
大多数基因组学项目采用多种技术来解决各种问题,如序列重复、结构变异和缺乏多样化参考基因组等。人类泛基因组参考联盟(HPRC)使用的技术包括PacBio HiFi读数、纳米孔长读数、10x Genomics读数、HiC读数、光学图谱等。浙江大学的张国捷教授认为,准确性是使用多种技术的原因之一。“如果长读长测序更加准确,实验室就不再需要使用多种技术来进行整理和验证,”他说。
理想情况是在一个平台上获得所有东西,而不是多个平台。这种一站式的长读长测序世界尚未到来,但目前已经有一些技术配对。Oxford Nanopore Technologies和10x Genomics开发出一种方案,能够利用10x Genomics的平台进行样本制备,然后在PromethION平台上进行测序。因此,这种方案连通了纳米孔测序和10x的单细胞和空间分析。用户不仅能够获得序列数据,还能捕获异构体的转录本丰度以及空间转录组数据。
对于实验室来说,成本和准确性都是重要的考虑因素。对于长读长测序平台,许多研究人员都期盼成本能够再降低一点。澳大利亚国立大学的Hardip Patel认为,PacBio的HiFi平台带来了高度准确的长读数,但摊到每个碱基的价格,它比纳米孔测序平台要高。
PacBio的首席科学官Jonas Korlach表示,随着时间的推移,长读长测序已经变得产量更高,更容易使用,而成本也在下降。在计算方面,由于处理器和GPU等组件的进步,计算变得更快。“所以我认为长读长测序将不可避免地变得更快速、更便宜且更易用,”他说。
当然,准确率也是越高越好。与最初的产品相比,长读长测序平台的准确率已大幅提高。洛克菲勒大学的Erich Jarvis表示:“我们需要更长、更准确的读数,它们在核苷酸准确性上是完美或接近完美的,特别是长的着丝粒区域。”同时,研究人员还希望能够扩大测序规模,最好是每周能够生成数千个完整基因组,以便完成脊椎动物基因组计划的目标。
快速组装一个“从端粒到端粒的”基因组也是许多生物学家的梦想。张国捷认为,长读长测序使它成为可能。然而,组装“T2T”基因组仍然很耗时,可能需要手动校正人为引入的结构变异。它的计算成本也很高。他希望长读长测序更快、更长、更便宜。
未来,长读长测序有望应用在更多方面,捕获更多信息。新的平台也会不断涌现,Illumina将会在2023年推出它的长读长产品。据介绍,这项技术能够产生30 kb的读数,而DNA起始量为50 ng。
原文检索
Method of the Year 2022: long-read sequencing. Nat Methods 20, 1 (2023). https://doi.org/10.1038/s41592-022-01759-x