《Genome Biology》解锁 T2T-CHM13:探秘现代人类体内尼安德特人基因的全新奥秘

【字体: 时间:2025年02月19日 来源:Genome Biology 10.1

编辑推荐:

  为探究 T2T-CHM13 对现代人类远古基因渗入研究的影响,复旦大学等单位的研究人员开展相关研究。结果发现其能提升检测准确性,还找到新序列和信号。该研究为远古基因研究提供新视角,强烈推荐科研读者阅读。

  

在人类漫长的演化历程中,远古人类与现代人类的基因交融一直是科学家们热衷探索的神秘领域。尼安德特人(Neanderthal)和丹尼索瓦人(Denisovan)的基因测序数据让我们知晓,他们的基因在现代人类基因组中留下了独特印记 。如今,非非洲人身上大约携带 2% 的尼安德特人 DNA,而非洲人携带的尼安德特人血统也比之前认为的更多。大洋洲人则拥有 2 - 5% 的丹尼索瓦人血统,亚洲人群体中也存在少量丹尼索瓦人基因序列。这些远古基因的存在对人类的功能、表型和进化产生了深远影响,一些远古等位基因和单倍型在人类群体中具有适应性,并且高频存在。


然而,在探寻远古基因奥秘的道路上,科学家们遇到了难题。过去,大多数关于远古基因渗入(指一个物种的基因通过杂交等方式进入另一个物种的基因组)的研究都依赖于 GRCh37 人类参考基因组。但这个基因组并不完美,后来的 GRCh38 虽然有所改进,却依旧存在数百个缺口和错误组装区域。直到 2022 年初,端粒到端粒(Telomere-to-Telomere,T2T)联盟取得重大突破,成功组装出第一个无间隙的人类基因组 T2T-CHM13,为人类基因组学研究提供了更精确的参考。不过,T2T-CHM13 对现代人类远古基因渗入模式的影响在当时还鲜为人知。


为了深入探索这个未知领域,来自复旦大学、上海交通大学等机构的研究人员在《Genome Biology》期刊上发表了题为 “A refined analysis of Neanderthal-introgressed sequences in modern humans with a complete reference genome” 的论文。他们借助 T2T-CHM13 这个强大的工具,重新审视远古人类基因在现代人群中的遗传印记,取得了一系列令人瞩目的成果。这一研究不仅让我们对人类演化有了新的认识,还为后续研究提供了宝贵的数据和思路,意义非凡。


研究人员在这项研究中运用了多种技术方法。他们从欧洲核苷酸档案库等数据库下载了阿尔泰尼安德特人、阿尔泰丹尼索瓦人的测序数据以及千人基因组计划(1000 Genomes Project)的相关数据。在分析过程中,使用 BWA 软件将远古测序读段映射到不同参考基因组上,利用 GATK 工具进行变异检测和基因分型。为了确定尼安德特人渗入序列,他们采用了 IBDmix 这种无需现代人群参考面板的方法。同时,还运用了多种数据处理和过滤技术,如对全基因组数据进行多种掩码操作,包括 CpG 掩码、可映射性掩码等,以此来提高数据质量,确保研究结果的准确性。


下面我们来看看具体的研究结果。


T2T-CHM13 提高了远古样本的读段映射质量


研究人员下载了阿尔泰尼安德特人和阿尔泰丹尼索瓦人的原始测序读段,将其分别映射到 GRCh37、GRCh38 和 T2T-CHM13 这三个人类参考基因组上,并使用 GATK 进行变异检测。他们发现,与 GRCh38 相比,有额外的(1.03%)测序读段能映射到 T2T-CHM13 上。和最初的 GRCh37 相比,T2T-CHM13 在所有染色体上的映射率都显著提高,尤其是近端着丝粒染色体,映射率从约 80% 提升到了超过 95%。通过威尔科克森秩和检验,他们还发现 T2T-CHM13 的读段深度标准差明显降低,这意味着其映射质量更高,覆盖更均匀。在分析丹尼索瓦人基因组数据时,也得到了一致的结果。这表明 T2T-CHM13 在远古基因组的读段映射和变异检测方面表现更出色,为后续精确分析基因渗入奠定了基础。


公共 1KGP 分相数据的预处理流程会在尼安德特人血统估计中引入偏差


在准备用于远古基因渗入检测的现代人类变异数据时,研究人员发现,为 GRCh38 和 T2T-CHM13 生成分相变异调用格式(VCF)文件时,所使用的预分相过滤策略存在显著差异。为了评估这些差异对远古基因渗入分析的影响,他们在未分相的 VCF 数据集上重复这两种策略,然后进行分相和尼安德特人序列识别。结果发现,不同策略下排除的双等位基因变异模式相似,但主要差异在于次要等位基因计数(MAC)截止值和变异质量得分对数优势比(VQSLOD)截止值。严格的 VQSLOD 阈值会引入系统偏差,导致支持非同源一致(IBD)的变异比例增加。在使用 IBDmix 检测尼安德特人序列时,这种偏差表现得很明显。在 GRCh38 的检测集中,使用策略 1 比策略 2 检测到的每个个体的尼安德特人渗入序列平均数要高 15 - 20%;在 T2T-CHM13 的检测集中,策略 1 识别出的尼安德特人序列比策略 2 多高达 40%。因此,为了减少偏差,后续分析统一使用策略 1。


IBDmix 在 T2T-CHM13 中识别出更多尼安德特人序列


研究人员采用一致的预分相策略,对 GRCh38 和 T2T-CHM13 的数据集进行分析,以识别现代人群中分离的尼安德特人序列。他们发现,与之前基于 GRCh37 的检测集相比,GRCh38 和 T2T-CHM13 中每个个体的尼安德特人序列都有所增加,且这种增加在各个人群中都一致。更重要的是,他们发现 T2T-CHM13 中有大约 51.3 Mb 的尼安德特人序列是 GRCh38 中未检测到的。其中,约 1.68 Mb 位于 T2T-CHM13 新解析的区域。尽管如此,三个参考基因组之间仍有大量重叠,T2T-CHM13 中约 94% 的尼安德特人序列与之前在 GRCh37 中报道的序列相同。后续分析主要聚焦于 GRCh38 和 T2T-CHM13 的比较。


小规模变异影响尼安德特人序列的识别


相比 GRCh38,在 T2T-CHM13 的检测集中,研究人员识别出 2087 个新的尼安德特人渗入片段,覆盖了约 51.3 Mb 的基因组。这些片段分为两类,242 个片段(约 15.92 Mb)与 GRCh38 中识别出的渗入序列不重叠,被称为 “独立序列”;其余 1845 个片段(约 35.35 Mb)则是 GRCh38 中已有渗入序列的延伸,被称为 “延伸序列” 。这些片段长度差异很大,从几个碱基对到几百千碱基不等。通过分析,他们发现 T2T-CHM13 和 GRCh38 组装之间的小遗传差异会影响读段映射质量和基因分型准确性,进而影响远古渗入信号的检测。例如,T2T-CHM13 中 9 号染色体上一个约 1 kb 的插入引入了新的尼安德特人渗入信号,在所有非非洲人群中高频出现(> 5%),且该信号覆盖了与先天性肌无力综合征相关的 MUSK 基因。这充分说明了参考基因组之间的局部遗传差异对远古基因渗入检测的重要影响。


T2T-CHM13 参考基因组中发现新的适应性尼安德特人渗入信号


以往研究已经报道了适应性远古基因渗入的实例,即特定人群中高频出现远古单倍型的区域。研究人员运用已有的方法,在 T2T-CHM13 中识别群体水平的适应性变异。这些变异位于 IBDmix 识别出的渗入片段内,与尼安德特人等位基因匹配,并且在不同群体间的衍生等位基因频率(DAF)存在显著差异。在分析的基因组中,他们在 GRCh37、GRCh38 和 T2T-CHM13 中分别识别出 87、87 和 94 个群体特异性高频尼安德特人单倍型。对比发现,T2T-CHM13 中约 90%(84/94)的单倍型与其他参考基因组中的一致。在 T2T-CHM13 中特有的 10 个新的群体特异性适应性单倍型中,有两个是非洲特异性的,两个是非非洲特异性的。这些区域不仅包含之前已知的适应性渗入靶点,还涉及新发现的与尼安德特人适应性渗入相关的基因组区域,其中的基因参与代谢、离子通道功能和嗅觉过程等。此外,还发现了一些非洲人与欧洲人、非洲人与东亚人共享的高频单倍型,涉及癌症代谢相关基因。这表明 T2T-CHM13 有助于发现新的适应性渗入证据,加深我们对人类进化历史和基因组变异的理解。


尼安德特人渗入序列数据库 ——ASH


为了推动远古人类基因交融研究的广泛应用,研究人员开发了 ArcSeqHub(ASH)这个用户友好的网络界面。该平台整合了来自全球不同地理区域 2504 个样本(来自 1000 Genomes Project)中的大量尼安德特人序列,以及在 GRCh37、GRCh38 和 T2T-CHM13 中识别出的相应适应性尼安德特人渗入信号。ASH 提供了基因查询和位点查询两种直观的搜索选项,方便研究人员可视化尼安德特人渗入序列和相关功能基因,还能获取关键统计信息,如不同超级群体或个体样本中的渗入比例。而且,平台上的所有数据集、统计信息和材料都可免费下载,为科研社区提供了极大的便利。


在这项研究中,研究人员利用 T2T-CHM13 参考基因组重新处理和分析了远古基因组数据,发现与其他参考基因组相比,T2T-CHM13 能通过 IBDmix 检测到更多的渗入序列。这主要得益于其在基因组组装、变异检测和过滤策略上的改进,它能够更准确地校正变异位置和基因型,排除因片段重复导致的错误变异检测。研究还发现,参考基因组之间的小遗传差异会影响远古基因渗入区域的检测,在未来研究中需要考虑这些差异。虽然在 T2T-CHM13 新解析的 8% 基因组中,新发现的尼安德特人序列有限,但这主要是由于这些区域的复杂性和重复性,以及当前测序技术的限制。此外,变异过滤流程对尼安德特人血统检测有重要影响,研究人员需要根据研究目标和算法要求谨慎选择过滤标准。


这项研究意义重大。T2T-CHM13 在远古基因渗入研究中展现出明显优势,为我们提供了更准确的分析结果,让我们对远古人类基因在现代人群中的遗传情况有了更深入的了解。新发现的尼安德特人序列和适应性渗入信号,为研究人类进化历史、基因组变异和功能提供了新线索。ASH 数据库的建立,更是为全球科研人员提供了一个便捷的研究平台,促进了远古人类基因交融研究的发展,有助于我们进一步探索人类演化的奥秘,在人类遗传学和进化研究领域迈出了重要一步。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号