亲子“三重奏”方法得出更精确的孩子基因组遗传肖像

【字体: 时间:2023年05月16日 来源:Nature

编辑推荐:

  在一项重大进展中,科学家们收集了来自不同背景的47个人的基因组序列,创建了一个泛基因组,它比现有的参考基因组更准确地代表了人类遗传多样性。这种新的泛基因组将帮助研究人员改进他们对基因和疾病之间联系的理解,并可能最终帮助解决健康差异问题。

  

人类泛基因组参考联盟通过组装来自世界各地的47个个体的基因组序列,在创建更具包容性的人类参考基因组方面取得了重大进展。最初的人类参考基因组是基于来自非洲-欧洲背景的单个个体的数据,限制了其对遗传多样性的代表。这种新的泛基因组以高精度呈现了每个序列的99%以上,揭示了近1.2亿个以前未见过的DNA碱基对。通过提供更准确的人类遗传多样性,研究人员可以改进他们对基因和疾病之间联系的理解,加速临床研究,并最终帮助解决健康差异。

多年来,研究人员一直呼吁建立一种更包容人类多样性的资源,以用于诊断疾病和指导医疗。现在,人类泛基因组参考联盟的科学家们在描述个体间差异的人类DNA部分方面取得了突破性进展。正如他们最近在《Nature》杂志上发表的那样,他们已经将来自世界各地的47个人的基因组序列组装成一个所谓的泛基因组,其中每个序列的99%以上都是高精度的。这些序列层层叠加,揭示了近1.2亿个以前未见过的DNA碱基对。

洛克菲勒大学的Erich D. Jarvis是主要研究人员之一,他说,虽然这项工作仍在进行中,但泛基因组是公开的,可以被世界各地的科学家用作新的标准人类基因组参考。“这种复杂的基因组集合比以往任何时候都更准确地代表了人类遗传多样性。有了更广泛和更深入的基因数据,以及更高质量的基因组组装,研究人员可以完善他们对基因和疾病特征之间联系的理解,并加速临床研究。”

2003年完成的人类基因组初稿相对来说不太精确,但随着空白的填补、错误的纠正和测序技术的进步,它变得更加清晰。另一个里程碑是去年,最后8%的基因组——主要是紧密缠绕的DNA,不编码蛋白质和重复的DNA区域——最终被测序。尽管取得了这些进展,参考基因组仍然不完善,特别是在DNA中代表多样性的关键的0.2%到1%。人类泛基因组参考联盟(HPRC)于2019年成立,由政府资助,由美国和欧洲的十多家研究机构合作,旨在解决这一问题。当时,该联盟的领导人之一贾维斯正在通过脊椎动物基因组计划磨练先进的测序和计算方法,该计划旨在对所有70,000种脊椎动物进行测序。他和其他合作实验室决定将这些进展应用于高质量的二倍体基因组组装,以揭示单一脊椎动物的变异:智人。

为了收集多样化的样本,研究人员求助于1000基因组计划,这是一个人类基因组测序的公共数据库,包括2500多个个体,代表26个地理和种族不同的人群。大多数样本来自非洲,那里是地球上人类多样性最大的地方。

很有可能在这些人群中找到可以让我们了解常见和罕见疾病的基因变异。

但为了扩大基因库,研究人员必须为每个个体创造更清晰、更清晰的序列——脊椎动物基因组计划成员和相关联盟开发的方法被用来解决该领域一个长期存在的技术问题。

每个人都从父母那里继承了一个基因组,这就是为什么我们每个染色体都有两个副本,这就是我们所说的二倍体基因组。当一个人的基因组被测序时,分离父母的DNA可能是一个挑战。旧的技术和算法在合并个体的亲代遗传数据时经常出错,从而导致模糊的视图。“父母染色体之间的差异比大多数人意识到的要大,母亲可能有20个基因副本,而父亲只有2个。”

HPRC采用了一种由美国国立卫生研究院(National Institutes of Health)的Adam Phillippy和Sergey Koren开发的亲子“三重奏”方法——母亲、父亲和一个基因组都已测序的孩子。利用来自父母的数据,他们能够清理遗传线,并为孩子得出更高质量的序列,然后他们将其用于泛基因组分析。

新变化

研究人员对47个人的分析得出了94个不同的基因组序列,每组染色体两个,加上男性的性Y染色体。

然后,他们使用先进的计算技术对94个序列进行对齐和分层。在之前未见过的1.2亿个DNA碱基对中,或者位于与之前参考文献中记录的位置不同的位置,其中约有9000万个来自结构变异,这是当染色体块被重新排列时产生的DNA差异——移动、删除、倒置,或者从复制中获得额外的拷贝。这是一个重要的发现,因为近年来的研究已经确定,结构变异在人类健康和特定人群的多样性中发挥着重要作用。

填充空白

泛基因组组装也填补了由于重复序列或重复基因造成的空白。一个例子是主要的组织相容性复合体(MHC),这是一组基因,编码细胞表面的蛋白质,帮助免疫系统识别抗原,比如来自SARS-CoV-2病毒的抗原。

该团队还发现了着丝粒令人惊讶的新特征,着丝粒位于染色体的交叉点,并在细胞复制时进行细胞分裂。着丝粒的突变会导致癌症和其他疾病。

尽管有高度重复的DNA序列,“着丝粒从一种单倍型到另一种单倍型是如此多样化,以至于它们可以解释人与人之间或母亲和父亲单倍型之间超过50%的遗传差异,甚至在一个个体中,着丝粒似乎是染色体中进化最快的部分之一。”

建立关系

然而,目前的47人泛基因组只是一个起点。HPRC的最终目标是到2024年中期,从来自不同人群的至少350个个体中产生高质量的、几乎没有错误的基因组,这将是一个里程碑,使捕获赋予重要适应性状的罕见等位基因成为可能。例如,西藏人有与氧气使用和紫外线照射有关的等位基因,使他们能够在高海拔地区生活。

A draft human pangenome reference

Increased mutation rate and gene conversion within human segmental duplications
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号