基于HiFi测序的全基因组高度相似旁系同源基因解析:Paraphase方法在医学遗传学中的突破应用

《Nature Communications》:

【字体: 时间:2025年03月09日 来源:Nature Communications

编辑推荐:

  编辑推荐:研究团队针对人类基因组中高度同源的节段重复区域(SDs)变异检测难题,开发了HiFi长读长测序分析工具Paraphase。该方法通过全局单倍型分相技术,成功解析160组>99%相似度的基因簇(含316个基因),揭示群体间拷贝数变异(CNV)差异,发现23组低多样性基因群,并在36个家系中鉴定出11个新生突变(含4例非等位基因转换)。该研究为脊髓性肌萎缩症(SMN1/SMN2)、先天性肾上腺增生症(CYP21A2)等SDs相关疾病的精准诊断提供新范式。

  

在人类基因组这片复杂的"生命密码图谱"中,节段重复区域(Segmental Duplications, SDs)犹如隐藏着无数镜像迷宫的未知地带。这些长度超过10kb、序列相似度高于99%的区域,编码着316个功能重要的基因,却因高度同源性成为传统短读长测序技术的"盲区"。临床诊断中,脊髓性肌萎缩症(SMN1/SMN2)、21-羟化酶缺乏型先天性肾上腺增生症(CYP21A2/CYP21A1P)等数十种遗传病的基因检测,仍依赖MLPA、Sanger测序等低通量技术组合,不仅流程繁琐,更可能漏检未知变异。更令人困扰的是,这些区域频繁发生的基因转换(gene conversion)和不等交换(unequal crossing over),使得基因拷贝的"身份认证"变得扑朔迷离。

为攻克这一难题,Pacific Biosciences公司的Xiao Chen、Michael A. Eberle领衔的国际团队开发了创新性分析工具Paraphase。该方法利用HiFi长读长测序技术,通过全局单倍型分相策略,首次实现了对160组高度相似基因簇的系统解析。研究团队在259个五大人群样本中,不仅绘制出这些"基因组暗物质"的群体遗传图谱,更在36个家系中发现7个新生单核苷酸变异(SNV)和4个新生基因转换事件。这项发表于《Nature Communications》的研究,为遗传病精准诊断提供了突破性的解决方案。

关键技术方法
研究采用PacBio HiFi全基因组测序数据(30X深度),通过自主开发的Paraphase V3.1.2分析流程实现三大创新:1)将同源基因簇所有读段重新比对至原型基因(archetype gene);2)基于图论的单倍型分相技术;3)基因特异性变异检测模块。验证阶段整合47个HPRC高质量二倍体组装数据、21个临床验证样本(含Radboud大学医学中心、GeneDx等来源)及36个家系数据,通过正交实验确认检测准确性。模拟分析显示该方法在10kb读长、10X单倍型深度和0.05%序列差异条件下仍保持高精度。

主要研究结果

  1. 基因组范围解析160组基因簇
    Paraphase成功分析316个基因组成的160组旁系同源区域,其中149组位于同一染色体(16组为<10kb串联排列)。短读长数据在这些区域的中位比对质量(MAPQ)≤20的位点占比达98.8%,而HiFi数据仍有75.2%区域存在低质量位点,凸显长读长技术的必要性。

  2. 拷贝数变异群体特征
    群体分析揭示64组基因呈现高拷贝数变异性(CNV),79组保持稳定。值得注意的是,22组在>95%个体中仅存在两个拷贝,提示GRCh38参考基因组可能存在错误重复,其中19组被CHM13 T2T组装证实为假阳性。相反,CTAGE5/CTAGE9等3组虽在CHM13中缺失,但群体数据证实其真实存在。

  3. 低多样性基因簇的发现
    通过单倍型序列差异分析,鉴定出23组"基因身份模糊"的特殊簇群。性染色体上低多样性基因(如HSFY1/HSFY2)多呈现回文结构且进化保守,而常染色体簇(如AMY1A/AMY1B/AMY1C)则多为人种特异性复制且CNV率高。PCA分析显示这些基因的旁系同源拷贝无法通过序列差异区分。

  4. 新生突变检测
    在家系分析中发现11个新生事件,包括7个SNV和4个基因转换。特别值得注意的是2例非等位基因转换,证实SDs区域存在复杂的序列交换机制。所有事件中仅1个为外显子变异(同义突变),其余分布于非编码区。

  5. 医学相关基因解析
    在CYP21A2基因簇中,发现1-2%人群携带包含Q319X致病突变的功能拷贝重复等位基因,这种复杂结构易被传统方法误判。PMS2/PMS2CL分析显示75%非洲裔个体存在外显子13-14区段基因转换,而NM_000535.7:c.*92dup等"假标记"变异在72.8%的PMS2CL和31.1%的PMS2单倍型中出现,警示临床解读需谨慎。

研究结论与展望
该研究通过创新的Paraphase分析方法,首次实现对人类基因组"暗物质"——高度相似旁系同源基因簇的系统解析。其核心价值体现在三个方面:1)技术层面,建立HiFi长读长数据解析SDs区域的标准流程;2)生物学发现,揭示性染色体与常染色体旁系同源基因迥异的进化模式;3)临床转化,为9类重要遗传病(SMN1、CYP21A2等)提供一体化检测方案。

特别值得关注的是,研究发现的23组低多样性基因簇为理解基因转换与自然选择博弈提供了新视角。性染色体上保守的回文结构基因可能通过臂间转换维持功能,而常染色体上人种特异性扩增的AMY1A等基因则暗示饮食适应性进化。临床方面,研究证实34.7-75%个体在9个医学相关基因簇携带变异,其中非洲裔人群变异负荷显著偏高,为精准医学的种族差异研究提供新线索。

未来,随着T2T参考基因组的完善和长读长测序成本的降低,Paraphase方法有望成为遗传病诊断的"金标准"。研究者特别指出,该方法当前暂未覆盖>4拷贝的超高重复基因簇,这将是下一阶段技术优化的重点方向。这项研究不仅填补了人类遗传变异图谱的关键空白,更开创了复杂基因组区域群体遗传学研究的新范式。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号