-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Cell Genomics》多组学 QTL 研究揭秘 GWAS 位点的神秘面纱与致病关键
【字体: 大 中 小 】 时间:2025年02月24日 来源:Cell Genomics 11.1
编辑推荐:
为解决 GWAS 位点与 eQTL 共定位率低的问题,研究人员开展多组学 QTL 研究。他们发现众多 QTL,明确其特性及与 GWAS 位点关系。该研究有助于阐释基因调控机制,为疾病研究提供新思路,值得科研读者一读。
在基因研究的大舞台上,全基因组关联研究(Genome-Wide Association Study,GWAS)发现了超多与人类疾病和性状相关的基因位点,这无疑是重大突破。但让人头疼的是,超过 90% 的 GWAS 位点都在基因组的非编码区域,这些位点的因果变异就像神秘的 “幕后黑手”,人们推测它们在调控基因表达,可就是难以捉摸。于是,表达数量性状位点(Expression Quantitative Trait Loci,eQTL)分析闪亮登场,它试图解释 GWAS 信号的调控功能,可尴尬的是,只有约 43% 的 GWAS 位点能与成年组织中鉴定出的 eQTL 共定位,这中间巨大的 “鸿沟” 让科学家们抓耳挠腮。
为了搞清楚这中间的奥秘,来自多个研究机构的科研人员齐心协力,在《Cell Genomics》期刊上发表了一篇名为 “Multiomic QTL mapping reveals phenotypic complexity of GWAS loci and prioritizes putative causal variants” 的论文。他们通过研究发现了 70,446 个影响基因表达和染色质表型的多组学 QTL(Quantitative Trait Loci,数量性状位点 ),还惊喜地发现染色质 QTL 能够捕捉到那些与表达 QTL 不相关的 GWAS 位点,并且 iPSCORE QTLs 在早期发育阶段展现出了一致的时间活性。这一研究成果意义非凡,为解释 GWAS 位点的功能提供了新的视角,还能更精准地筛选出可能的致病基因变异,为后续研究指明了方向。
为了开展这项研究,研究人员使用了多种技术方法。他们运用高通量测序技术,对来自 iPSCs(诱导多能干细胞)、CVPCs(心血管祖细胞)和 PPCs(胰腺祖细胞)的样本进行 RNA - seq(转录组测序)、ATAC - seq(转座酶可及染色质测序)和 H3K27ac ChIP - seq(H3K27 乙酰化染色质免疫沉淀测序),获取大量分子数据。通过线性混合模型来寻找 QTL,同时利用贝叶斯共定位分析研究 QTL 与 GWAS 位点的关系。此外,还借助相关软件进行数据处理和分析,比如用 mashr 软件识别早期发育特异性 QTL 等。
下面咱们来详细看看他们都有哪些重要发现。
研究人员分析了 1,261 个分子样本,这些样本就像一个个神秘的 “宝箱”,包含了来自 221 名不同种族的 iPSCORE 受试者的全基因组测序(WGS)数据,以及 RNA - seq、ATAC - seq 和 H3K27ac ChIP - seq 数据。这其中有 400 个样本数据是首次发布,861 个以前发表过。这些样本分别来自 220 个 iPSC 系、181 个 iPSC 衍生的 CVPCs 和 109 个 iPSC 衍生的 PPCs,为后续研究提供了丰富的 “原材料”。
科研人员对三种早期发育样组织(iPSCs、CVPCs 和 PPCs)进行了 ATAC - seq 和 H3K27ac ChIP - seq 分析。他们发现,这些组织的调控景观就像独特的 “指纹”,各有不同。通过 UMAP 分析发现,样本会根据组织类型聚集在一起。进一步的足迹分析预测转录因子结合位点(TFBSs),结果显示,与多能性、心脏发育和胰腺发育相关的转录因子(TF)分别在 iPSC、CVPC 和 PPC 特异性的 ATAC - seq 峰中高度富集,而与基本细胞过程相关的 TF 则在共享的 ATAC - seq 峰中富集。这表明这些组织的调控元件分工明确,各自有着独特的 “任务”。
研究人员建立了一个两步定量性状位点(QTLs)管道来寻找和分析调控变异。这一过程就像在茫茫 “基因大海” 里捞 “宝贝”。他们在三种 iPSCORE 早期发育样组织中,一共发现了 70,446 个 QTLs,包括 25,659 个 eQTLs、33,618 个 caQTLs(染色质可及性 QTL)和 11,169 个 haQTLs(组蛋白乙酰化 QTL)。而且还发现 caPeaks(与 caQTL 相关的 ATAC - seq 峰)更倾向于靠近 eGenes(与 eQTL 相关的基因),haPeaks 的发现率大约是 caPeaks 的 3 倍。
研究人员通过注释 iPSC 和 CVPC 的主要 QTL lead 变体的染色质状态,发现调控基因表达、染色质可及性和组蛋白乙酰化的变异位于不同类型的调控元件中。eQTLs 倾向于在启动子区域被发现,而染色质 QTLs(caQTLs 和 haQTLs)既能捕捉启动子区域的调控变异,也能捕捉增强子区域的调控变异。研究还发现,caPeaks 与非 caPeaks 相比,含有不同的预测 TFBSs,这说明调控变异对不同 TF 的结合影响不同。
科研人员利用 mashr 软件,通过计算局部错误符号率(LFSR)来识别早期发育特异性(EDev - specific)的 QTL。他们在 19,305 个 iPSCORE 主要 eQTL 中,找到了 2,299 个 EDev - specific 的 SNP - eGene 对,这些对在至少一种 iPSCORE 组织中显著,在成人 GTEx 组织中不显著。通过分析它们的效应大小相关性发现,EDev - specific 和成人特异性的 eQTLs 在早期发育样和成人组织中的效应大小明显不同,而且 EDev - specific eQTLs 的效应比共享 eQTLs 更小。
研究发现,同一个 QTL 信号可以与多个 qElements(基因和 / 或峰)相关联。研究人员通过计算 LD,确定了 13,604 个共享信号的 QTLs,它们影响多个 qElements,而 46,702 个 QTLs 则是 “独行侠”,只影响单个 qElement。这些复杂 QTLs 就像 “多功能钥匙”,可以打开多个 “基因锁”。进一步分析发现,CVPCs 中的复杂 QTLs 最多,其中近一半的复杂 QTLs 只影响 caPeaks 和 haPeaks,这凸显了这些 QTLs 在捕捉 eQTL 分析遗漏的调控变异方面的重要性。而且,复杂 QTLs 的 lead 变体比单例 QTLs 更靠近转录起始位点(TSS),但无论是复杂还是单例的 caQTLs 和 haQTLs,都比 eQTLs 更远离启动子。
为了探究 caQTLs 和 haQTLs 对 GWAS 位点注释率的影响,研究人员进行了贝叶斯共定位分析。他们发现,10.4% 的 GWAS 位点与 EDev - like QTLs 共定位,其中 301 个(5.8%)只与 caQTLs 和 / 或 haQTLs 共定位,239 个(4.6%)与包含 eQTL 的 QTLs 共定位。这意味着加入染色质 QTLs 后,GWAS 位点的注释数量增加了 2.3 倍。
研究人员计算了 GWAS 位点与最近蛋白质编码基因的 TSS 之间的距离,发现与只和 eQTL 相关的 GWAS 位点相比,只和染色质 QTLs 相关的 GWAS 位点距离启动子更远。而且,共定位的 GWAS 位点比不共定位的更靠近启动子。这表明染色质 QTLs 能够捕捉到 eQTLs 遗漏的远端调控元件,这就是加入它们能解释更多 GWAS 位点的原因。
研究人员将复杂 QTLs 和单例 QTLs 根据相关分子表型进行分类,发现影响所有三种表型(caQTLs、haQTLs 和 eQTLs)的复杂 QTLs 共定位率最高,因为它们靠近启动子,能捕捉到影响启动子的调控变异。而只与 haQTLs 和 caQTLs 相关的复杂 QTLs 位于远端区域,能捕捉到 eQTLs 未覆盖的调控变异。
研究人员在测试胎儿起源假说时发现,在与至少一个 eQTL 共定位的 239 个 GWAS 位点中,只有 5.4%(n = 13)与 EDev - specific eQTLs 相关,这表明早期发育特异性的调控变异只解释了一小部分与成年期调控变异无关的 GWAS 位点。
在确定 GWAS 位点的因果变体时,研究人员通过分析 QTL 与 TF 基序的重叠情况来对变体进行表征。他们在 611 个高可信度的 GWAS - QTL 共定位中,找到了 548 个与 TF 基序重叠的潜在因果变体(MOPCVs),并根据它们的表观基因组特性进行了优先级排序。通过深入分析两个高优先级的 MOPCVs,发现它们分别与已知的疾病位点相关,且能通过多组学 QTLs 分析揭示潜在的分子机制。
在讨论部分,研究人员指出,之前的 eQTL 分析只能解释约 43% 的 GWAS 位点,而他们的研究表明,聚焦早期发育时间点的组织和绘制染色质 QTLs,能解释更多 GWAS 位点。研究还发现,复杂 QTLs 与 GWAS 位点的共定位率更高,整合多组学 QTL 数据和 TF 基序分析,能提高识别潜在因果变体的准确性。不过,研究也存在一些局限性,比如 iPSCORE 队列中相关个体的纳入导致有效样本量减少,测序深度的差异和样本量的不均衡可能影响分析结果。
总的来说,这项研究成果意义重大。它为理解 GWAS 位点的调控变异提供了更深入的见解,发现的 70,446 个 QTLs 是一笔宝贵的资源,为后续研究疾病相关的调控变异提供了重要线索。研究还强调了整合多组学 QTL 数据和 TF 基序分析的重要性,为确定复杂性状的潜在因果变体提供了更可靠的方法。尽管存在一些局限性,但它为未来的研究指明了方向,相信在科研人员的不断努力下,基因研究的 “迷雾” 将逐渐消散,为人类健康带来更多希望。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号