贝叶斯因果图模型 MrDAG:解锁多因素与多结局关联的新钥匙,助力精准医学

《AJHG》:Bayesian causal graphical model for joint Mendelian randomization analysis of multiple exposures and outcomes

【字体: 时间:2025年04月03日 来源:AJHG 9.8

编辑推荐:

  本文提出 MrDAG(Mendelian randomization with Directed Acyclic Graph)这一贝叶斯因果图模型,用于多暴露和多结局的孟德尔随机化(MR)分析。它能有效检测变量间依赖关系,改进因果效应估计。在模拟和真实数据应用中表现出色,为研究复杂因果关系提供新途径。

  

引言

孟德尔随机化(MR)分析中,遗传证据被越来越多地用于推断人类性状之间的因果关系。传统的标准 MR 范式通常是单暴露和单结局的分析,但这种方法可能会受到未测量的多效性的影响。当作为工具的遗传变异通过不同途径影响所研究的暴露时,就会出现这种情况。为了解决这一问题,研究人员提出了多种扩展方法,包括考虑多个暴露和多响应的 MR 方法。然而,这些方法都存在一个重要的局限性,即它们没有考虑暴露和结局之间的依赖关系,从而影响了因果效应的检测和准确性。
此前已有研究尝试解决这一问题,如 Howey 等人提出的基于个体水平数据的贝叶斯网络算法,以及 Badsha 和 Fu 提出的基于约束的方法。但这些方法都存在一些问题,如未观察到的混杂因素可能导致结果有偏差,所识别的有向无环图(DAG)可能不唯一,以及在处理混合类型数据时存在困难等。近期,也有其他实验室提出了一些解决方案,如结合 MR 和网络反卷积的方法,但这些方法同样存在一些局限性,如依赖特定假设、可能导致因果效应稀释等。
在此背景下,本文提出了 MrDAG 模型。该模型是一种基于贝叶斯因果图的 MR 方法,结合了遗传变异作为工具变量、结构学习和干预演算三种因果推断策略。它利用全基因组关联研究(GWAS)的汇总数据,学习相互关联的暴露如何影响多个结局,进而估计直接因果效应。研究人员以六种常见的可改变的生活方式和行为暴露对七种心理健康表型的影响为例,展示了 MrDAG 模型在实际应用中的优势。

MrDAG 的方法

因果推断策略

MrDAG 结合了三种因果推断策略。首先,利用 MR 范式,将遗传变异作为工具变量(IVs),以确保在存在未观察到的混杂因素时也能得出因果结论。其次,进行结构学习。在标准的单暴露单结局 MR 中,变量间的条件依赖关系和图形表示是已知的,但在多暴露和多结局的情况下,这些关系需要从数据中学习。研究人员通过本质图(EGs)和结构学习来检测这些关系。结构学习是一个模型选择问题,旨在估计最能描述给定数据集依赖结构的图。由于在没有可识别性条件的情况下,无法唯一估计潜在的 DAG,因此本研究旨在在部分排序(即从暴露到结局的边的方向约束)下进行 EG 学习。最后,进行干预演算。基于 DAG 的图形模型适合基于干预分布的因果推理,通过对暴露进行干预,并利用图形规则将 “干预” 条件转换为 “观察” 条件,从而估计因果效应。
在这一过程中,通常需要满足因果充分性假设,即所有混杂因素都可测量。但在实际数据应用中,这一条件往往难以满足。MrDAG 通过使用遗传预测值来解决这一问题,因为遗传预测的性状仅依赖于选定的 IVs,混杂因素不会掩盖因果效应估计所需的真实依赖关系。MrDAG 模型可以总结为一个公式,其中包含 IVs、遗传关联估计值、遗传预测值和协方差矩阵等参数。通过这个公式,MrDAG 可以进行结构学习和因果效应估计,同时考虑到图形模型的不确定性,并通过贝叶斯模型平均获得因果效应。

工具变量的选择

MrDAG 使用与多变量 MR(MVMR)相同的工具变量选择程序。一个遗传变异被认为是 MVMR 的有效工具变量,需要满足三个核心条件:独立性(IV1),即变异与每个暴露 - 结局关联的所有混杂因素独立;相关性(IV2),即变异与每个暴露在其他暴露给定的条件下不独立;排除限制(IV3),即变异在暴露和混杂因素给定的条件下与结局独立。在实际应用中,只有 IV2 可以通过计算评估,同时存在检测弱 IV 偏差的测试方法。
与双向 MR 不同,MVMR 选择的 IVs 是全基因组显著遗传变异的并集,MrDAG 通过结合 MVMR 的 IV 选择方法和 EG 学习,可以推断暴露之间关系的双向性,而无需重复选择 IVs 和进行后续分析。同时,MrDAG 还可以通过检查遗传变异是否符合模型来处理可能存在的未测量多效性问题,例如通过检测异常值来识别可能无效的 IVs。

研究结果

模拟研究

研究人员进行了一项综合模拟研究,生成了四种不同的计算机模拟场景,每种场景包含 100,000 个个体,其中有 100 个独立的遗传变异、一个未观察到的混杂因素、15 个暴露和 5 个结局。模拟场景通过组合不同的策略来模拟暴露和响应之间的依赖模式。研究人员将 MrDAG 与已发表的 MVMR 方法进行比较,包括 MR 与贝叶斯模型平均(MR-BMA)、稀疏多变量贝叶斯汇总水平 MR 模型(MR2)、基于 PC 算法的 MR(MRPC)、Partition-DAG(ParDAG)和 Graph-MRcML 等。
评估标准包括使用精确召回曲线(PRC)来评估检测依赖关系的能力,以及计算均方误差(SSE)来评估因果效应估计的质量。结果表明,Graph-MRcML 由于其所需假设在模拟场景中常被违反,因此被排除在比较之外。在其他方法中,MR-BMA 在检测因果效应时存在大量误报,且无法估计暴露和结局内的依赖模式;MR2在检测结局内的复杂依赖关系时存在困难;ParDAG 在所有类型的设计关系中表现最差;MRPC 在检测某些依赖关系时存在假阴性和误报。相比之下,MrDAG 在检测有向和双向边方面表现更好,在所有模拟场景中都具有较低的 SSE,并且对不同的参数设置相对不敏感,能够更准确地检测未混杂的依赖关系并改进因果效应估计。

对噪声和错误定义的鲁棒性

研究人员还评估了 MrDAG 对噪声遗传关联估计和暴露 - 结局组定义错误指定的鲁棒性。在噪声遗传关联估计的实验中,通过减少个体数量来模拟噪声数据,结果显示 MrDAG 在检测模拟因果效应和估计因果效应质量方面仍优于其他方法,尤其是在结局内存在依赖关系的情况下。在暴露 - 结局组定义错误指定的实验中,研究人员故意将部分暴露错误指定为结局,结果表明 MrDAG 受影响较小,仍然能够检测到模拟的稀疏信号,并且在因果效应估计质量方面表现最佳。

真实数据应用:生活方式和行为特征对心理健康的影响

研究人员将 MrDAG 应用于真实数据,以研究生活方式和行为暴露对心理健康表型的影响。选择了七种生活方式和行为特征作为暴露,包括教育(EDU)、身体活动(PA)、睡眠时间(SP)、饮酒量(ALC)、吸烟(SM)和休闲屏幕时间(LST);选择了七种心理健康表型作为结局,包括重度抑郁症(MDD)、神经性厌食症(AN)、注意力缺陷多动障碍(ADHD)、双相情感障碍(BD)、自闭症谱系障碍(ASD)、精神分裂症(SCZ)和认知(COG)。
结果显示,EDU 和 SM 是对心理健康表型有重要下游影响的两个关键共享暴露。例如,遗传预测的 EDU 与 COG、ASD 和 BD 的 liability 增加以及 ADHD 的 liability 降低有关;遗传预测的 SM 与 MDD、ADHD、BD、SCZ 和 COG 有关。同时,MrDAG 还发现了一些之前未被充分认识的关系,如 SM 与 SCZ 之间的关系可能通过 MDD 和 BD 介导。通过去除 MDD 或 BD 进行分析,进一步证实了这些中介效应的存在。
此外,研究人员还测试了反向因果关系,即心理健康表型对生活方式和行为特征的影响。结果发现,除了遗传预测的 COG 对 EDU 有正向影响外,遗传 liability 对 MDD 和 ADHD 与 SM 有关。最后,研究人员通过敏感性分析和自举法验证了 MrDAG 结果的有效性,并与其他方法进行了比较,结果表明 MrDAG 在估计直接因果效应和分离重要依赖关系方面具有优势。

讨论

MrDAG 是第一个用于多暴露和多结局联合分析的贝叶斯因果图 MR 模型。在模拟研究中,它优于近期提出的单结局和多响应多变量 MR 方法以及其他因果图模型。在真实数据应用中,它能够揭示生活方式和行为特征与心理健康表型之间的复杂相互作用,突出了 EDU 和 SM 作为干预点的重要性。
MrDAG 的优势源于其三个方法学进展:一是在结构学习中,通过使用 IVs 绕过了因果充分性假设,利用遗传预测的暴露和结局来学习未混杂的依赖关系;二是基于 Pearl 的干预演算来估计因果效应,并通过贝叶斯模型平均考虑了图形模型的不确定性;三是允许纳入领域知识关系,如通过限制暴露和结局之间的边的方向来反映 MR 范式的假设。
然而,MrDAG 也存在一些局限性。在模拟研究中,当汇总数据来自噪声遗传关联估计时,其检测因果效应的能力会下降;在真实数据应用中,它受到初始 GWAS 偏差的限制,例如心理健康研究依赖临床诊断可能导致偏差,且当前 GWAS 未充分考虑共病情况。未来的 GWAS 研究有望提供更精细的遗传关联,帮助解决这些问题。总体而言,MrDAG 为研究复杂表型性状之间的因果机制提供了新的视角和方法,有助于推动心理健康领域的转化研究。

数据和代码可用性

文章中提到数据来源在补充文本中,并提供了相关的 URL 链接。MrDAG 学习 R 包可在https://github.com/lb664/MrDAG/上免费获取,其中包含真实数据应用的数据和运行算法的方法,以及用于估计因果效应和后验概率的后处理例程。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号