《Scientific Reports》:Transformer-based deep learning ensemble framework predicts autism spectrum disorder using health administrative and birth registry data
编辑推荐:
当前自闭症谱系障碍(ASD)诊断常因症状识别不系统而延误或漏诊,缺乏通用筛查项目。研究人员开展基于健康管理和出生登记数据预测 ASD 的研究。结果显示,Transformer 模型集成在预测 ASD 诊断上表现良好,为通用筛查提供了新途径。
自闭症,这个神秘的神经发育障碍,如同隐匿在孩子成长道路上的 “隐形杀手”,近年来愈发频繁地出现在人们的视野中。据统计,2018 年美国约每 44 名儿童中就有 1 名在 8 岁前被诊断为
自闭症谱系障碍(ASD) 。ASD 主要表现为社交互动、言语及非言语沟通困难,还有重复性行为。早期诊断和干预对改善患儿的长期预后极为关键,比如应用行为分析疗法能提升孩子解决问题和语言表达能力,职业疗法有助于日常自理等。但现实却很残酷,目前 ASD 的诊断主要依靠症状和家族史,这种方式既不系统也不准确,导致很多孩子错过了最佳治疗时机,而且全球范围内都没有通用的筛查项目。因此,探寻一种更有效的早期筛查方法迫在眉睫。
来自加拿大的研究团队肩负起了这一重任,他们利用安大略省的健康管理和出生登记数据,开展了一项旨在预测 ASD 的研究。最终,该研究成果发表在《Scientific Reports》上。
为了实现研究目标,研究人员运用了多种关键技术方法。他们采用回顾性、基于人群的队列研究,数据来源于安大略临床评价科学研究所(ICES)、更好结局登记与网络(BORN)安大略数据库等。在分析过程中,使用了两种机器学习(ML)算法 —— 用于电子健康记录分析的 Transformer 模型(BEHRT)和极端梯度提升(XGBoost)模型,并结合可解释人工智能(XAI)方法确定影响 ASD 发病可能性的因素。
下面来看看具体的研究结果:
研究队列 :研究最终纳入了 707,274 对母婴数据,其中有 10,956 例 ASD 病例(占比 1.55%)。通过对比发现,ASD 患儿中男性更多,剖宫产比例更高,出生体重更低,胎龄更小,而且母亲有精神健康障碍或糖尿病等疾病的比例也更高,孕期吸烟的情况也更普遍。
模型性能评估 :经过超参数调优实验,研究人员发现重采样实验中在训练时对 ASD 和非 ASD 病例进行下采样平衡能获得最高性能。最终表现最佳的 Transformer 模型集成达到了 69.6% 的受试者工作特征曲线下面积(AUROC),灵敏度为 70.9%,特异性为 56.9%,阳性预测值为 2.4%,阴性预测值为 99.22% 。
模型特征分析 :通过 SHapley Additive exPlanations(SHAP)分析,研究人员确定了一些重要特征。如性别、出生体重、母亲精神疾病等因素对预测 ASD 有重要影响,而且不同数据集之间这些重要特征具有一致性。
在研究结论和讨论部分,研究表明利用 ML 模型分析人群基础的常规收集数据来识别有 ASD 患病风险的幼儿是可行的。虽然研究存在一些局限性,比如数据可能存在因就诊次数差异带来的偏差、缺乏父亲信息、依赖现有算法确定 ASD 真实标签等,但模型在验证和测试数据集上表现出良好的泛化性,而且确定的一些新生儿筛查因素有望用于早期通用 ASD 筛查项目。总体而言,这项研究为 ASD 的早期筛查开辟了新的道路,为后续研究和临床应用提供了重要参考,让人们在攻克自闭症这一难题上又迈进了一步。
鎵撹祻
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�