《Scientific Reports》:Identification of patients at risk for pancreatic cancer in a 3-year timeframe based on machine learning algorithms
编辑推荐:
胰腺癌(PC)早期检测困难,为解决此问题,研究人员基于电子健康记录(EHR)开展识别 PC 风险患者的研究。通过构建模型,发现该模型能识别出风险比普通人群高近六倍的患者,为胰腺癌早期筛查提供了新方法。
胰腺癌是一种恶性程度极高的癌症,尽管其发病率相对较低,每 10 万人中约有 13.2 人患病,但它如今已成为癌症死亡的第三大原因。目前,大多数胰腺癌患者确诊时已处于晚期,难以治愈。早期检测对提高患者生存率至关重要,然而,由于胰腺癌在人群中的发病率低,已知的风险因素较少,且缺乏有效的非侵入性筛查手段,美国预防服务工作组并不支持在普通人群中进行胰腺癌筛查。当前,参与筛查项目的患者多是基于家族病史或已知的生殖系突变状态(即高危个体,HRI),或是在偶然发现囊性肿瘤后才被纳入筛查范围,但实际上,只有 10 - 20% 的胰腺癌患者符合基于家族病史或生殖系突变的筛查标准,且不超过 15% 的癌症源于囊性病变。这意味着大多数最终被诊断为胰腺癌的患者,按照现行筛查标准无法获得筛查机会。此外,对高危个体的识别和检测存在显著差异,进一步降低了现有筛查建议的有效性。
为了突破这些困境,纽约大学(New York University)的研究人员开展了一项研究,旨在开发一种预测模型,以识别在两年半至三年内有新发胰腺癌风险的患者。研究成果发表在《Scientific Reports》上。
研究人员使用了纽约大学朗格尼健康系统(NYU Langone Health)2000 - 2021 年的电子健康记录(EHR),涉及 537410 名患者。这些记录包含患者的人口统计学信息、诊断记录和实验室检查值等。研究人员首先通过全基因组关联研究(Phenome - wide Association Study,PheWAS)在匹配的病例对照队列中确定了 73 个胰腺癌风险因素,包括诊断代码和实验室检查值。然后,基于这些风险因素,他们构建了一个大规模的机器学习算法模型。
在研究过程中,研究人员采用了多种关键技术方法。首先是 PheWAS 分析,用于特征选择。研究人员定义了胰腺癌患者和非胰腺癌患者的纳入标准,匹配病例对照队列,控制年龄、性别等混杂因素,对 19304 个疾病记录和 10 个实验室测试或生理指标进行分析,筛选出与胰腺癌发病显著相关的变量。其次,构建预测模型时,使用正则化逻辑回归模型,基于弹性网络正则化方法进行训练。为了缓解数据集中的类别不平衡问题,在逻辑回归模型中应用了平衡类权重。最后,通过时间分层验证评估模型性能,将数据集分为训练集和验证集,在验证集中计算受试者工作特征曲线下面积(AUROC)、阳性预测值(PPV)等指标。
研究结果如下:
确定相关变量 :通过 PheWAS 分析,研究人员确定了 73 个诊断代码和 5 个实验室检查值与胰腺癌发病显著相关。例如,胰腺疾病未特指(ICD10 K86.9)、胰腺假性囊肿(ICD10 K86.3)、葡萄糖 > 126.0 等变量,在病例组和对照组中的差异具有统计学意义。
模型性能评估 :研究人员构建了两个预测模型,模型 1 在全人群(年龄大于 40 岁)中进行训练和评估,模型 2 仅在无已知胰腺疾病或未进行横断面成像的患者中进行训练和评估。两个模型的 AUROC 均为 0.742 [0.727, 0.757] ,表明模型具有一定的预测能力。在 PPV 方面,筛查风险评分前 1% 和前 5% 的患者,其 PPV 分别比普通患者人群高约 6 倍和 4 倍,且比基于 2 型糖尿病(T2D)的风险评估模型的 PPV 更高。
敏感性分析 :研究人员进行了敏感性分析,通过随机翻转 20% 癌症样本和相同数量的非癌症样本标签,重新训练模型。结果显示,模拟实验的 AUC 为 0.718 [0.713, 0.722] ,与原始数据集的性能无显著差异,表明模型对 EHR 中的一些噪声具有鲁棒性。
研究结论和讨论部分指出,本研究表明利用机器学习模型中的静态变量识别出胰腺癌风险比普通人群高六倍的患者群体是可行的。这一方法为寻找基线风险足够高的富集人群,从而进行胰腺癌筛查的讨论提供了一种易于实施的途径。基于 EHR 识别个体并结合通知系统,有机会减少筛查差异,识别新的高危人群。然而,目前胰腺癌筛查测试存在显著缺陷,这无疑会影响发现高危人群的益处。未来,研究人员将聚焦于评估该机器学习模型实施的影响,并期望在筛查方式不断改进的同时开展相关研究。这项研究为胰腺癌的早期筛查带来了新的希望,虽然目前面临一些挑战,但为后续研究指明了方向,有望推动胰腺癌早期检测领域的发展。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》