编辑推荐:
为解决肿瘤骨转移(BM)早期准确诊断难题,甘肃中医药大学第一临床医学院等单位的研究人员开展 AI 诊断 BM 准确性的研究。结果显示 AI 潜力大,与医生诊断性能相当。推荐阅读,一起探索 AI 在医学诊断中的价值。
在医学领域,肿瘤骨转移(Bone Metastases,BM)是一个极为常见且棘手的癌症并发症。想象一下,癌症就像一个狡猾的 “侵略者”,在身体里四处 “捣乱”,而骨转移就是它开辟的又一个 “战场”。在美国,每年大约有 35 万人因肿瘤骨转移离世,这可不是一个小数目!骨转移最喜欢 “攻击” 的地方是脊柱,尤其是胸椎和腰椎,就像专门挑身体的 “大梁” 下手。不同癌症发生骨转移的概率也不一样,乳腺癌患者中骨转移的发生率高达 73%,前列腺癌和甲状腺癌也分别有 68% 和 42% 。而且,骨转移还会引发一系列麻烦的问题,比如脊髓压迫、高钙血症、病理性骨折,还有让患者痛苦不堪的疼痛,严重影响患者的生活质量。
随着人口老龄化和癌症发病率的上升,肿瘤骨转移带来的挑战越来越大,就像一座沉重的大山,压在医疗系统上。准确诊断肿瘤骨转移至关重要,它能帮助医生判断癌症处于什么阶段,制定合适的治疗方案,还能预测患者的预后情况。目前,临床常用的检查方法是 CT 和 MRI,它们就像医生的 “火眼金睛”,能帮助发现身体里的异常。然而,肿瘤骨转移在这些影像上的表现常常和其他疾病很相似,比如骨岛、多发性骨髓瘤(Multiple Myeloma,MM)和各种溶骨性病变,这就像 “真假美猴王”,让医生很难分辨,一不小心就可能看错,导致漏诊,影响治疗效果。
为了解决这些难题,来自甘肃中医药大学第一临床医学院等单位的研究人员,在《BMC Cancer》期刊上发表了一篇名为 “Accuracy of artificial intelligence in detecting tumor bone metastases: a systematic review and meta - analysis” 的论文。他们想看看人工智能(Artificial Intelligence,AI)这个新兴的 “小助手”,能不能在诊断肿瘤骨转移上帮上大忙。研究结果显示,AI 在诊断肿瘤骨转移方面有很大的潜力,它的诊断准确率比较高,和放射科医生相比,AI 的表现不相上下,甚至在某些方面更胜一筹。这一发现意义重大,如果 AI 能广泛应用到临床中,说不定能缓解医疗资源紧张的问题,提高肿瘤骨转移的诊断率和准确性,让患者得到更好的治疗。
在这项研究中,研究人员用到了几个关键的技术方法。他们先在多个数据库里进行了全面的搜索,像 Ovid - Medline、Web of Science、中国知网等,把和 AI 诊断肿瘤骨转移相关的研究都找出来。然后,按照严格的标准挑选出合适的研究,有的研究因为不符合要求就被 “淘汰” 啦。接着,他们从这些研究里提取有用的数据,还利用专门的工具评估研究的质量和存在的偏差。最后,通过 Meta 分析这种强大的统计方法,把不同研究的数据整合到一起,得出更可靠的结论。
下面我们来详细看看研究结果。
1. 研究选择和特征
研究人员一开始在数据库里找到了 5300 篇文章,不过其中有 1239 篇是重复的,就像双胞胎一样,直接被剔除了。剩下的 4061 篇文章,研究人员通过看标题和摘要进行筛选,又排除了 3970 篇。之后,他们仔细阅读了 91 篇文章的全文,最终确定了 20 篇符合要求的研究,其中 16 篇被纳入 Meta 分析。这些研究大多是回顾性研究,主要用监督学习的方法进行分析。有的研究专注于用 AI 诊断肿瘤骨转移,有的研究则想看看 AI 能不能区分骨转移和其他疾病。而且,大部分研究用的参考标准是病理诊断,还有一些用了 PET - CT、MRI 等影像学检查。
2. 质量评估
研究人员用 PROBAST 工具评估这些研究的偏倚风险,发现只有 3 项研究的偏倚风险比较低,其他大部分研究都存在较高的偏倚风险。主要原因是很多研究没有进行外部验证,而且内部验证用的样本量比较小,就像用小尺子去量长绳子,可能不太准确。另外,研究在报告时也不太规范,很多重要信息都没有报告,比如数据处理的细节、模型训练的过程等。
3. Meta 分析
- AI 诊断肿瘤骨转移的综合检测能力:研究人员用两种方法提取数据进行分析。第一种方法得到的结果显示,AI 诊断肿瘤骨转移的综合敏感性(Sensitivity,SE)为 0.87(0.84 - 0.89),特异性(Specificity,SP)为 0.81(0.76 - 0.84),曲线下面积(Area Under the Curve,AUC)为 0.91(0.88 - 0.93)。第二种方法得到的结果更好,SE 为 0.88(0.82 - 0.92),SP 为 0.89(0.84 - 0.93),AUC 为 0.95(0.92 - 0.96) 。不过,这两种方法都显示研究之间存在很大的异质性,就像一群人各有各的想法,不太统一。
- AI 与医疗专业人员诊断能力的比较:有 7 项研究对比了 AI 和医疗专业人员的诊断性能,其中 6 项研究提供了足够的数据进行 Meta 分析。结果发现,AI 模型的 AUC 为 0.92(0.89 - 0.94),SE 为 0.86(0.72 - 0.94),SP 为 0.86(0.77 - 0.92);而放射科医生的 AUC 为 0.90(0.88 - 0.93),SE 为 0.83(0.78 - 0.83),SP 为 0.88(0.80 - 0.93)。这说明 AI 的诊断性能和放射科医生差不多,甚至还要好一些呢。
- 基于不同算法的 AI 性能:研究人员还分析了不同算法(机器学习 Machine Learning,ML 和深度学习 Deep Learning,DL)的 AI 性能。DL 算法的综合 SE 为 0.89(0.81 - 0.95),SP 为 0.89(0.81 - 0.94),AUC 为 0.95(0.93 - 0.97);ML 算法的综合 SE 为 0.86(0.77 - 0.92),SP 为 0.88(0.86 - 0.92),AUC 为 0.93(0.91 - 0.95) 。很明显,DL 算法在敏感性、特异性和曲线下面积上都比 ML 算法更有优势。
- 基于不同成像方式的 AI 性能:再看看不同成像方式(CT 和 MRI)下 AI 的表现。CT 成像的综合 SE 为 0.89(0.79 - 0.94),SP 为 0.92(0.87 - 0.95),AUC 为 0.96(0.94 - 0.97);MRI 成像的综合 SE 为 0.87(0.77 - 0.93),SP 为 0.85(0.76 - 0.92),AUC 为 0.93(0.90 - 0.95) 。看起来,CT 成像下 AI 的诊断效果要比 MRI 成像更好一点。
4. Meta 回归
Meta 回归分析发现,成像方式和算法类型是影响特异性的重要因素,成像方式还会影响敏感性。这就好比不同的 “武器”(成像方式)和不同的 “战斗策略”(算法类型),会对战斗结果(诊断准确性)产生不一样的影响。
5. 亚组分析
- 图像数量:研究发现,图像数量少(少于 100 张)的研究,综合 SE 为 0.84(0.71 - 0.92),SP 为 0.95(0.88 - 0.98),AUC 为 0.96(0.94 - 0.98);图像数量多(多于 100 张)的研究,综合 SE 为 0.89(0.81 - 0.93),SP 为 0.86(0.81 - 0.90),AUC 为 0.93(0.90 - 0.95) 。
- 数据增强:使用数据增强技术的研究,综合 SE 为 0.80(0.74 - 0.85),SP 为 0.96(0.93 - 0.97);没有使用数据增强技术的研究,综合 SE 为 0.88(0.82 - 0.93),SP 为 0.87(0.81 - 0.91) 。虽然数据增强让敏感性降低了,但是特异性和阳性似然比(Positive Likelihood Ratio,PLR)提高了。
- 数据单位:以患者数量为数据单位的研究,综合 SE 为 0.86(0.79 - 0.91),SP 为 0.82(0.76 - 0.88),AUC 为 0.91(0.88 - 0.93);以病变数量为数据单位的研究,综合 SE 为 0.90(0.79 - 0.95),SP 为 0.92(0.87 - 0.95),AUC 为 0.96(0.94 - 0.98) 。看来,以病变数量为数据单位能得到更高的诊断准确性。
- 研究类型:单中心研究的综合 SE 为 0.90(0.84 - 0.94),SP 为 0.90(0.84 - 0.93),AUC 为 0.96(0.93 - 0.97);多中心研究的综合 SE 为 0.79(0.70 - 0.87),SP 为 0.87(0.74 - 0.94) 。单中心研究的诊断性能要比多中心研究更好,这和大家原本的想法不太一样呢。
- 外部验证:进行外部验证的研究,综合 SE 为 0.87(0.83 - 0.91),SP 为 0.92(0.90 - 0.94);没有进行外部验证的研究,综合 SE 为 0.88(0.80 - 0.93),SP 为 0.88(0.82 - 0.92) 。外部验证能提高诊断性能,还能减少研究之间的异质性。
6. 敏感性分析
敏感性分析表明,就算去掉任何一项研究,对整体结果的影响都不大。就算排除 3 项偏倚风险低的研究,或者排除 1 项不符合报告规范的研究,结果还是很稳定。用两种不同的方法合并数据,结果也没什么变化,这说明这个 Meta 分析很靠谱。
7. 发表偏倚
通过漏斗图分析,研究人员发现没有证据表明存在发表偏倚,这就像是告诉大家,这个研究结果没有被一些 “隐藏的因素” 干扰,比较可信。
最后,我们来总结一下研究结论和讨论部分。这项研究是第一个系统评价 AI 诊断肿瘤骨转移准确性的 Meta 分析,发现 AI 在诊断肿瘤骨转移上有很大的潜力,诊断性能和放射科医生相当,甚至在某些方面更出色。不过,AI 目前在临床应用上还有一些限制,比如它就像一个神秘的 “黑匣子”,决策过程很难让人理解,医生不太敢完全相信它。研究还发现,DL 算法比 ML 算法表现更好,使用数据增强技术虽然会降低敏感性,但能提高特异性和 PLR。亚组分析也发现了一些有趣的现象,比如单中心研究比多中心研究诊断性能好,以病变数量为数据单位比以患者数量为数据单位诊断准确性高,外部验证能提升模型的诊断性能。
但是,这个研究也有一些不足之处。所有纳入的研究都是回顾性研究,可能存在选择偏倚;大部分研究是单中心研究,缺乏外部验证,模型的普适性可能不太好;而且很多研究没有详细报告关键信息,比如模型训练和测试的细节。未来的研究需要解决这些问题,比如进行标准化的数据处理和质量控制,把临床信息和影像数据结合起来,开展大规模、多中心的前瞻性验证研究,这样才能让 AI 更好地应用到临床中,帮助医生更准确地诊断肿瘤骨转移,为患者带来更好的治疗效果。总的来说,这项研究为 AI 在肿瘤骨转移诊断领域的发展指明了方向,让我们看到了 AI 这个 “小助手” 未来在医学领域大放异彩的希望!