-
生物通官微
陪你抓住生命科技
跳动的脉搏
领先的人工智能模型很难从患者的书面描述中识别出基因状况
【字体: 大 中 小 】 时间:2024年08月16日 来源:AAAS
编辑推荐:
美国国立卫生研究院(NIH)的研究人员发现,虽然人工智能(AI)工具可以从教科书般的遗传疾病描述中做出准确的诊断,但在分析患者关于自己健康状况的总结时,这些工具的准确性要低得多。发表在《美国人类遗传学杂志》上的这些发现表明,在将这些人工智能工具应用于医疗保健领域,帮助诊断和回答病人的问题之前,有必要对它们进行改进。
美国国立卫生研究院(NIH)的研究人员发现,虽然人工智能(AI)工具可以从教科书般的遗传疾病描述中做出准确的诊断,但在分析患者关于自己健康状况的总结时,这些工具的准确性要低得多。发表在《美国人类遗传学杂志》上的这些发现表明,在将这些人工智能工具应用于医疗保健环境以帮助诊断和回答患者问题之前,有必要改进这些人工智能工具。
研究人员研究了一种被称为大型语言模型的人工智能,它是在大量基于文本的数据上进行训练的。由于这些模型具有分析和回答问题的能力,并且通常具有用户友好的界面,因此它们在医学上有很大的帮助。
该研究的资深作者、美国国立卫生研究院国家人类基因组研究所(NHGRI)的临床主任本·所罗门博士说:“我们可能并不总是这样想,但很多医学都是基于语言的。”“例如,电子健康记录和医生和病人之间的对话都是由文字组成的。大型语言模型是人工智能的巨大飞跃,能够以临床有用的方式分析单词可能是令人难以置信的变革。”
研究人员测试了10种不同的大型语言模型,包括两个最新版本的ChatGPT。根据医学教科书和其他参考资料,研究人员设计了63种不同遗传条件的问题。其中包括一些众所周知的疾病,如镰状细胞性贫血、囊性纤维化和马凡氏综合征,以及许多罕见的遗传疾病。
这些症状可以在不同的患者中以各种方式出现,研究人员的目标是捕捉一些最常见的可能症状。他们为每种情况选择了三到五个症状,并以标准格式提出问题,“我有X, Y和Z症状。”最可能的遗传条件是什么?”
当提出这些问题时,大型语言模型在指出正确的基因诊断方面的能力相差很大,初始准确率在21%到90%之间。表现最好的模型是GPT-4, ChatGPT的最新版本之一。
模型的成功通常与它们的大小相对应,这意味着模型所训练的数据量。最小的模型有几十亿个参数,而最大的模型有一万亿多个参数。对于许多表现较差的模型,研究人员能够在随后的实验中提高准确性,总体而言,这些模型仍然比非人工智能技术(包括标准的谷歌搜索)提供更准确的响应。
研究人员以各种方式优化和测试了这些模型,包括用更常见的语言替换医学术语。例如,这个问题不是说一个孩子有“大头畸形”,而是说这个孩子有“一个大脑袋”,更接近地反映了病人或护理人员如何向医生描述症状。
总的来说,当医学描述被删除时,模型的准确性下降了。然而,在使用通用语言时,10个模型中有7个仍然比谷歌搜索更准确。
“重要的是,没有医学知识的人可以使用这些工具,”NHGRI的学士后研究员肯德尔·弗拉哈蒂(Kendall Flaharty)说,他领导了这项研究。“世界上没有很多临床遗传学家,在一些州和国家,人们无法接触到这些专家。人工智能工具可以帮助人们得到一些问题的答案,而无需等待数年的预约。”
为了用真实患者的信息测试大型语言模型的有效性,研究人员要求美国国立卫生研究院临床中心的患者提供关于他们自己的遗传状况和症状的简短文章。这些描述从一句话到几段话不等,与教科书式的问题相比,在风格和内容上也更加多变。
当呈现真实患者的这些描述时,表现最好的模型只有21%的时间做出了准确的诊断。许多模型表现得更差,准确率甚至低至1%。
研究人员希望患者撰写的总结更具挑战性,因为NIH临床中心的患者通常患有极其罕见的疾病。因此,这些模型可能没有足够的信息来做出诊断。
然而,当研究人员对NIH患者中发现的相同的超罕见遗传条件编写标准化问题时,准确性得到了提高。这表明,模型很难解释患者报告的可变措辞和格式,这可能是因为模型是在教科书和其他参考材料上训练的,这些材料往往更简洁和标准化。
所罗门博士说:“为了使这些模型将来在临床上有用,我们需要更多的数据,而这些数据需要反映患者的多样性。”“我们不仅需要代表所有已知的医疗条件,还需要代表年龄、种族、性别、文化背景等方面的差异,这样数据才能捕捉到患者经历的多样性。”然后这些模型可以了解不同的人如何谈论他们的病情。”
除了展示改进的领域之外,这项研究还强调了大型语言模型目前的局限性,以及人工智能在医疗保健领域应用时对人类监督的持续需求。
“这些技术已经在临床环境中推广,最大的问题不再是临床医生是否会使用人工智能,而是临床医生应该在哪里以及如何使用人工智能,以及我们不应该在哪里使用人工智能来尽可能地照顾我们的病人。”