ChatGPT在临床医生总结医学研究方面的潜力和局限性

【字体: 时间:2024年03月27日 来源:AAAS

编辑推荐:

  大型语言模型(llm)是基于神经网络的计算机程序,它使用对书面语言的详细统计理解来执行许多任务,包括文本生成、摘要、软件开发和预测。本研究调查了流行的ChatGPT-3.5,是否可以产生高质量,准确,无偏见的医学研究摘要摘要,并确定各种期刊及其文章与不同医学专业的相关性。

  

大型语言模型(llm)是基于神经网络的计算机程序,它使用对书面语言的详细统计理解来执行许多任务,包括文本生成、摘要、软件开发和预测。然而,法学硕士可以生成看似正确的文本,但并非基于事实。本研究调查了流行的ChatGPT-3.5,是否可以产生高质量,准确,无偏见的医学研究摘要摘要,并确定各种期刊及其文章与不同医学专业的相关性。从14种选定的期刊中随机抽取10篇发表于2022年的文章(ChatGPT尚未“看到”,因为ChatGPT是在2022年之前的数据上进行训练的)。然后,ChatGPT被提示总结摘要,“自我反思”自己总结的质量、准确性和偏差,并评估其在分类文章和期刊与各个医学领域(心脏病学、肺部医学、家庭医学、内科、公共卫生、初级保健、神经病学、精神病学、妇产科和普外科)的相关性方面的表现。

摘要的质量,相关的期刊分类和文章的医学专业也由人类医生评估。结果包括14种期刊的140篇摘要。ChatGPT生成的摘要比摘要短70%。ChatGPT和医师审稿人均将总结评为高质量、高准确性和低偏倚。在140份摘要中,只有4份存在严重错误。140篇文章中有20篇有轻微的不准确之处,主要与引入歧义或对细节的总结有关,这些细节可以提供额外的内容,但不会完全改变意思。ChatGPT能够将期刊分类为相关的医学专业,但将特定文章分类为相关的医学专业的能力要差得多。这些摘要被发现有罕见但重要的不准确之处,使它们不能被认为是确定的真相来源。

我们所知道的:医学知识的可用性正在增加。然而,由于工作的需要,临床医生很少有时间去查阅学术文献,即使是在自己的专业范围内。大型语言模型(如ChatGPT)可能会有所帮助并节省时间,但它们并不总是准确的,因为它们可能包含来自训练模型的偏见和强化学习的人类反馈,有时还包括非事实信息。

本研究补充:

强烈警告临床医生不要仅仅依靠基于chatgpt的摘要来理解研究方法和研究结果,特别是在高危情况下。出于显而易见的原因,关键的医疗决策应该基于对文章全文的全面评估,以及来自荟萃分析和专业指南的现有证据。然而,这项研究表明ChatGPT可以作为一种有用的筛选工具,帮助忙碌的临床医生和科学家更快地评估是否值得对一篇文章进行进一步的审查。


下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号