编辑推荐:
为解决传统问诊训练的局限,IU 国际应用科学大学的研究人员开展基于 GPT-4 模拟问诊的研究。结果显示学生对其满意度高,且更青睐 AI 驱动的学习方式。这为医疗教育带来创新,推荐科研读者一读,探索 AI 教育的潜力。
在当今的医疗教育领域,人工智能(AI)的身影愈发常见,它就像一把神奇的钥匙,试图打开医疗教育创新的大门。在众多医疗技能中,问诊(anamnesis interview,即收集患者全面病史、了解症状,这对准确诊断和制定有效治疗方案至关重要)的训练一直是个 “难题”。传统的训练方式主要依赖与真实患者互动和角色扮演,可这就像戴着镣铐跳舞,存在诸多限制。
一方面,患者病例的接触机会不稳定,就像抽奖一样,学生们很难保证每次都能遇到合适的病例来练习;另一方面,经验丰富的导师数量有限,没办法时刻指导每个学生。而且,重复练习以达到熟练程度需要耗费大量的资源和精力,成本高不说,在在线教育环境中也很难实施。这就好比在数字时代,还在用古老的拨号电话,跟不上时代的步伐。
与此同时,虚拟现实(VR)技术虽然在教育领域有沉浸式的潜力,但因为设备昂贵、使用不便等问题,就像一座难以攀登的高山,让很多人望而却步。而大语言模型(LLMs),比如 GPT-4,凭借其广泛的可用性和人们对文本界面的熟悉,成为了更具潜力的选择。
正是在这样的背景下,来自 IU 国际应用科学大学(IU International University of Applied Sciences)的研究人员决心探索一条新的道路。他们的研究成果发表在《BMC Medical Education》期刊上,论文题目是 “Teaching opportunities for anamnesis interviews through AI based teaching role plays: a survey with online learning students from health study programs” 。这项研究就像在黑暗中点亮了一盏灯,为医疗教育带来了新的希望。研究发现,基于 GPT-4 的聊天机器人在模拟问诊方面表现出色,学生们对其接受度很高,甚至超过了传统的角色扮演方法。这意味着,医疗教育或许即将迎来一场变革,一种更高效、更灵活的教学方式正在向我们走来。
为了开展这项研究,研究人员主要运用了以下几个关键技术方法:首先,他们选择 GPT-4 作为底层语言模型,看中的是它强大的对话深度和适应性。就像挑选了一位知识渊博、反应敏捷的 “助手”,能够应对各种复杂的情况。接着,通过 IU 国际应用科学大学的引导对话设计器(Guided Conversation Designer,GCD)平台来实现这个模型。这个平台就像是一个神奇的 “魔法工厂”,可以让教育者设计聊天机器人,创建系统提示和对话流程,还能记录和审查学生与 AI 的互动。最后,研究人员精心设计了提示(prompt),这个提示就像是给 “助手” 的详细任务清单,让 GPT-4 模拟特定的医疗场景,扮演患者及其妻子,为学生创造出逼真的问诊环境。
下面来看看具体的研究结果:
- 研究对象的基本情况:参与研究的学生大多来自不同的健康相关专业,近 86% 是女生,这和相关专业的性别分布大致相符。虽然没有直接调查学生年龄,但根据相关专业学生年龄数据推测,大部分参与者是年轻人。而且,超过一半的学生学习护理专业,86% 的参与者有过问诊经验。这就像是给研究奠定了一个 “基础框架”,让后续的研究有了明确的方向。
- 用户体验和学生满意度:学生们从多个方面对聊天机器人的表现进行了评价。在语言能力方面,聊天机器人的表现堪称出色,它的基本语言技能和对问题的响应能力得到了学生们的高度认可,各项语言能力标准的满意度都超过 72%,尤其是可理解性和响应性,得分超过 90%。这就好比聊天机器人能和学生们进行流畅、愉快的交流,完全没有 “鸡同鸭讲” 的尴尬。在专业和内容相关的精确性上,超过 80% 的参与者认为 AI 患者提供医疗信息的准确性良好到优秀。不过,在某些方面,比如提供症状和病史信息的充足性上,只有 78.6% 的参与者表示信服。这说明聊天机器人虽然很厉害,但还有进步的空间。在与真实问诊的接近程度上,尽管作为基于文本的聊天机器人,在表达情感和处理复杂情况等方面存在一定局限性,但学生们仍然认为它与真实问诊有很强或较强的相似性,特别是在开放性、诚实性和理解性等方面得到了较高评价。这表明,即使没有真实的场景和表情,聊天机器人也能营造出很真实的问诊氛围。
- 聊天内容分析:研究人员对学生和聊天机器人的对话进行了深入分析。平均一次对话包含 30±12.6 条消息,内容涉及健康状况、事故过程和日常生活独立性等方面。其中,“你今天感觉怎么样?” 是被问到最多的问题。聊天机器人对这个问题的回答既有一致性,比如对事故过程和基本症状的描述比较稳定;也有变化性,比如在症状细节和情感反应上会有所不同。这就像真实的患者,虽然基本情况相似,但在具体感受和表达上也会因人而异。
- 模拟环境对学生行为的影响:通过学生的自我评估发现,他们在与虚拟患者交流时,大多表现出尊重和同理心,没有出现不自然或歧视性的行为。不过,在被问到在虚拟问诊中是否比在现实中表现得更专业时,意见出现了分歧,虽然超过 64.3% 的参与者持否定态度,但至少 35.8% 的人部分认同。这反映出虚拟问诊对学生的专业表现可能有不同的影响,值得进一步研究。
- 学生对角色扮演方法的偏好:在询问学生未来更喜欢哪种练习问诊的方式时,34% 的学生选择基于语音的聊天机器人,22% 选择虚拟形象,22% 选择基于文本的聊天机器人,而真实患者和演员分别只占 10%。这表明,学生们对 AI 驱动的学习方式更感兴趣,传统的方式逐渐失去了吸引力。
从研究结论和讨论部分来看,这项研究意义重大。它为医疗教育提供了新的思路和方法,基于 GPT-4 的聊天机器人在模拟问诊方面展现出了巨大的潜力,能够为学生创造出逼真的学习环境,提高他们的沟通和问诊技能。而且,这种虚拟问诊学习工具具有可扩展性、可及性和灵活性等优势。它不受时间和空间的限制,就像一个随时陪伴在学生身边的 “超级导师”,无论何时何地,只要学生需要,就能提供帮助。同时,它还能降低成本,一次编程可以多次使用,避免了使用真实患者带来的高昂费用。
不过,研究也存在一些局限性。比如,研究主要从学生的角度进行调查,没有充分考虑教育者的看法;只使用了一个 LLM 和一个患者案例,可能会影响研究结果的普遍性;参与者中女性比例较高,可能会导致观点的多样性不足;而且由于是可行性研究,没有进行样本量分析,只使用了描述性统计。但这些局限性并不影响研究的价值,反而为后续研究指明了方向。
未来,研究人员可以进一步扩大参与者群体,运用更复杂的统计分析方法,深入研究聊天机器人在不同医学领域、不同场景和不同用户群体中的应用。还可以探索将语音、视觉元素或虚拟形象融入其中,创造更沉浸式的学习环境,以及直接为学生提供个性化的反馈,进一步提升学习效果。总之,这项研究是医疗教育领域的一次大胆尝试,为未来的发展开辟了广阔的道路,让我们对 AI 在医疗教育中的应用充满了期待。