《Eye》:Comparative performance analysis of global and chinese-domain large language models for myopia
编辑推荐:
为探究全球大语言模型(LLMs)对其他场景和语言中疾病问题的处理能力,研究人员开展了以近视为例,评估全球和中文领域 LLMs 处理中国特定近视相关问题的研究。结果显示两者表现有效,全球 LLMs 在中文环境中表现最佳,该研究为相关应用提供参考。
背景:主要基于西方数据训练的全球大语言模型(LLMs),对其他场景和语言中的疾病处理性能未知。以近视为例,评估全球与中文领域 LLMs 处理中国特定近视相关问题的能力。方法:纳入全球 LLMs(ChatGPT-3.5、ChatGPT-4.0、Google Bard、Llama-2 7B Chat)和中文领域 LLMs(华佗 GPT、MedGPT、阿里通义千问、百度文心一言、百度 ERNIE 4.0)。让所有 LLMs 回答 10 个领域的 39 个中国特定近视问题。3 位近视专家用 3 分制评估回答的准确性。用 5 分制对 “良好” 评级的回答评估全面性和共情能力。对 “差” 评级的回答要求自我修正并重新分析。结果:准确性排名前 3 的 LLMs 是 ChatGPT-3.5(8.72±0.75)、百度 ERNIE 4.0(8.62±0.62)、ChatGPT-4.0(8.59±0.93),“良好” 回答比例最高达 94.8%。全面性排名前 5 的 LLMs 是 ChatGPT-3.5(4.58±0.42)、ChatGPT-4.0(4.56±0.50)、百度 ERNIE 4.0(4.44±0.49)、MedGPT(4.34±0.59)、百度文心一言(4.22±0.74)(与 ChatGPT-3.5 相比,所有 p≥0.059)。共情能力排名前 5 的 LLMs 是 ChatGPT-3.5(4.75±0.25)、ChatGPT-4.0(4.68±0.32)、MedGPT(4.50±0.47)、百度文心一言(4.42±0.46)、百度 ERNIE 4.0(4.34±0.64)(与 ChatGPT-3.5 相比,所有 p≥0.052)。百度 ERNIE 4.0 没有 “差” 评级,其他 LLMs 有自我修正能力,提升幅度在 50% 到 100% 之间。结论:全球和中文领域 LLMs 在处理中国特定近视相关问题上表现有效。尽管全球 LLMs 主要用非中文数据和英文训练,但在中文环境中表现最佳。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》