人工智能模型能像临床医生一样进行推理吗？

一项对临床工作流程中前沿逻辑逻辑模型进行评估的研究揭示了在对患者安全至关重要的推理方面存在重大差距。

![](https://secure.gravatar.com/avatar/3a217d2329c5b54eb4ddd23cfc87672e7763e86bc564b2038a92811cfa43fd7d?s=48&d=mm&r=g)

彼得·阿提亚作者：泰勒·耶特、劳伦·弗里奇、彼得·阿提亚

2026年6月20日

阅读时间8 分钟

如果你最近使用过生成式人工智能模型——例如 ChatGPT、Claude 或 Gemini——你很可能会被它们如今的强大性能所震撼。这些工具的最新版本表现如此出色，以至于无数行业几乎在一夜之间就不得不进行变革才能跟上步伐。就在几年前，一些通用大型语言模型（LLM，这些人工智能工具背后的技术）的准确率还接近医学考试的及格线。 ^1^ 而如今，最新的顶级模型在这些测试中的准确率通常超过 90%（医学院学生的平均准确率为 59.3%）。 ^2^这些发展如此迅速，以至于我们很快就失去了有效评估它们的能力。在某些情况下，我们已经达到了基准测试的饱和点：我们无法再设计足够复杂的评估方法来有效地区分模型的性能。

可以理解，这些模型的快速改进激发了人们将这些工具整合到临床实践中的极大热情。但我们大多数人都知道，考试成绩好并不总是等同于实际表现好——而就临床决策而言，实际表现远比考试高分重要得多。医学考试的高分可能会使这些模型看起来比实际更具临床可信度。更重要的是，这些模型必须展现出卓越的临床推理能力。这些模型在实践中可能出现多种问题：误读上下文、基于不完整的信息、未能提出正确的后续问题，或者在需要不确定性的情况下表现得过于肯定。

这就引出了两个既独立又相关的问题：这些模型在所有临床推理任务中的表现如何？以及，LLM 在实际临床工作流程中究竟扮演着怎样的角色——作为决策支持工具、分诊辅助工具，还是作为接近自主代理的工具？

这些工具的开发速度令人眼花缭乱，评估它们的进展也同样迅猛——新的框架和基准几乎与模型本身的出现速度一样快。为了创建一个持久的基准，最近的一项研究提出了一种新的综合评分，旨在测试逻辑逻辑模型在整个临床工作流程中的表现——不仅包括最终诊断，还包括临床医学所需的整个推理链^。3^

在完整的临床工作流程中测试LLM

作者测试了21个前沿的LLM模型——包括来自OpenAI、Anthropic、xAI、DeepSeek和Google DeepMind的模型——测试了29个标准化的临床案例。这些案例均取自默沙东诊疗手册（MSD Manual，默克夏普多美公司），该手册是一本广泛使用的临床参考书，收录了由独立临床专家编写的、经同行评审的结构化病例报告。每个案例都呈现了完整的临床情况——包括现病史、系统回顾、体格检查结果和实验室检查结果——并按顺序展现了整个临床诊疗过程，从鉴别诊断到检查和治疗。作者并没有向模型提出单个问题并对其答案进行评分，而是保留了每个步骤的临床背景，以实际发生的方式呈现病例。为了消除模型输出的差异，每个案例都运行了三次，并由医学生评估员根据MSD诊疗手册的答案进行评分。

作者还引入了一种新的评分系统——PrIME-LLM（LLM 医学评估比例指数），其核心理念很简单：一个模型如果在一个领域表现出色而在其他领域表现不佳，其得分不应与一个在所有五个领域都表现稳定的模型相同。PrIME-LLM 并非用单一的准确率来概括模型的表现，而是计算五个领域（鉴别诊断、诊断性检查、最终诊断、治疗方案和临床推理）的标准化多边形面积。可以将其想象成雷达图：每个领域占据一个轴，模型在每个领域的得分决定了其多边形的形状（图 1）。一个模型如果在一个领域表现出色而在其他领域表现不佳，则会产生一个不对称的多边形，总面积较小；而一个模型如果在所有五个领域都表现稳定，则会产生一个更大、更均衡的多边形。最终的 PrIME-LLM 得分代表该多边形面积占完美得分的比例。这种结构能够惩罚表现不均衡的情况，而简单的准确率平均值会掩盖这种不均衡。

图：平衡良好（A）和不平衡（B）的PrIME-LLM多边形示例

仅仅做到正确还不够好

表面上看，原始准确率结果令人放心。在29个情景和16254份个人回复中，所有21个模型的总体准确率都集中在81%到90%之间——对于任何关注LLM性能的人来说，这都是一个熟悉的模式。

但PrIME-LLM评分却呈现出不同的情况。满分100%意味着模型在所有五个领域都表现完美，没有任何薄弱环节。与原始准确率的关键区别在于，简单的平均值可能会掩盖性能上的不平衡——一个模型在大多数领域表现良好，但在一个领域只有50%的准确率，其平均准确率可能仍然达到85%，但其PrIME-LLM评分会因该领域的差距而大幅下降。使用这一指标，模型的准确率范围在64%到78%之间，比81%到90%的狭窄准确率区间更加分散，也更清晰地展现了均衡的临床推理能力。

从各个领域来看，结果起初看起来还不错。在最终诊断和治疗方案制定方面——即模型被赋予相对完整的临床信息，并被要求识别病情或制定治疗方案——模型表现良好，准确率约为 85% 至 95%。作者还报告了一项更为严格的衡量标准：失败率。该标准规定，只有模型给出完整正确的答案才算错误，不给部分分数。即使按照这一标准，最终诊断的失败率也保持在 40% 以下——虽然远非完美，但当大部分信息已经掌握时，模型能够进行模式匹配，从而做出诊断。

但鉴别诊断是这些模型表现最差的环节。鉴别诊断是指临床医生不仅要考虑患者症状最可能的解释，还要考虑可能性较小但潜在更危险的替代诊断。在这个阶段，“还有什么可能？”这个问题决定了需要进行哪些检查、哪些危险信号会被标记出来，以及哪些诊断不会被漏诊。所有模型的准确率约为75%，但请记住，失败率不计分——按此标准衡量，所有21个测试模型的失败率都超过了80%。不是部分模型，而是全部模型。由于PrIME-LLM奖励的是均衡的表现，因此即使是表现最好的模型，这一个领域的失败率也显著拉低了综合得分。

作者对这种差距提出了精辟的解释。逻辑推理模型（LLM）似乎过早地归结为单一答案，而不是像优秀的临床医生那样，保留不确定性并迭代地完善各种可能性。最终诊断的优异表现或许恰恰反映了这种倾向，而非与之相悖。当能够从完整的临床信息中通过模式匹配找到正确答案时，逻辑推理模型表现出色。但当任务要求同时考虑多种相互竞争的可能性，权衡不完整信息中的各种可能性，并判断哪个问题能够最有效地缩小范围时，逻辑推理模型就会失效。

对于经常接触这类模型的人来说，这可能并不陌生：LLM模型虽然擅长在第一次给出相对清晰的答案，但当你否定最初的想法时，它们却很难提供其他选择。如果你不太熟悉这类模型，一个类比或许更能说明问题。想象一下，一场烹饪比赛，参赛者必须通过品尝来辨别菜肴。他们尝出了番茄、罗勒、马苏里拉奶酪和面包的味道——然后说“披萨”。他们可能猜对了。但一位技艺精湛的厨师还会考虑其他可能性——比如意式烤面包、卡普雷塞沙拉吐司、薄饼、帕尔马鸡排等等。而一位伟大的厨师则知道哪些问题能进一步缩小范围。面包是脆的还是软的？番茄是新鲜的还是已经煮成酱汁的？下面有意面吗？

本研究中的LLMs在识别“披萨”（即最可能的诊断）方面表现尚可，但在列出所有可能的替代诊断以及确定哪些后续问题能够区分它们方面却存在相当大的困难。在烹饪比赛中，这种失误的代价是输掉一轮。但在医学领域，后果截然不同。临床表现的重叠程度远高于菜肴的相似性，如果只关注最显而易见的答案而忽略了更危险的诊断，这并非输掉一轮——而是漏诊癌症、延误干预或治疗靶向错误。

我们的研究团队每月花费数百小时审查研究报告，并从浩瀚的文献中提炼精华，力求提供基于实证的健康和长寿见解。如果您认同我们的工作价值，欢迎成为高级会员，支持我们的使命。

立即加入

基准线，而不是上限

在得出笼统的结论之前，有必要明确这项研究的测量内容——以及它没有测量的内容。作者评估的是现成的模型，这些模型“开箱即用”，没有使用任何专用临床人工智能系统最终可能具备的增强功能。这些模型不具备实时搜索或检索医疗指南、临床计算器、患者记录、结构化推理工作流程以及自主能力（例如，自主规划和执行诸如订购检查或查询数据库等任务的能力，而不仅仅是回答问题）。如果您自己使用过这些工具，您就会明白其中的差距：在实践中，模型可以搜索网络、查阅附件中的参考文档或使用扩展推理。而这些功能在本研究中均未启用。在作者看来，这是一项对纵向临床推理能力的基线评估，而非上限测试。

更强大的系统将能够访问诊断参考资料、已发布的指南、实验室计算器、完整的患者病史以及结构化推理工具，从而帮助模型更系统地生成和排序鉴别诊断。这些增强功能是否能够弥合鉴别诊断的差距尚待解答——但值得注意的是，在本研究中，推理优化模型（其架构旨在进行内部审议——权衡和完善推理链——然后再得出最终答案）已经展现出显著优势。推理模型在 PrIME-LLM 测试中的得分（平均值：76%）显著高于非推理模型（平均值：67%），这一差异具有统计学意义且效应量较大（Cohen d：2.60）。这一差距表明，架构和推理设计至关重要——而专门设计的增强功能可以进一步提升性能。

这项研究也并非旨在确定逻辑推理模型（LLM）的表现优于还是劣于人类临床医生——这是一个独立的问题，而且可以说是更重要的问题。这方面确实存在一些证据，并描绘出一幅更为细致的图景。一项直接对比研究发现，GPT-4 在使用标准化病例进行临床推理时，得分高于主治医师和住院医师。 ^4^一项更新的研究报告称，OpenAI 的 o1-preview 推理模型在六项实验中均达到或超过了医生的基线水平，其中包括从电子健康记录中提取的真实急诊病例——其优势在早期分诊阶段最为显著，因为此时临床医生必须在信息有限的情况下做出决策。 ^5^ 但一项随机试验发现，在诊断推理过程中让医生使用逻辑推理模型并不能显著提高他们的表现，与传统资源相比并无显著差异。 ^6^ 换句话说，逻辑推理模型在独立工作时，在结构化病例上的表现可能优于临床医生，但真正的临床问题——这些工具在按预期使用时是否真的能提高医生的决策能力——仍然很大程度上没有答案。这是最重要的情况，也是最需要进行前瞻性评估的情况。

底线

这些发现凸显了在临床环境中部署逻辑逻辑模型（LLM）时，需要明确哪些任务、哪些场景以及哪些级别的监督是合适的。对于风险较低、由临床医生监督的工作——例如总结患者信息、撰写易于理解的解释、整理文档——采用逻辑逻辑模型是合理的。该技术的优势与这些任务非常契合，而且其缺陷造成的后果也在可控范围内。然而，自主诊断推理则完全是另一回事。问题不仅仅在于幻觉——逻辑逻辑模型生成听起来合情合理但实则捏造的信息这一已被充分证实的倾向。更令人担忧的是，这些模型可能会在临床推理需要不确定性的地方，反而表现出过于自信的态度。

一个模型如果90%的情况下都能得出正确的最终诊断，听起来似乎很有用，但仔细想想，它可能无法生成更广泛的鉴别诊断，从而导致剩下的10%出现问题。问题不在于模型有时会出错，而在于它缺乏有效的方法来质疑“如果我错了怎么办？”。在医学领域，只有在考虑并排除所有可能的解释之后，才能真正确信诊断结果。一个跳过这一步骤的模型效率低下，而且恰恰在失败代价最高的地方显得脆弱不堪。

更广泛部署的吸引力不难理解——能力提升是实实在在的，而且进展速度之快让人感觉谨慎行事会落后于人。但医学界此前也曾面临过类似的困境。我们不会仅仅因为药物在早期试验中展现出前景就批准其上市；我们需要的是药物在实际应用人群和条件下安全性和有效性的证据。同样的标准也应适用于人工智能。在获得前瞻性数据，证明人工智能的特定应用能够在真实的临床环境中（而非模拟场景，而是在实际的临床工作流程中）可靠地改善患者预后之前，我们在临床工作流程中使用人工智能时仍应保持谨慎。

如需查看以往所有每周电子邮件的列表，请点击此处。

播客|网站|亚马逊

参考

1. Kung TH, Cheatham M, Medenilla A, 等. ChatGPT 在 USMLE 中的表现：利用大型语言模型进行人工智能辅助医学教育的潜力. PLOS Digit Health . 2023;2(2):e0000198. doi: 10.1371/journal.pdig.0000198

2. Bicknell BT, Butler D, Whalen S, 等. ChatGPT 4 Omni 在 USMLE 学科、临床实习和临床技能中的批判性分析。JMIR Med Educ . 2024;10:e63430. doi: 10.2196/63430

3. Rao AS, Esmail KP, Lee RS, 等. 大型语言模型性能与临床推理任务. JAMA Netw Open . 2026;9(4):e264003. doi: 10.1001/jamanetworkopen.2026.4003

4. Cabral S, Restrepo D, Kanjee Z, 等. 生成式人工智能模型与医生临床推理的比较. JAMA Intern Med . 2024;184(5):581-583. doi: 10.1001/jamainternmed.2024.0295

5. Brodeur PG, Buckley TA, Kanjee Z, 等. 大型语言模型在医生推理任务上的性能.科学. 2026;392(6797):524-527. doi: 10.1126/science.adz4433

6. Goh E, Gallo R, Hom J, 等. 大型语言模型对诊断推理的影响：一项随机临床试验。JAMA Netw Open . 2024;7(10):e2440969。doi: 10.1001/jamanetworkopen.2024.40969

https://peterattiamd.com/clinical-performance-of-ai-models/

【不泡药的慢口蘑】口蘑带你邂逅自然美味口蘑两斤装查看
更多

2026.06.21 >

2026年4月30日

专家对一项评估大型语言模型在医生推理任务中表现的研究的反应

发表在《科学》杂志 上的一项研究评估了大型语言模型（LLM）在医生推理任务上的表现。

萨里大学人工智能与机器学习教授古斯塔沃·卡内罗表示：

“新闻稿的第一句话过于乐观。它说该方法‘在急诊室决策中优于人类医生’，但这项任务是盲法生成第二意见鉴别诊断，而不是实时决策或患者管理。

“这篇论文质量极佳，清晰地表明现代逻辑推理硕士（LLM）在传统的基于文本的临床推理基准测试中表现出色，在受限推理任务中甚至优于临床医生。但需要谨慎看待这一结论，因为该论文并未声称这些逻辑推理硕士在实际医疗环境中具备临床能力或安全性。作者和新闻稿对此都表达了谨慎的态度。”

“本文证明，LLM（法学硕士）在某些现实世界的临床推理任务中可以与临床医生相媲美。虽然相关研究也报告了类似的发现，但结果较弱，而本文似乎是第一个令人信服地展示这种表现的研究。”

关于混杂因素，论文中提到的一个重要问题是模型污染。这指的是LLM模型可能使用了也出现在评估集中的数据进行训练，也就是所谓的数据泄露。由于很难保证这种情况从未发生，作者通过比较模型在预训练截止日期前后样本上的性能（结果部分第1页第一段）间接进行了检验。他们发现两者之间没有统计学上的显著差异。这表明模型污染的可能性不大，尽管也不能完全排除。论文对此持谨慎态度，但我认为唯一的解决办法是进行前瞻性研究。

需要指出的是，基准测试结果可以衡量推理质量，但不能衡量系统安全性。论文对此非常谨慎。

“同样重要的是要指出，人工智能还不能取代急诊科医生。本文表明，人工智能在某些特定任务（例如根据文本生成鉴别诊断和建议下一步诊断步骤）上可能优于人类，但在更广泛的急诊护理任务上则不然，这些任务包括体格检查、在不确定情况下进行实时判断、团队协调以及对患者预后负责。”

“关于自我诊断，人工智能可以辅助医学推理，但必须在有人工监督、安全保障和问责机制的临床系统中进行。否则，我认为现在使用还为时过早。”

伯明翰大学NIHR临床讲师、人工智能研究员兼NHS麻醉师约瑟夫·奥尔德曼博士表示：

Brodeur 等人的这项研究是最新一项表明大型语言模型 (LLM) 能够在医疗任务中表现优异的研究。研究人员使用一系列复杂多样的案例测试了该工具，其中包括《新英格兰医学杂志》临床病理会议的案例（这些案例是医学领域最具挑战性的诊断难题之一），以及来自美国一家大型教学医院的真实急诊病例。虽然此类研究表明，LLM 可以根据书面信息做出准确的诊断和治疗方案，但这仅仅是大多数医生工作的一小部分。急诊科医生需要在患者及其亲属生命中最艰难的时刻给予他们安慰和鼓励。他们需要认真倾听患者的讲述，进行临床检查，并建议进行必要的检查和测试。即使每个病例的医疗事实非常相似，对一位患者适用的治疗方案也可能对另一位患者不适用。成为一名优秀的医生需要具备判断力、同情心和经验，以及扎实的医学知识。

“越来越多的公众开始使用在线人工智能聊天机器人咨询健康问题。这可能带来新的机遇，使患者能够了解自身健康状况，并做出改善健康的选择。但另一方面，这些系统并非完美无缺。它们可能不准确、不可靠，甚至可能提供无益或有害的建议。因此，我们都应该认真考虑这些风险，并在做出重要决定前咨询训练有素的医疗专业人员。”

爱丁堡大学外科与数据科学教授、医学信息学中心联合主任尤恩·哈里森教授表示：

“这是一项重要的研究，表明现代人工智能系统可以很好地完成医生和护士的一项核心任务：获取有关患者的可用信息，并建议应该考虑哪些诊断。

“这很重要——这些系统不再仅仅是通过医学考试或解决人为设计的测试案例。它们开始看起来像是临床医生有用的第二意见工具，尤其是在需要考虑更广泛的可能诊断并避免遗漏重要信息的时候。”

但这并不意味着人工智能应该毫无限制地被迅速引入临床护理。生成一份完善的诊断清单并不等同于改善患者护理。我们仍然需要研究来证明这些工具能够帮助医生和护士做出更好的决策、减少伤害、避免不必要的检查，并在繁忙的医院和全科诊所中安全工作。

“这项研究推动了该领域的发展，但它本身并不能改变临床实践。负责任的做法不是禁止这些系统，但也不能放任它们被随意使用。它们应该在真实的临床环境中进行测试，用作第二意见工具而不是取代临床医生，并根据对患者真正重要的结果进行监测：更好、更安全、更快捷的医疗服务。”

谢菲尔德大学数学与物理科学学院助理教授魏星博士表示：

这是迄今为止对LLM在临床推理方面进行的最大规模评估之一，纳入真实的急诊科数据无疑是一项真正的进步。然而，论文中的两项发现值得更深入的探讨。在一项管理推理实验中，使用GPT-4的医生得分为41%，与单独使用GPT-4的医生（42%）相比并无优势，但远高于未使用人工智能的医生（34%），这表明医生可能在无意识中倾向于采纳人工智能的答案，而非独立思考。随着人工智能在临床环境中的常规应用日益普及，这种倾向可能会变得更加显著。

来自一家顶尖学术中心的76名患者的真实世界数据揭示了一个比标题所暗示的更为复杂的故事：o1在67%的分诊病例中识别出了正确的诊断，而两位主治医生的正确率分别为55%和50%，这确实存在差距，但并未对模型在哪些方面或对哪些人群出现故障进行分析。错误是否集中在老年患者、非英语母语者或症状不典型的患者身上，目前尚不清楚，而缺乏这方面的分析，即使平均准确率很高，也难以令人信服。这项研究表明，在受控条件下，LLM在结构化的文本推理任务中可以超越医生。但这并不意味着人工智能可以安全地用于常规临床应用，也不意味着公众应该将免费的人工智能工具作为医疗建议的替代品。

伦敦帝国理工学院人工智能与神经科学教授阿尔多·费萨尔表示：

这是高质量的研究吗？

“从评估方法论的角度来看，这堪称典范：纳入了多位医生的基线数据，对真实的急诊病例进行了盲法比较，并采用了经过验证的评分标准。这才是临床人工智能评估应有的方式。”

这会带来哪些影响？是否存在过度猜测？

“一个在波士顿病例分析中表现良好的模型，对于伦敦急诊室一位头部受伤的78岁老人来说，几乎没有任何参考价值。这就是为什么我们需要基于英国和欧洲健康数据训练的、自主开放的医疗基金会模型。英国和欧洲不能仅仅依靠封闭的美国商业模型，就安全地将临床人工智能应用于本国患者。这就是我们开发 Nightingale AI 的原因。”

这篇论文究竟向我们展示了什么？

“问题不再是这些系统能否对一个病例进行推理，而是它们能否对患者及其多模态数据（而不仅仅是文本）进行推理——这正是 Nightingale AI 旨在弥合的差距。”

这与现有证据是否吻合？

“发展轨迹很明确——每一代前沿模型都比上一代更出色。现在的问题是，我们是否已经达到了这些基准的极限——我认为已经达到了。前沿领域已经从‘模型能否做出诊断’转移到‘模型能否在实际工作流程中帮助临床医生做出更好的决策’。”

作者是否考虑到了局限性？

“有三点局限性需要注意。首先，它仅提供文本数据——没有影像，没有心电图，也没有病人在你面前。其次，这些病例是为教学目的而精心挑选的；真实数据杂乱无章，包含多种模态。最后，该模型是一个封闭的美国商业系统，其训练数据属于商业机密——我们无法完全审核我们看不到的内部信息。”

是否存在出现幻觉和过度依赖的风险？

“这两种风险都是真实存在的，但本文并未涉及它们。LLM（语言学硕士）仍然能够自信地进行虚构，而且输出结果越流畅，错误答案的危险性就越大。”

“他们采用的是美国封闭式商业模式——我们无法完全审计我们看不到的内部情况。”

“答案是开放的、可检查的模型，并辅以适当的监控——这正是 Nightingale AI 的构建目标。”

人工智能准备好在急诊室取代医生了吗？

“不。急诊医学并非基于文字描述进行诊断——它包括分诊、复苏、在不确定情况下做出判断以及安抚惊恐的家属。对大量文字案例的测试并不能衡量这些能力。人工智能在分诊阶段提供的第二意见可能很有价值，但前提是前瞻性试验必须证明其真正有效。我们尚未达到这一目标。”

给那些可能想使用公共/消费级人工智能进行自我诊断的公众的信息？

“不要这样做。消费者聊天机器人并非医疗器械。它没有监管地位，出错时也不承担任何责任。使用这些工具是为了更好地准备向医生提出的问题，而不是为了取代医生。”……纸上基准与实际医疗之间的差距巨大。

Peter G. Brodeur等人的论文《大型语言模型在医生推理任务上的表现》于 2026 年 4 月 30 日星期四英国时间 18:00 在《科学》杂志上发表。

DOI：10.1126/science.adz4433

已申报的利益

Aldo Faisal 教授： “请注意，我领导着 Nightingale AI 欧洲/英国学术开放和自主健康基金会模式，名为 Nightingale-AI (nightingale—ai.org)。”

Ewen Harrison 教授：“我和其他几位资深作者都是 NEJM AI 的编辑。”

古斯塔沃·卡内罗教授： “我没有任何利益冲突。”

约瑟夫·奥尔德曼博士：奥尔德曼博士正带领一个团队开发“健康聊天机器人用户指南”，旨在为希望使用人工智能聊天机器人咨询健康问题的公众提供指导。该项目由一项研究基金资助。他声明，他未就此项目或他的任何其他工作接受任何行业资助或支持。https ://healthchatbotguide.org/

https://www.sciencemediacentre.org/expert-reaction-to-study-evaluating-performance-of-a-large-language-model-on-the-reasoning-tasks-of-a-physician/