AI 人工智能
2026年4月30日
专家对一项评估大型语言模型在医生推理任务中表现的研究的反应
发表在《科学》杂志 上的一项研究 评估了大型语言模型(LLM)在医生推理任务上的表现。
萨里大学人工智能与机器学习教授古斯塔沃·卡内罗表示:
“新闻稿的第一句话过于乐观。它说该方法‘在急诊室决策中优于人类医生’,但这项任务是盲法生成第二意见鉴别诊断,而不是实时决策或患者管理。
“这篇论文质量极佳,清晰地表明现代逻辑推理硕士(LLM)在传统的基于文本的临床推理基准测试中表现出色,在受限推理任务中甚至优于临床医生。但需要谨慎看待这一结论,因为该论文并未声称这些逻辑推理硕士在实际医疗环境中具备临床能力或安全性。作者和新闻稿对此都表达了谨慎的态度。”
“本文证明,LLM(法学硕士)在某些现实世界的临床推理任务中可以与临床医生相媲美。虽然相关研究也报告了类似的发现,但结果较弱,而本文似乎是第一个令人信服地展示这种表现的研究。”
关于混杂因素,论文中提到的一个重要问题是模型污染。这指的是LLM模型可能使用了也出现在评估集中的数据进行训练,也就是所谓的数据泄露。由于很难保证这种情况从未发生,作者通过比较模型在预训练截止日期前后样本上的性能(结果部分第1页第一段)间接进行了检验。他们发现两者之间没有统计学上的显著差异。这表明模型污染的可能性不大,尽管也不能完全排除。论文对此持谨慎态度,但我认为唯一的解决办法是进行前瞻性研究。
需要指出的是,基准测试结果可以衡量推理质量,但不能衡量系统安全性。论文对此非常谨慎。
“同样重要的是要指出,人工智能还不能取代急诊科医生。本文表明,人工智能在某些特定任务(例如根据文本生成鉴别诊断和建议下一步诊断步骤)上可能优于人类,但在更广泛的急诊护理任务上则不然,这些任务包括体格检查、在不确定情况下进行实时判断、团队协调以及对患者预后负责。”
“关于自我诊断,人工智能可以辅助医学推理,但必须在有人工监督、安全保障和问责机制的临床系统中进行。否则,我认为现在使用还为时过早。”
伯明翰大学NIHR临床讲师、人工智能研究员兼NHS麻醉师约瑟夫·奥尔德曼博士表示:
Brodeur 等人的这项研究是最新一项表明大型语言模型 (LLM) 能够在医疗任务中表现优异的研究。研究人员使用一系列复杂多样的案例测试了该工具,其中包括《新英格兰医学杂志》临床病理会议的案例(这些案例是医学领域最具挑战性的诊断难题之一),以及来自美国一家大型教学医院的真实急诊病例。虽然此类研究表明,LLM 可以根据书面信息做出准确的诊断和治疗方案,但这仅仅是大多数医生工作的一小部分。急诊科医生需要在患者及其亲属生命中最艰难的时刻给予他们安慰和鼓励。他们需要认真倾听患者的讲述,进行临床检查,并建议进行必要的检查和测试。即使每个病例的医疗事实非常相似,对一位患者适用的治疗方案也可能对另一位患者不适用。成为一名优秀的医生需要具备判断力、同情心和经验,以及扎实的医学知识。
“越来越多的公众开始使用在线人工智能聊天机器人咨询健康问题。这可能带来新的机遇,使患者能够了解自身健康状况,并做出改善健康的选择。但另一方面,这些系统并非完美无缺。它们可能不准确、不可靠,甚至可能提供无益或有害的建议。因此,我们都应该认真考虑这些风险,并在做出重要决定前咨询训练有素的医疗专业人员。”
爱丁堡大学外科与数据科学教授、医学信息学中心联合主任尤恩·哈里森教授表示:
“这是一项重要的研究,表明现代人工智能系统可以很好地完成医生和护士的一项核心任务:获取有关患者的可用信息,并建议应该考虑哪些诊断。
“这很重要——这些系统不再仅仅是通过医学考试或解决人为设计的测试案例。它们开始看起来像是临床医生有用的第二意见工具,尤其是在需要考虑更广泛的可能诊断并避免遗漏重要信息的时候。”
但这并不意味着人工智能应该毫无限制地被迅速引入临床护理。生成一份完善的诊断清单并不等同于改善患者护理。我们仍然需要研究来证明这些工具能够帮助医生和护士做出更好的决策、减少伤害、避免不必要的检查,并在繁忙的医院和全科诊所中安全工作。
“这项研究推动了该领域的发展,但它本身并不能改变临床实践。负责任的做法不是禁止这些系统,但也不能放任它们被随意使用。它们应该在真实的临床环境中进行测试,用作第二意见工具而不是取代临床医生,并根据对患者真正重要的结果进行监测:更好、更安全、更快捷的医疗服务。”
谢菲尔德大学数学与物理科学学院助理教授魏星博士表示:
这是迄今为止对LLM在临床推理方面进行的最大规模评估之一,纳入真实的急诊科数据无疑是一项真正的进步。然而,论文中的两项发现值得更深入的探讨。在一项管理推理实验中,使用GPT-4的医生得分为41%,与单独使用GPT-4的医生(42%)相比并无优势,但远高于未使用人工智能的医生(34%),这表明医生可能在无意识中倾向于采纳人工智能的答案,而非独立思考。随着人工智能在临床环境中的常规应用日益普及,这种倾向可能会变得更加显著。
来自一家顶尖学术中心的76名患者的真实世界数据揭示了一个比标题所暗示的更为复杂的故事:o1在67%的分诊病例中识别出了正确的诊断,而两位主治医生的正确率分别为55%和50%,这确实存在差距,但并未对模型在哪些方面或对哪些人群出现故障进行分析。错误是否集中在老年患者、非英语母语者或症状不典型的患者身上,目前尚不清楚,而缺乏这方面的分析,即使平均准确率很高,也难以令人信服。这项研究表明,在受控条件下,LLM在结构化的文本推理任务中可以超越医生。但这并不意味着人工智能可以安全地用于常规临床应用,也不意味着公众应该将免费的人工智能工具作为医疗建议的替代品。
伦敦帝国理工学院人工智能与神经科学教授阿尔多·费萨尔表示:
这是高质量的研究吗?
“从评估方法论的角度来看,这堪称典范:纳入了多位医生的基线数据,对真实的急诊病例进行了盲法比较,并采用了经过验证的评分标准。这才是临床人工智能评估应有的方式。”
这会带来哪些影响?是否存在过度猜测?
“一个在波士顿病例分析中表现良好的模型,对于伦敦急诊室一位头部受伤的78岁老人来说,几乎没有任何参考价值。这就是为什么我们需要基于英国和欧洲健康数据训练的、自主开放的医疗基金会模型。英国和欧洲不能仅仅依靠封闭的美国商业模型,就安全地将临床人工智能应用于本国患者。这就是我们开发 Nightingale AI 的原因。”
这篇论文究竟向我们展示了什么?
“问题不再是这些系统能否对一个病例进行推理,而是它们能否对患者及其多模态数据(而不仅仅是文本)进行推理——这正是 Nightingale AI 旨在弥合的差距。”
这与现有证据是否吻合?
“发展轨迹很明确——每一代前沿模型都比上一代更出色。现在的问题是,我们是否已经达到了这些基准的极限——我认为已经达到了。前沿领域已经从‘模型能否做出诊断’转移到‘模型能否在实际工作流程中帮助临床医生做出更好的决策’。”
作者是否考虑到了局限性?
“有三点局限性需要注意。首先,它仅提供文本数据——没有影像,没有心电图,也没有病人在你面前。其次,这些病例是为教学目的而精心挑选的;真实数据杂乱无章,包含多种模态。最后,该模型是一个封闭的美国商业系统,其训练数据属于商业机密——我们无法完全审核我们看不到的内部信息。”
是否存在出现幻觉和过度依赖的风险?
“这两种风险都是真实存在的,但本文并未涉及它们。LLM(语言学硕士)仍然能够自信地进行虚构,而且输出结果越流畅,错误答案的危险性就越大。”
“他们采用的是美国封闭式商业模式——我们无法完全审计我们看不到的内部情况。”
“答案是开放的、可检查的模型,并辅以适当的监控——这正是 Nightingale AI 的构建目标。”
人工智能准备好在急诊室取代医生了吗?
“不。急诊医学并非基于文字描述进行诊断——它包括分诊、复苏、在不确定情况下做出判断以及安抚惊恐的家属。对大量文字案例的测试并不能衡量这些能力。人工智能在分诊阶段提供的第二意见可能很有价值,但前提是前瞻性试验必须证明其真正有效。我们尚未达到这一目标。”
给那些可能想使用公共/消费级人工智能进行自我诊断的公众的信息?
“不要这样做。消费者聊天机器人并非医疗器械。它没有监管地位,出错时也不承担任何责任。使用这些工具是为了更好地准备向医生提出的问题,而不是为了取代医生。”……纸上基准与实际医疗之间的差距巨大。
Peter G. Brodeur等人的论文《大型语言模型在医生推理任务上的表现》于 2026 年 4 月 30 日星期四英国时间 18:00 在《科学》杂志上发表。
DOI:10.1126/science.adz4433
已申报的利益
Aldo Faisal 教授: “请注意,我领导着 Nightingale AI 欧洲/英国学术开放和自主健康基金会模式,名为 Nightingale-AI (nightingale—ai.org)。”
Ewen Harrison 教授:“我和其他几位资深作者都是 NEJM AI 的编辑。”
古斯塔沃·卡内罗教授: “我没有任何利益冲突。”
约瑟夫·奥尔德曼博士:奥尔德曼博士正带领一个团队开发“健康聊天机器人用户指南”,旨在为希望使用人工智能聊天机器人咨询健康问题的公众提供指导。该项目由一项研究基金资助。他声明,他未就此项目或他的任何其他工作接受任何行业资助或支持。https ://healthchatbotguide.org/
D:2026.05.04>
**LLM 安然:关于结构与规模的实验**
AI智能体能否在真实企业内部发挥作用?
2026年4月24日
分享
我一直在想,如今的人工智能智能体在真实企业内部的运作效果究竟如何?毕竟真正的公司不会允许你随意查看他们的邮件,所以我找到了另一个选择——安然公司。
针对安然公司的诉讼带来的一个绝佳附带成果是,我们获得了大量关于其丑闻爆发前后日常运营的真实数据宝库,尤其是海量的邮件数据集。因此,我实际下载并整理了这些数据,还进行了分析。首先,我试图确定该公司员工合理的收件箱邮件处理量,接着基于这一数据构建真实的合成组织邮件数据,并向大语言模型提问它们在这类环境中实际会如何运作。之所以采用合成数据,是因为直接的回答可能已出现在训练数据中,所以我们必须另辟蹊径!
核心问题在于智能体在现实世界复杂组织环境中的表现如何,以及需要采取哪些措施才能让它们表现得更好!
顺便说一下,安然公司的数据非常棒,我不明白它为什么没有得到更多关注!例如,该数据显示,符合人类实际情况的收件箱有大约50个并发线程,其中许多线程的上下文非常有限,而且很多线程需要对公司组织有相当深入的了解才能回复。邮件数量能很好地预测工作繁忙程度,但令人有些意外的是,资历高低却无法预测(在控制了邮件数量这一变量后)。
我依次进行了4项实验。
- 要让大语言模型(LLM)能够处理50个并发的邮件线程,合适的配置方案是什么?它能做到吗?
我创建了一个邮件流,其交错线程的数量与真实人类数据中的数量相同。该智能体可以按顺序处理消息,并借助暂存器内存来记录其所需信息。
通过将大模型作为评判工具,并结合一些客观指标(记忆召回率、幻觉标记等),来判断其表现是否准确。
那如果我们创建线程 ID 并将其提供给智能体,而不仅仅是暂存器呢?瞧!
- 二、是否存在这样的设置:结构更优的小型模型能够胜过缺乏该结构的大型模型?也就是说,是否存在某种制度性设置,能让小型模型发挥作用?
这让我想到了第二个问题:仅借助一个临时文本,我能否让带有线程 ID 的 GPT 5 mini 达到和 GPT 5.2 一样的效果。
这次彻底失败了。模型的智能水平真的至关重要。虽然 5 个迷你模型从未将工作分配到错误的项目,但它们也会极其严重地出错(有一次无效输出的比例高达约 86%)。因此,我们虽然发现更合理的结构能让模型表现大幅提升,但这一方法的前提是模型本身已经具备足够的智能!
实验1取得了部分成功,因为该模型已经足够优秀,能够利用更好的状态。
- 当你拥有更多的智能体、更多的并行工作者时会发生什么?它们能协同工作得有多好?
现在来说说扩展。我想,既然我们已经开始初步了解是什么让智能体更高效,那如果我们有多个智能体会怎样?我们能否并行处理工作负载?当然,每个智能体都有自己的本地记忆。这就好比团队协作起来解答更复杂的问题。
这里的选项显然有很多种。你可以选择 a) 没有董事会,b) 一个共享董事会,c) 多个董事会且无共享,d) 多个董事会且有共享董事会。备用数据如下:冲击后质量方面,单一/无董事会模式约为0.50,单一/共享董事会模式约为0.63,多元/无董事会模式约为0.46,多元/共享董事会模式约为0.63。
基本上,在搭建控制板之前不要组建集群。你需要共享的协调状态才能完成任何任务。这一点本身就很有意思。
- 要实现这一点,需要什么样的具体制度设置?
这就引出了下一个问题,协调状态固然重要,但究竟什么样的共享状态才真正关键?显然,这里可能有很多种选择。因此,我针对参与者身份以及内部应由谁负责、外部应如何回应这两个问题进行了分析。
我发现 Memento 模型的一个重大区别在于,它们不像杰夫·斯基林那样在数月或数年内拥有固定的身份。这意味着,提供这样一个身份锚点或许会很有用?比如你可能仍然知道问题是关于什么的,但却忘了自己应该以什么身份作答,或者该把问题转交给谁。也就是说,“任务识别”和“主体身份”是两码事!
然而,一旦我将 `routeto` 和 `respondas` 设为明确的规范字段而非自由文本,无看板设置在谁应处理或签署事务上仍出现偏差,而共享看板和预言家看板设置则保持一致。重要的是,所有情况下的任务目标定位都已完善,因此这并非只是对记忆实验结果的重复。
相关数据如下:没有董事会时,所有者匹配和回复身份匹配的数值均约为0.67,未授权回复率约为0.33;采用共享参与者状态后,这些数值均升至1。
这意味着,一旦你认同共享状态至关重要,那么该状态需要编码的关键要素之一就是角色身份,而非仅仅是任务身份。
智能体既需要记住自己的任务,也需要记住自己的角色。
这是另一组内容,它能告诉我们哪些实验可以揭示如何最佳地使用或运行人工智能。
在所有实验中,同一个模式不断出现:
- 该模型的局限性更多在于缺乏状态结构,而非对原始消息的理解能力。
- 明确的线程状态是一项真正的优势。
- 共享的协调状态比单纯增加更多智能体更为重要。
- 智能体身份也应作为显式状态。
- 更优的架构能带来很大帮助,但它无法替代基础模型的可靠性。
过去,大语言模型无法追踪一连串复杂的对话线索,但到了5.2版本,情况显然已经不同了。问题在于,我们每次要求人工智能做出回应时,都让它从对话记忆中重构任务与角色身份以及协调状态。如果我们希望相关功能正常运行,这正是我们构建智能体体系所需要围绕的核心!
AI智能体很怪异,因为正如我之前所说,它们实际上就像《记忆碎片》中的盖·皮尔斯饰演的角色。它们拥有自身的上下文和先天能力,其他一切都需要在运行过程中逐步摸索。这意味着我们管理这些新型智能体物种的方式本身也必须改变,我们需要建立一些制度架构来让这些新的智能体能够正常运作。而我认为,随着我们逐步引入智能体集群和多智能体层级体系,弄清楚这些架构应该是什么样,或许是我们能获得的最有趣的体验。
https://www.strangeloopcanon.com/p/llm-enron-experiments-on-structure


