科学网—别总想着取代，互补才是人工智能时代的新常态|当人工智能在诊断考试中超过医生，我们该慌吗？

速读：一个更有趣的故事正在浮出水面：在人工智能与人类医生之间，正在形成一种全新的、谁也离不开谁的互补关系。诊断是医疗工作中更复杂的部分。在信息最有限、时间最紧迫的急诊分诊阶段，o1把正确或非常接近正确的诊断纳入候选清单的比例是67.1%，而两位医生分别为55.3%和50.0%。

别总想着取代，互补才是人工智能时代的新常态 | 当人工智能在诊断考试中超过医生，我们该慌吗？

精选

已有 280 次阅读

2026-5-4 10:33

| 个人分类: 一起读顶刊 | 系统分类: 科研笔记

假象一个场景： 2026 年的一个深夜，你因为剧烈腹痛被送进急诊室。护士刚量完血压，一位沉默的 “ 医生 ” 已经在几秒钟内读完你那简短的主诉，列出了包括主动脉夹层、急性胰腺炎、肠系膜动脉栓塞在内的六种可能。这六种可能性里，包含了最终确认的病因；而在同样的信息条件下，经验丰富的主治医师只有一半的概率会把这个诊断放进第一份候选清单。

这位 “ 医生 ” 不穿白大褂，它只是一个大型语言模型。看到这里，一种熟悉的焦虑感或许冒出来了：医生的职业，就要面临淘汰了吗？

仔细读完 2026 年 4 月 30 日 Science 上的一篇研究以及同期的专家评论，剧情似乎并非如此。一个更有趣的故事正在浮出水面：在人工智能与人类医生之间，正在形成一种全新的、谁也离不开谁的互补关系。这种互补，或许才是未来的新常态。

一张 65 年前的考卷，今天似乎被 AI 答了满分

一切都始于 1959 年。彼时，计算机还是个庞然大物， Ledley 和 Lusted 两位科学家就在 Science 上提出了一个先锋想法：用复杂的临床病例来检验计算机的诊断能力。自此之后，高难度病例分析就成了衡量医疗人工智能水平的 “ 金标准 ” 。

这其中最负盛名的考场，是由《新英格兰医学杂志》设立的临床病理病例会议（ CPC ）。它定期发布真实的疑难病例，宛如一份份悬疑小说 —— 只有病情叙述，没有现成答案，考验的是医生或机器在不确定性中推理的能力。几十年来，从早期基于贝叶斯公式的概率程序，到后来的规则引擎，技术换了一代又一代，始终在这个考场上磕磕绊绊。

这一次走进考场的，是能进行 “ 推理 ” 的大型语言模型。推理模型，与早期的 AI 不同，它可以像人一样在 “ 思考 ” 的过程中逐步拆解问题，再得出结论。

由哈佛医学院、贝斯以色列女执事医疗中心等多家顶尖机构组成的研究团队，给 o1-preview 安排了一场严苛的测试。在《新英格兰医学杂志》近年来的 143 个 CPC 疑难病例中， o1 仅仅阅读病历文字，就在 78.3% 的病例里把正确答案放进了自己的候选列表中；如果把 “ 很接近正确 ” 的诊断也算上，准确率高达 97.9% ，这几乎就是一个满分的成绩了。

单看数字，这简直就是一场完胜。但这真的是在宣告 “ 取代 ” 吗？

急诊室的真实情形下，AI成了医生的“第二大脑”

实验室的考题毕竟有标准答案，真正的考验在真实世界的急诊室里。

研究团队从波士顿的贝斯以色列女执事医疗中心随机抽取了 76 个真实急诊病例，把 o1 、另一款 AI 模型 GPT-4o 和两位主治医师的鉴别诊断，匿名混在一起，交给另外两位不知情的主治医师打分。整个过程中，评分者不知道哪份诊断来自人类，哪份来自机器。

结果非常耐人寻味。

在信息最有限、时间最紧迫的急诊分诊阶段， o1 把正确或非常接近正确的诊断纳入候选清单的比例是 67.1% ，而两位医生分别为 55.3% 和 50.0% 。随后，当信息逐渐丰富（医生问诊后、收入病房后），人类的准确率迅速追了上来，在每个阶段与 AI 的差距都在缩小。例如，在收入病房或 ICU 之后， o1 的准确率为 81.6% ，两位医生分别为 78.9% 和 69.7% 。

这恰恰暗示了互补的第一重逻辑：在信息极度匮乏、逻辑组合极度庞大的初始节点， AI 作为不知疲倦的 “ 清单大脑 ” ，能显著弥补人类短期记忆和认知偏差的短板。而随着信息变得更加立体、复杂，人类的综合判断力开始发挥作用。 AI 更像是一张兜底的网，把容易被人忽略的低概率、高风险选项先列出来，供后面的人类判断。

更有意思的是，评分的医生完全分不清哪些回答来自真人，哪些来自 AI 。一位医生 94.4% 的情况下坦承 “ 分不出来 ” ，猜中率之低甚至不如抛硬币。这也在告诉我们： AI 的推理文本，已经达到了与资深医生难以区分的水准。它不是另类的机器语言，而是已经融入了人类医学思考的表达方式。

比“答对”更难的，是像医生一样思考，AI的短板正在这里

如果故事只停留在 “AI 诊断更准 ” 上， “ 医生将被淘汰 ” 的呼声似乎顺理成章。但研究还做了另一件事：考察推理的过程，而非仅看结果。

他们使用了《新英格兰医学杂志》 Healer 课程中的虚拟病例，让受试者详细展示推理过程的四个重要维度（解读摘要、鉴别诊断、支持首要诊断、支持备选诊断），用的是经过验证的 R-IDEA 量表。

o1-preview 拿到了近乎完美的分数。相比之下， GPT-4 和人类医生的分数明显逊色。看起来， AI 在推理的结构化与完整性上又赢了一局。

然而，把镜头转向另一个指标，画面就变得微妙起来。研究同时测量了 o1 识别 “ 不容漏诊 ” 危重疾病的敏感度。在这个关乎 “ 直觉 ” 和 “ 警觉性 ” 的领域， AI 的中位识别比例是 0.92 ，与 GPT-4 、主治医师、住院医师相比，并没有显著差异。也就是说，在判断 “ 我现在虽然不确定，但这个选项我绝不敢漏掉 ” 的关键时刻， AI 和人类还处在同一水平线上。

这引出了互补的第二重逻辑： AI 擅长穷举与结构化，人类擅长在模糊信号中触发警觉。前者是 “ 超级理性脑 ” ，后者是 “ 临床第六感 ” 。没有人会真的放心地把自己完全交给一个虽然面面俱到、却少了些警觉直觉的机器。反过来，一个疲惫的医生也可能乐于有一个永不犯困的助手，替他补上那些因为疲劳而被忽略的角落。

AI会管病人吗？

诊断之外，如何管理病人、决定下一步做什么，是医疗工作中更复杂的部分。

研究人员用了一套名为 “Grey Matters” 的管理病例 —— 每个病例都经过 25 位专家共识打分，堪称标准参考答案。 o1-preview 的得分中位数是 89% ， GPT-4 是 42% ，配备 AI 辅助的人类医生也只有 41% ，而只用教科书、文献等传统资源的医生得分更低，只有 34% 。这意味着，人类即使拿着 GPT-4 这个工具，也没有因此变得比 GPT-4 自己更强。

这触及了 “ 互补 ” 的真正难题：给人一个好工具，不等于人就会用好它。如果缺乏恰当的协作训练和流程，技术叠加甚至可能陷入 “1+1 没变大，反而有点儿乱 ” 的泥沼。

正是因为这个原因，该研究的作者和同期评论者不约而同地提出了同一个主张：不要急着讨论取代，要赶紧研究互补。评论者明确指出，当前主流思路不是 AI 取代医生，而是两者协作，但 “ 这种协作模式本身必须经过检验 ” 。他们呼吁开展前瞻性临床试验，在真实临床环境里探索不同的人机分工模式，包括： AI 独立工作、医生独立工作、医生 +AI 协作，三者进行严格对照。

这恰恰是互补成为新常态的核心路径：我们不是在 “ 用不用 AI” 之间做选择，而是在摸索 “ 如何协作 ” 的模式。未来的优秀医生，可能不再是那个能背下所有罕见病的 “ 医学百科全书 ” ，而更像一位在 AI 辅助下进行批判性决策的 “ 主任审稿人 ” ，对 AI 生成的候选清单提出质疑，结合患者的情绪、家庭状况、经济能力和价值偏好，做出最终决定。

看不见的病人与AI见不到的线索

为什么互补不是可选项，而是必选项？因为医学不是单纯的文本推理游戏。

该研究坦率地指出，这里所有的实验都是严格限制在文本信息之内的。而真实的诊疗室里，医生阅读病历之外，同时还在看病人的表情、姿态，在听声音中的颤抖或呻吟，用触摸感受腹部的紧张和抗拒，甚至在某些时候，用嗅觉捕捉感染的信号。这些非文本的信息流入，目前的 AI 模型几乎无从处理。

正如评论文章所强调的，临床实践天然包含视觉和听觉线索，例如体格检查的发现，而未来的 AI 需要发展多模态能力：同时理解文本、图像、音频和视频，才能更真实地模拟临床环境。在此之前，横亘在人与 AI 之间的，是一条名叫 “ 全息感知 ” 的鸿沟。医生手握的不只是病历上的文字，还有病床边一个个活生生的、说不出具体症状却满脸痛苦的 “ 人 ” 。

这意味着互补的第三重逻辑： AI 处理文字里的病人，医生接触血肉之躯的病人。这二者之间的空隙，恰恰是互补得以安放之处。

汽车和马车，还是副驾驶和安全带？

技术的每一次跃迁，都会激起 “ 淘汰 ” 的恐惧。汽车诞生时，马车夫以为末日已至。然而今天，我们看到的不是 “ 无人驾驶一开始就取代所有司机 ” ，而是辅助驾驶、自动紧急制动、车道保持等技术，一点一点地和人类司机建立起共生关系。上路时握紧方向盘的是人，但帮你盯着视野盲区的，是机器。

医疗 AI 当前走过的路，也是如此。它不是在制造一个 “ 无人诊室 ” ，而是在为医生装上一套越来越敏锐的辅助感知系统。

但比起汽车，医疗领域需要更多的审慎。一个触目惊心的例子是： 2026 年初， OpenAI 推出了面向消费者的 ChatGPT Health ，期望它成为个人健康信息助手。然而一项独立评估发现，在遇到真正紧急的情况时，该工具有超过一半的病例给出了分诊不足的建议。比如，对糖尿病酮症酸中毒或即将发生呼吸衰竭的患者，建议一两天后再去看医生，而非立刻去急诊。这个案例提醒我们，把 AI 直接丢入真实世界的复杂洪流中，而没有清晰的协作边界和监控机制，可能会造成意想不到的伤害。

这恰恰说明，所谓的 “ 互补新常态 ” 不是放任 AI 自行其是，而是有规范、有边界、有监督地把 AI 嵌入到由人主导的决策链中。医生的角色不仅不会被取代，反而会在这种新常态下变得更加关键，他既是最终决策者，也是伦理把关人，更是那个在患者焦虑时说 “ 别怕，有我在 ” 的唯一角色。

AI将成为那支永不熄灭的笔

回到文章开头那个深夜的急诊室。当 AI 在几秒内默默列出了六种可能性，它并没有夺走医生手中的笔。恰恰相反，它在那位忙碌的主治医师还没赶到之前，先为他准备了一份翔实的 “ 思维预演笔记 ” 。医生到达后，不再需要从头开始翻找记忆，而是可以直接站在 AI 的肩膀上，结合自己的临床直觉、对患者的全息感知和深度沟通，做出最终的、负责任的决策。

技术已经证明自己能在纸上与经验丰富的临床医师并肩。在今天这个节点上，最该被问的问题不是 “AI 会不会取代医生 ” ，而是 “ 人类和 AI 究竟该如何合作，才能让医疗变得更安全、更有温度？ ”

这个答案不会由一篇论文给出，也不会由一家公司宣布。它将出现在未来那些设计精良的前瞻性临床试验中，出现在一群愿意学习与 AI 共舞的医生手中，出现在一个又一个开始习惯于 “ 带着 AI 查房 ” 的普通诊室里。

取代是想象，互补才是新常态。在这场没有先例可循的共生之旅中，我们最需要的，不是恐慌，也不是自大，而是带着敬畏和智慧，一步一步地把协作的路径走出来。

参考文献：

Brodeur PG, Buckley TA, Kanjee Z, et al. Performance of a large language model on the reasoning tasks of a physician. Science . 2026; 392(6797):524. doi:10.1126/science.adz4433

Hopkins AM, Cornelisse E. AI can reason like a physician—what comes next? Science . 2026; 392(6797): 466-467. doi:10.1126/science.aeg8766

Ledley RS, Lusted LB. Reasoning foundations of medical diagnosis: symbolic logic, probability, and value theory aid our understanding of how physicians reason. Science . 1959; 130(3366): 9-21. doi:10.1126/science.130.3366.9

Schaye V, Kudlowitz D, Guzman B, et al. Development of a clinical reasoning documentation assessment tool for resident and fellow admission notes: a shared mental model for feedback. J Gen Intern Med . 2022;37(3):507-512. doi:10.1007/s11606-021-06805-6

Ramaswamy A, et al. Evaluation of ChatGPT Health for clinical triage. Nat Med . 2026. doi:10.1038/s41591-026-04297-7

转载本文请联系原作者获取授权，同时请注明本文来自赵斌科学网博客。链接地址： https://blog.sciencenet.cn/blog-502444-1533321.html

上一篇：生命的20种氨基酸，是偶然还是必然？| 生命进化“够用”就行，而不必“最优解”