哈佛研究登 Science:OpenAI o1 急诊诊断正确率 67%,已打趴两位人类医师

哈佛医学院与 Beth Israel Deaconess Medical Center 联合团队在《Science》期刊发表研究,以 76 位急诊病人为样本,测试 OpenAI o1 模型的诊断决策能力。结果显示 o1 的准确率达 67%,显著优于两位内科主治医师的 55% 与 50%。然而研究人员同步发出重要警语:对照组并非急诊专科医师,研究也未主张 AI 已能在真实情境下做生死决策。
(前情提要:加州大学研究「AI 脑雾」现象:14% 上班族被 Agent、自动化搞疯,离职意愿高四成)
(背景补充:《人类简史》作者:AI 正成为威胁,它攻破了人类文明的作业系统!像核武器)

一篇来自哈佛医学院的论文,悄悄在顶尖学术期刊《Science》挂上名字,让医疗 AI 的讨论从演示展示台正式走进了临床研究圈。

这项由哈佛医学院联合 Beth Israel Deaconess Medical Center 进行的研究,以 76 位真实急诊病人的病历资料为测试样本,分别让 OpenAI o1、GPT-4o,以及两位内科主治医师对每个案例做出诊断。评估标准是:给出「精准或非常接近正确答案」的比例。

最终数字让不少人停下来多看一眼——o1 的准确率达到 67%,两位人类医师则分别落在 55%50%。GPT-4o 也纳入对照,但表现次于 o1。

o1 强在哪个环节?

研究团队特别指出,o1 与人类医师差距最明显的时间点,发生在「初次分诊(triage)」阶段——也就是病人刚进急诊、信息最少、不确定性最高的那一刻。

在这个情境下,o1 需要根据文字描述的主诉、症状、生命体征,整合出一个初步诊断方向。这正好落在大型语言模型的强项区间:结构化文字的模式辨识、跨科别知识的快速整合、以及在信息不完整时仍能给出有条理推理路径的能力。

GPT-4o 虽然也参与了对照测试,但在同样条件下表现不如 o1 稳定,与医师之间的差距也相对较小。研究人员认为,这和 o1 更强的推理链架构有直接关系。

就研究意义来说,这不再只是「AI 在 benchmark 上赢了」的故事——样本来自真实急诊就诊纪录,而非人工设计的测试题,让这份数字具备了一定的临床参考价值。

别被头条牵着走:三个你必须知道的前提

在这份研究引发广泛讨论之前,有三件事值得先放慢速度确认清楚。

**第一,对照组不是急诊专科医师。**测试中用来比较的两位医师是「内科主治医师」,而非具备急诊专科训练的 ER 医师。急诊诊断的核心难度在于高压、多工、信息碎片化的现场判断,内科医师在这个场景本就不是最强的比较基准——研究的比较框架,本身就存在可以被挑战的空间。

**第二,这只是「文字分诊」,不是真实的多模态急诊现场。**研究主任本人明确表示:「这只是文字检伤,不等于真实的多模态 ER。」真实急诊充斥着影像判读、肢体观察、现场沟通、紧急操作——这些都是大型语言模型目前尚无法介入的层面。

**第三,研究团队自己没有主张 AI 已可做生死决策。**发布结果的同时,研究人员同步强调这份研究的局限性,并未建议将 AI 诊断直接应用于临床实践。

动区的角度是:这份研究确实代表了一个真实的技术里程碑——在「结构化文字诊断」这条赛道上,AI 已有能力超越特定情境下的人类医师。但从「实验室准确率」到「医疗现场可部署」之间,还隔着法规责任归属、多模态整合能力、院内系统串接,以及——最难的一关——出错时谁来负责的问题。技术的门槛或许已过,但医疗 AI 真正落地,挑战才刚开始。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论