OpenAI 用 o3 复盘儿童罕见病旧案：4.8% 不高，但击中了医疗 AI 的真入口

核心摘要 Summary

波士顿儿童医院、哈佛与 OpenAI 用 o3 Deep Research 复盘 376 个长期未解的儿童罕见病相关病例，经专家和临床流程确认后新增 18 个诊断，额外诊断率 4.8%。
模型没有直接下诊断，只提供候选线索和证据链；真正的价值在于把罕见病诊断里最慢、最容易漏掉的知识更新，变成可复盘的流程。
接下来该看的不是宣传口径，而是它能否在前瞻性临床流程里降低时间、成本和误报负担。

一个最容易误读的标题是：AI 诊断出了儿童罕见病。

真实情况更克制，也更重要。波士顿儿童医院 Manton Center、哈佛与 OpenAI 用 o3 Deep Research 复盘 376 个此前被专家和流程反复分析、仍然未解的儿童罕见病相关病例。模型给的是候选线索和证据链，不是诊断书。

最后新增 18 个诊断，额外诊断率 4.8%。研究发表于 2026 年 6 月 18 日的 NEJM AI。这个数字不该被吹成医学奇迹，但在“旧案重审”里，它已经够重。

4.8% 不高，但这是硬骨头里的增益

这批病例不是刚送来的新样本，而是已经被人类专家、既有流程、机构或商业管线筛过的难题。换句话说，4.8% 不是从零开始捡便宜，而是在低余量区继续抠答案。

四类队列结果如下：

队列	病例数	新增诊断
神经发育	100	10
神经肌肉	61	4
儿童突发意外死亡	200	2
早发精神病	15	2
合计	376	18

早发精神病队列比例看着高，但样本只有 15 例，不能多讲。真正该看的，是总量里的边际增益。

在消费产品里，4.8% 很小。在罕见病复盘里，它不小。对一些家庭来说，新增诊断不是“体验优化”，而是孩子病因、遗传风险、后续检测和家庭决策的基础。

更扎眼的是，18 个新增诊断里有 7 个属于“再发现”：外部已经建立过诊断，但本地研究记录里没有。答案不是不存在，而是没有流到该出现的地方。

这很医疗。实验室报告、院内病历、研究数据库、外部诊断记录各管一段。系统之间不说话，患者和医生就只能在缝里找答案。

模型做的不是看病，是把旧病例和新证据重新对齐

罕见病基因诊断有个反直觉点：孩子的基因组没有变，诊断结论却可能变。

变的是证据环境。新的基因-疾病关系被发现，旧变异被重新分类，病例报告增加，数据库更新，病历里的表型描述也可能被重新整理。一次阴性，不等于永远阴性。

这像旧案重审。案卷没变，法条、证词和检索能力变了。但类比只能到这里。医学里的“法条”，是不断更新的基因证据、变异证据和临床表型匹配。

o3 Deep Research 在这里做的事，是把临床特征、遗传模式、变异注释、文献证据串成可质询的理由链。医生再决定要不要验证。

确认流程没有被省掉。18 个诊断都要经过专家审查、ACMG/AMP 变异分类框架、额外检测和 CLIA 实验室确认。模型输出不等于诊断。

这和“把病历丢给 ChatGPT 问是什么病”不是一回事。研究也不支持患者、医生或客户直接用 ChatGPT、o3 之类模型做医疗决策。

真正的对比在这里：

说法	更准确的理解
AI 直接诊断儿童罕见病	AI 生成候选线索，医生和实验室确认
4.8% 是突破性高收益	4.8% 是重度复盘后的有限但有意义增益
患者可以拿模型自诊	目前不支持直接用于个人医疗决策
医生会被替代	更像给医生补一个持续查漏工具

我更在意的不是模型多聪明，而是医学系统终于承认了一件事：知识维护本身就是临床能力。

过去，罕见病复盘靠专家记忆、人工检索、科室流程和偶然的再次关注。问题不在医生不努力，而在任务设计太反人性。你不能指望每个医生持续追踪成千上万个基因、变异、论文和数据库更新，还能随时把分散病历拼起来。

AI 在这里最稳的位置，不是坐到诊室里替医生拍板。它更像一台查漏机器，把“也许该再看一眼”的病例挑出来。

谁该行动，谁该冷静

受影响最大的不是普通互联网用户，而是两类人。

一类是医院里的遗传诊断团队、罕见病中心和临床信息化团队。他们可以考虑的不是“采购一个 AI 医生”，而是设计旧病例再分析流程：哪些未解病例定期复盘，模型输出如何进入专家审查，证据链如何留痕，CLIA 确认如何衔接。

这会改变工作分配。以前复盘常常靠专家主动想起、项目经费推动，或者家属反复追问。更可行的路径，是把复盘变成可排队、可审计、可追踪的流程。

另一类是罕见病家庭。更现实的动作不是拿模型自查，而是问医生两个问题：旧基因检测结果是否适合重新分析？外部诊断、检测报告和院内病历是否已经同步？

这两个问题很朴素，但比“AI 能不能看病”更接近答案。很多延误不来自模型不够强，而来自记录缺失、证据更新无人跟进、系统之间互不认账。

限制也要讲清楚。这项研究是回顾性的，队列异质；评审者没有对模型置信度盲审；研究没有测时间节省、成本、误报负担、医生工作量和最终护理结局。模型也可能生成看似合理但需要排除的解释。

所以接下来最该观察的变量很具体：

观察变量	为什么关键
前瞻性临床验证	回顾性有效，不等于真实流程里同样有效
盲审与误报负担	不能只看新增诊断，也要看医生被多少噪音拖住
时间和成本	查漏机器如果太贵、太慢，就很难常规化
护理结局	诊断增加后，治疗、随访和家庭决策是否真的改善
数据同步能力	7 个“再发现”说明，病历碎片化本身就是病灶

“天下难事，必作于易。”这句话放在这里不玄。儿童罕见病诊断里最难的部分，有时不是缺少神奇模型，而是没人能低成本、持续、耐心地把旧病例和新知识重新对齐。

OpenAI 这次做对的地方，恰恰是没有把模型包装成医生。它站在医生前面，翻案卷，找线索，等人类把最后一锤敲下去。

这才是医疗 AI 更可信的入口：少一点替代叙事，多一点流程补洞。

OpenAI 用 o3 复盘儿童罕见病旧案：4.8% 不高，但击中了医疗 AI 的真入口

旧案复盘

有限增益

硬骨头

再发现

角色边界

证据链

人工确认

核心价值

知识更新

流程补洞

行动对象

医院侧

家庭侧

后续变量

误报负担

成本结局

4.8% 不高，但这是硬骨头里的增益

模型做的不是看病，是把旧病例和新证据重新对齐

谁该行动，谁该冷静