一个最容易误读的标题是:AI 诊断出了儿童罕见病。
真实情况更克制,也更重要。波士顿儿童医院 Manton Center、哈佛与 OpenAI 用 o3 Deep Research 复盘 376 个此前被专家和流程反复分析、仍然未解的儿童罕见病相关病例。模型给的是候选线索和证据链,不是诊断书。
最后新增 18 个诊断,额外诊断率 4.8%。研究发表于 2026 年 6 月 18 日的 NEJM AI。这个数字不该被吹成医学奇迹,但在“旧案重审”里,它已经够重。
4.8% 不高,但这是硬骨头里的增益
这批病例不是刚送来的新样本,而是已经被人类专家、既有流程、机构或商业管线筛过的难题。换句话说,4.8% 不是从零开始捡便宜,而是在低余量区继续抠答案。
四类队列结果如下:
| 队列 | 病例数 | 新增诊断 |
|---|---|---|
| 神经发育 | 100 | 10 |
| 神经肌肉 | 61 | 4 |
| 儿童突发意外死亡 | 200 | 2 |
| 早发精神病 | 15 | 2 |
| 合计 | 376 | 18 |
早发精神病队列比例看着高,但样本只有 15 例,不能多讲。真正该看的,是总量里的边际增益。
在消费产品里,4.8% 很小。在罕见病复盘里,它不小。对一些家庭来说,新增诊断不是“体验优化”,而是孩子病因、遗传风险、后续检测和家庭决策的基础。
更扎眼的是,18 个新增诊断里有 7 个属于“再发现”:外部已经建立过诊断,但本地研究记录里没有。答案不是不存在,而是没有流到该出现的地方。
这很医疗。实验室报告、院内病历、研究数据库、外部诊断记录各管一段。系统之间不说话,患者和医生就只能在缝里找答案。
模型做的不是看病,是把旧病例和新证据重新对齐
罕见病基因诊断有个反直觉点:孩子的基因组没有变,诊断结论却可能变。
变的是证据环境。新的基因-疾病关系被发现,旧变异被重新分类,病例报告增加,数据库更新,病历里的表型描述也可能被重新整理。一次阴性,不等于永远阴性。
这像旧案重审。案卷没变,法条、证词和检索能力变了。但类比只能到这里。医学里的“法条”,是不断更新的基因证据、变异证据和临床表型匹配。
o3 Deep Research 在这里做的事,是把临床特征、遗传模式、变异注释、文献证据串成可质询的理由链。医生再决定要不要验证。
确认流程没有被省掉。18 个诊断都要经过专家审查、ACMG/AMP 变异分类框架、额外检测和 CLIA 实验室确认。模型输出不等于诊断。
这和“把病历丢给 ChatGPT 问是什么病”不是一回事。研究也不支持患者、医生或客户直接用 ChatGPT、o3 之类模型做医疗决策。
真正的对比在这里:
| 说法 | 更准确的理解 |
|---|---|
| AI 直接诊断儿童罕见病 | AI 生成候选线索,医生和实验室确认 |
| 4.8% 是突破性高收益 | 4.8% 是重度复盘后的有限但有意义增益 |
| 患者可以拿模型自诊 | 目前不支持直接用于个人医疗决策 |
| 医生会被替代 | 更像给医生补一个持续查漏工具 |
我更在意的不是模型多聪明,而是医学系统终于承认了一件事:知识维护本身就是临床能力。
过去,罕见病复盘靠专家记忆、人工检索、科室流程和偶然的再次关注。问题不在医生不努力,而在任务设计太反人性。你不能指望每个医生持续追踪成千上万个基因、变异、论文和数据库更新,还能随时把分散病历拼起来。
AI 在这里最稳的位置,不是坐到诊室里替医生拍板。它更像一台查漏机器,把“也许该再看一眼”的病例挑出来。
谁该行动,谁该冷静
受影响最大的不是普通互联网用户,而是两类人。
一类是医院里的遗传诊断团队、罕见病中心和临床信息化团队。他们可以考虑的不是“采购一个 AI 医生”,而是设计旧病例再分析流程:哪些未解病例定期复盘,模型输出如何进入专家审查,证据链如何留痕,CLIA 确认如何衔接。
这会改变工作分配。以前复盘常常靠专家主动想起、项目经费推动,或者家属反复追问。更可行的路径,是把复盘变成可排队、可审计、可追踪的流程。
另一类是罕见病家庭。更现实的动作不是拿模型自查,而是问医生两个问题:旧基因检测结果是否适合重新分析?外部诊断、检测报告和院内病历是否已经同步?
这两个问题很朴素,但比“AI 能不能看病”更接近答案。很多延误不来自模型不够强,而来自记录缺失、证据更新无人跟进、系统之间互不认账。
限制也要讲清楚。这项研究是回顾性的,队列异质;评审者没有对模型置信度盲审;研究没有测时间节省、成本、误报负担、医生工作量和最终护理结局。模型也可能生成看似合理但需要排除的解释。
所以接下来最该观察的变量很具体:
| 观察变量 | 为什么关键 |
|---|---|
| 前瞻性临床验证 | 回顾性有效,不等于真实流程里同样有效 |
| 盲审与误报负担 | 不能只看新增诊断,也要看医生被多少噪音拖住 |
| 时间和成本 | 查漏机器如果太贵、太慢,就很难常规化 |
| 护理结局 | 诊断增加后,治疗、随访和家庭决策是否真的改善 |
| 数据同步能力 | 7 个“再发现”说明,病历碎片化本身就是病灶 |
“天下难事,必作于易。”这句话放在这里不玄。儿童罕见病诊断里最难的部分,有时不是缺少神奇模型,而是没人能低成本、持续、耐心地把旧病例和新知识重新对齐。
OpenAI 这次做对的地方,恰恰是没有把模型包装成医生。它站在医生前面,翻案卷,找线索,等人类把最后一锤敲下去。
这才是医疗 AI 更可信的入口:少一点替代叙事,多一点流程补洞。
