GPT-5.6 Sol Pro 在 OpenAI 新发布的 GeneBench-Pro 上,最高通过率是 31.5%。
这个数字最容易被讲歪。它既不是“AI 生物学家来了”,也不是“模型还不行”。更准确的说法是:AI 已经碰到科研里最贵、最慢、最难外包的那一层——判断。
不是背知识。不是调用工具。也不是照着教程跑一遍分析。
它要在脏数据、模糊目标和下游决策之间,判断该信什么、改什么、停在哪里。
GeneBench-Pro测的是判断,不是流程
GeneBench-Pro 是 OpenAI 推出的计算生物学高难度评测。
它有 129 个问题,覆盖基因组学、定量生物学、转化医学等 10 个领域、21 个子领域。每道题给模型一个接近真实科研场景的数据集、简短实验背景,以及一个和下游决策相关的目标估计量。
模型要做的不是填空。
它要自己探索数据,选择分析路线,修正假设,最后给出可评分的答案。
| 项目 | 关键信息 | 我的判断 |
|---|---|---|
| 题量 | 129 题,覆盖 10 个领域、21 个子领域 | 不是小样本玩具题 |
| 数据 | 合成数据,但模拟真实科研问题 | 便于掌握因果结构和标准答案 |
| 评分设计 | OpenAI 知道数据生成过程 | 目的是减少主观评分、捷径和 arbitrary cutoff |
| 当前成绩 | GPT-5.6 Sol 最高推理档 28.7%,Pro 模式 31.5% | 进步快,但仍不到三分之一 |
| 早期对比 | GPT-5 起初低于 5% | 前沿模型在这类任务上增长很猛 |
| 人类成本 | 专家估计单题 20–40 小时;按 200 美元/小时计,成本数千美元 | AI 单题推理成本只有数美元级,经济诱因很强 |
这套基准最聪明的地方,是没有直接拿真实历史数据硬凑标准答案。
生物分析里很多选择本来就有分歧。阈值怎么切,异常值怎么处理,模型怎么设,都可能有合理说法。真实数据越复杂,评分越容易变成“出题人偏好”。
合成数据的好处是,OpenAI 掌握因果结构和数据生成过程。这样可以更清楚地判断模型到底有没有找到正确路径,而不是靠漂亮话蒙混过关。
但限制也要摆在桌面上。
这是 OpenAI 自己发布的基准,前沿 GPT 模型也参与了开发和加固。它不能直接等同于完全中立的行业裁判。目前只开源了 10 个代表性问题,计划给 Artificial Analysis 一个 50 题子集做第三方评测。
可信度要靠外部评测补上。现在只能说,这是一张有价值的考卷,还不是最终判决书。
对技术团队和生物科研团队,动作不一样
这件事重要,不是因为 31.5% 很高。
恰恰相反。31.5%提醒我们,当前 agent 仍不可靠。OpenAI 自己也没有把它包装成专家替代品。
它重要,是因为评测对象变了。
过去很多 AI 科研自动化,测的是查文献、写代码、跑 pipeline、画图、生成报告。这些能力有用,但还在执行层。GeneBench-Pro 把压力推到更靠近专家脑子的地方:数据到底支不支持这个问题?早期诊断结果是否要求改模型?一个看似显著的模式,是生物信号,还是噪声?结果能不能拿去做下一步实验、临床判断或商业决策?
生物科研的瓶颈正在变。
测序和数据生成越来越便宜。biobank 级数据把分子、表型、电子健康记录接到一起。真正卡项目的,越来越不是“有没有数据”,而是“谁能从数据里提炼出可行动判断”。
天下熙熙,皆为利来。这里的“利”不是简单省人力,而是少走弯路。少做一个错误靶点优先级,少推进一条站不住的转化路线,本身就是钱。
对两类读者,动作应该不同。
| 读者 | 现在该怎么做 | 不该怎么做 |
|---|---|---|
| 关注 AI 科研自动化的技术团队 | 把这类任务纳入内部评测,重点测假设修正、路径选择、结果校验;先做辅助分析和候选方案生成 | 不要只用代码执行率、报告流畅度评估科研 agent |
| 生物医药与计算生物学团队 | 可以试点用 AI 做初筛、复核、敏感性分析和备选 pipeline;关键结论仍要专家把关 | 不要把 31.5%当成采购科研自动化系统的充分理由 |
企业采购也该更冷静。
如果供应商只展示“自动跑完流程”,还不够。真正要问的是:模型在假设错了的时候会不会回头?面对相互冲突的信号,会不会说明取舍?输出结果能不能进入下游决策,还是只能当一份看起来很顺的报告?
这几个问题,比演示视频更值钱。
31.5%不是胜利,难点在闭合推理链
我不太买账的,是把这类成绩直接讲成“科研自动化突破”。
31.5%更像一张体检单:有些能力长得很快,但系统还没成熟。
模型现在能做出局部进展。它能观察现象,能写代码,能生成像样的分析说明。真正容易掉链子的,是最后几步:把证据串起来,发现早期假设错了,选择该放弃还是继续,判断答案是否足以支撑下游决策。
这很像新手研究员和资深专家的差别。
新手不一定不会跑代码,也不一定看不懂图。问题在于,他不知道哪张图该改变研究计划,哪条异常值得深挖,哪种漂亮结果其实不能用。
专家贵,就贵在这种研究品味。
GeneBench-Pro 的价值,是把“AI 缺少科研判断”这个模糊批评,变成可以测、可以错、可以追踪的东西。它把问题拆到诊断、估计量、假设修正、结果决策这些环节里。模型不再只是交作业,而是要经受研究过程本身的拷问。
但基准再聪明,也只是地图,不是领土。
合成数据能减少评分争议,也会天然削掉一部分真实世界的混乱:实验记录不完整,样本偏差有历史原因,团队沟通会误解,商业目标会挤压分析口径。这些东西不在题面里,却常常决定项目生死。
接下来最该看三件事。
第一,Artificial Analysis 的 50 题子集能不能复现类似排序。第二,模型失败主要败在哪:读题、建模、诊断、统计判断,还是最后决策。第三,药企和科研机构会不会把它接进真实工作流,而不是只拿来做展示。
如果失败集中在工具调用和代码错误,工程上还有很大修补空间。若失败集中在假设修正和证据取舍,问题就更深。那不是多接几个插件能解决的。
所以我会把 GeneBench-Pro 看成一个分水岭,而不是庆功宴。
AI 科研能力的竞争,正在从“工具熟练度”转向“判断闭环”。谁能在不确定性里持续做对决定,谁才真的接近专家。
31.5%说明门已经被推开一条缝。也说明门后面还很深。
