OpenAI GeneBench-Pro：31.5%之后，AI科研卡在判断力

核心摘要 Summary

OpenAI 发布 GeneBench-Pro，用 129 个合成但贴近真实的计算生物学任务，测试 AI 在基因组学、生物学和科研分析中的高阶判断。
GPT-5.6 Sol Pro 最高通过率为 31.5%，比 GPT-5 起初低于 5%进步很快，但仍不到三分之一。
真正的变化不是 AI 会不会跑流程，而是它开始被拿来考“能不能做研究判断”。

GPT-5.6 Sol Pro 在 OpenAI 新发布的 GeneBench-Pro 上，最高通过率是 31.5%。

这个数字最容易被讲歪。它既不是“AI 生物学家来了”，也不是“模型还不行”。更准确的说法是：AI 已经碰到科研里最贵、最慢、最难外包的那一层——判断。

不是背知识。不是调用工具。也不是照着教程跑一遍分析。

它要在脏数据、模糊目标和下游决策之间，判断该信什么、改什么、停在哪里。

GeneBench-Pro测的是判断，不是流程

GeneBench-Pro 是 OpenAI 推出的计算生物学高难度评测。

它有 129 个问题，覆盖基因组学、定量生物学、转化医学等 10 个领域、21 个子领域。每道题给模型一个接近真实科研场景的数据集、简短实验背景，以及一个和下游决策相关的目标估计量。

模型要做的不是填空。

它要自己探索数据，选择分析路线，修正假设，最后给出可评分的答案。

项目	关键信息	我的判断
题量	129 题，覆盖 10 个领域、21 个子领域	不是小样本玩具题
数据	合成数据，但模拟真实科研问题	便于掌握因果结构和标准答案
评分设计	OpenAI 知道数据生成过程	目的是减少主观评分、捷径和 arbitrary cutoff
当前成绩	GPT-5.6 Sol 最高推理档 28.7%，Pro 模式 31.5%	进步快，但仍不到三分之一
早期对比	GPT-5 起初低于 5%	前沿模型在这类任务上增长很猛
人类成本	专家估计单题 20–40 小时；按 200 美元/小时计，成本数千美元	AI 单题推理成本只有数美元级，经济诱因很强

这套基准最聪明的地方，是没有直接拿真实历史数据硬凑标准答案。

生物分析里很多选择本来就有分歧。阈值怎么切，异常值怎么处理，模型怎么设，都可能有合理说法。真实数据越复杂，评分越容易变成“出题人偏好”。

合成数据的好处是，OpenAI 掌握因果结构和数据生成过程。这样可以更清楚地判断模型到底有没有找到正确路径，而不是靠漂亮话蒙混过关。

但限制也要摆在桌面上。

这是 OpenAI 自己发布的基准，前沿 GPT 模型也参与了开发和加固。它不能直接等同于完全中立的行业裁判。目前只开源了 10 个代表性问题，计划给 Artificial Analysis 一个 50 题子集做第三方评测。

可信度要靠外部评测补上。现在只能说，这是一张有价值的考卷，还不是最终判决书。

对技术团队和生物科研团队，动作不一样

这件事重要，不是因为 31.5% 很高。

恰恰相反。31.5%提醒我们，当前 agent 仍不可靠。OpenAI 自己也没有把它包装成专家替代品。

它重要，是因为评测对象变了。

过去很多 AI 科研自动化，测的是查文献、写代码、跑 pipeline、画图、生成报告。这些能力有用，但还在执行层。GeneBench-Pro 把压力推到更靠近专家脑子的地方：数据到底支不支持这个问题？早期诊断结果是否要求改模型？一个看似显著的模式，是生物信号，还是噪声？结果能不能拿去做下一步实验、临床判断或商业决策？

生物科研的瓶颈正在变。

测序和数据生成越来越便宜。biobank 级数据把分子、表型、电子健康记录接到一起。真正卡项目的，越来越不是“有没有数据”，而是“谁能从数据里提炼出可行动判断”。

天下熙熙，皆为利来。这里的“利”不是简单省人力，而是少走弯路。少做一个错误靶点优先级，少推进一条站不住的转化路线，本身就是钱。

对两类读者，动作应该不同。

读者	现在该怎么做	不该怎么做
关注 AI 科研自动化的技术团队	把这类任务纳入内部评测，重点测假设修正、路径选择、结果校验；先做辅助分析和候选方案生成	不要只用代码执行率、报告流畅度评估科研 agent
生物医药与计算生物学团队	可以试点用 AI 做初筛、复核、敏感性分析和备选 pipeline；关键结论仍要专家把关	不要把 31.5%当成采购科研自动化系统的充分理由

企业采购也该更冷静。

如果供应商只展示“自动跑完流程”，还不够。真正要问的是：模型在假设错了的时候会不会回头？面对相互冲突的信号，会不会说明取舍？输出结果能不能进入下游决策，还是只能当一份看起来很顺的报告？

这几个问题，比演示视频更值钱。

31.5%不是胜利，难点在闭合推理链

我不太买账的，是把这类成绩直接讲成“科研自动化突破”。

31.5%更像一张体检单：有些能力长得很快，但系统还没成熟。

模型现在能做出局部进展。它能观察现象，能写代码，能生成像样的分析说明。真正容易掉链子的，是最后几步：把证据串起来，发现早期假设错了，选择该放弃还是继续，判断答案是否足以支撑下游决策。

这很像新手研究员和资深专家的差别。

新手不一定不会跑代码，也不一定看不懂图。问题在于，他不知道哪张图该改变研究计划，哪条异常值得深挖，哪种漂亮结果其实不能用。

专家贵，就贵在这种研究品味。

GeneBench-Pro 的价值，是把“AI 缺少科研判断”这个模糊批评，变成可以测、可以错、可以追踪的东西。它把问题拆到诊断、估计量、假设修正、结果决策这些环节里。模型不再只是交作业，而是要经受研究过程本身的拷问。

但基准再聪明，也只是地图，不是领土。

合成数据能减少评分争议，也会天然削掉一部分真实世界的混乱：实验记录不完整，样本偏差有历史原因，团队沟通会误解，商业目标会挤压分析口径。这些东西不在题面里，却常常决定项目生死。

接下来最该看三件事。

第一，Artificial Analysis 的 50 题子集能不能复现类似排序。第二，模型失败主要败在哪：读题、建模、诊断、统计判断，还是最后决策。第三，药企和科研机构会不会把它接进真实工作流，而不是只拿来做展示。

如果失败集中在工具调用和代码错误，工程上还有很大修补空间。若失败集中在假设修正和证据取舍，问题就更深。那不是多接几个插件能解决的。

所以我会把 GeneBench-Pro 看成一个分水岭，而不是庆功宴。

AI 科研能力的竞争，正在从“工具熟练度”转向“判断闭环”。谁能在不确定性里持续做对决定，谁才真的接近专家。

31.5%说明门已经被推开一条缝。也说明门后面还很深。

OpenAI GeneBench-Pro：31.5%之后，AI科研卡在判断力

GeneBench Pro

评测转向

任务设计

合成评分

成绩信号

进步很快

成本诱因

落地边界

技术团队

生物团队

后续变量

复测排序

失败归因

GeneBench-Pro测的是判断，不是流程

对技术团队和生物科研团队，动作不一样

31.5%不是胜利，难点在闭合推理链