OpenAI这次公开的不是一个“AI懂生物”的炫技榜单,而是GeneBench-Pro的10个案例题页面。

每个案例都给出原始prompt、数据集和支撑材料。反常点在这里:它不急着考模型背了多少生物知识,而是把模型丢进一堆不干净的数据里,看它会不会先排雷,再下判断。

这比答题难得多。生物医学里最要命的错误,常常不是术语说错,而是把混杂因素当因果,把测序伪影当发现,把不确定结论写成临床建议。

这10道题考的是分析链条

GeneBench-Pro这批案例覆盖肿瘤治疗决策、CRISPR靶点验证、统计遗传、携带者筛查、单细胞eQTL、结构变异、染色质环、QTL定位、群体遗传、古DNA选择压力。

主线很一致:先校准证据,再谈结论。

方向案例任务真正卡点
肿瘤与临床基因组结构变异指导的治疗获益-风险判断长读长、表达、肿瘤质量、药物毒性要一起看
功能基因组CRISPR验证lncRNA依赖区分转录本效应、邻近基因效应、GC毒性和板效应
统计遗传cis-MVMR优先级排序蛋白药靶LD、等位基因方向、winner's curse、局部多效性
携带者筛查DRX1残余风险估计伪基因、CNV、祖源校准、伴侣人群标准化
单细胞与调控eQTL、Hi-C环强度等ambient RNA、低可比对区域、结构变异伪影
群体与古DNA祖源、混合时间、选择压力标签反转、测序错误、漂变、样本量变化

这里必须划清边界。TXR1、TXR1i、DRX1等是synthetic benchmark labels,不是OpenAI宣布了真实药物、真实基因发现或真实临床结论。

页面展示的是benchmark案例。不是模型成绩单,也不是临床可用性证明。

所以,这件事不能读成“OpenAI已经能做基因治疗决策”。更准确的读法是:OpenAI在把AI生物评测从知识问答,推向真实分析链条。

分水岭藏在混杂因素里

过去不少生物benchmark,本质是在测模型能不能记住文献、解释概念、写一段像样的机制推理。

这有用,但离科研和临床还隔着一条河。

这条河叫数据现实。

真实基因组学任务里,问题通常不是“有没有信号”。问题是:这个信号是不是LD带来的?是不是伪基因导致错配?是不是ambient RNA污染了细胞状态?是不是结构变异制造了Hi-C条纹?是不是祖源标签在某条染色体上反了?是不是古DNA测序错误让选择压力看起来更强?

模型只会说术语,会显得很聪明。但它越自信,越危险。

GeneBench-Pro有价值的地方,是把模型放到更接近专业分析师的位置。它不能急着回答。它要先问数据能不能信,变量有没有对齐,比较对象是不是同一尺度,结论会不会被偏差推着走。

这不像普通考试题,更像早期铁路铺轨后的信号系统测试。火车跑得快当然好,但真正决定灾难的,是岔道、信号灯和调度误差。

AI进生物医学也是这样。生成能力是发动机,校准能力才是刹车和信号系统。

“差之毫厘,谬以千里。”这句话放在基因组学里一点不虚。一个等位基因方向错了,一个祖源分层没处理,一个低可比对区域没遮掉,最后都可能变成看似漂亮、实际很脆的结论。

真正受影响的是两类人

对AI生物医药团队来说,这类benchmark会改变评估顺序。

不能只问模型会不会读论文、写机制、生成实验方案。更要问它能不能识别伪影,能不能主动要求校准,能不能在证据不足时降权,甚至拒绝下结论。

具体动作会很现实:采购或接入模型前,团队应该把评测集从“知识问答”扩到“分析流程”。尤其是靶点优先级、遗传证据、临床前风险判断这几类场景,不能只看回答是否顺滑。

对计算生物学和基因组学研究者来说,GeneBench-Pro提供了一个观察窗口。

模型到底是在复述常识,还是抓住了流程里的控制点?比如先处理ambient RNA再建eQTL模型,这不是小细节,而是结论能不能站住的前提。

这也会逼研究者调整使用方式。把模型当“解释器”可以省时间;把模型当“审稿人”或“分析员”,就要给它检查项、边界条件和可追溯证据。否则自动化越多,错得越快。

目前还看不清的是模型表现。OpenAI这页材料没有给出成绩、排名、通过率,也没有证明哪一个模型已经能稳定完成这些任务。

接下来最该看的不是漂亮demo,而是四件事:

  • 模型能否主动识别LD、伪基因、ambient RNA、低可比对区域这类陷阱;
  • 模型能否把证据强弱说清,而不是把相关性写成因果;
  • 模型能否在关键数据缺失时停止推断;
  • 评测是否能复现到不同数据集和不同实验设定里。

我不太买账“AI已经懂生命科学”的大叙事。懂术语,离懂实验和临床后果还很远。

真正有价值的模型,不是把论文摘要讲得更顺,而是在证据互相打架时,知道哪里该停,哪里该降权,哪里不能下结论。

GeneBench-Pro的意义就在这里。它没有把AI包装成全知助手,而是把AI拖进生物医学最泥泞的地方。

泥泞里跑得稳,才算本事。