Richard Sutton 这次给大模型泼的冷水,不是说生成式 AI 没价值。他说得更窄,也更扎手:主要靠监督学习训练的普通生成式 AI,本质上更接近“模仿型 AI”,很有用,但还不能独立完成真正的新发现。
这个判断容易被吵偏。重点不在大模型会不会写论文、画图、出方案,而在它生成一堆东西之后,系统自己能不能判断哪一个更好,能不能把有效路径留下来,继续往前推。
这条线一旦划清,很多“AI 科学家”的宣传就要重新打分。
Sutton 划的线:发现不是随机生成
Sutton 给“发现”下的定义很朴素:variation、evaluation、selective retention。
翻成白话,就是三步:产生变化,评价好坏,留下有效结果。进化论靠这套逻辑运转,科学实验也靠这套逻辑推进。古人说“物竞天择”,放在这里并不玄,关键就是选择压力。
普通生成式 AI 有第一步。它能随机采样,能组合,能给出新奇答案。但 Sutton 批评的是:如果缺少运行时评价机制,新奇很难变成发现。
| 维度 | 普通生成式 AI | 更接近发现型的系统 |
|---|---|---|
| 变化 | 能生成大量候选内容 | 能尝试不同路径 |
| 评价 | 多数时候依赖人类判断 | 有目标、奖励、证明、测试或外部标准 |
| 保留 | 难以自动沉淀有效路线 | 能保留高价值结果并继续搜索 |
| 典型对照 | 文本、图片、视频生成模型 | AlphaGo、AlphaZero、AlphaFold、AlphaProof、Claude Code 等增强系统 |
这不是把所有现代 LLM 一棍子打死。很多系统已经被工具、搜索、反馈、代码执行环境增强过。Sutton 针对的是主要由监督学习训练的普通生成式 AI,而不是否定所有 AI 路线。
也不能把 AlphaFold、Claude Code 这类系统简单归成“纯强化学习”。更准确的说法是:它们多了一层能让候选结果被检验的机制。这个差别很关键。
分水岭在评价机制,不在模型大小
很多 AI 叙事喜欢走一条省事路线:数据更多,算力更大,参数更多,模型自然就会变成科学家。
我不太买账。
更大的模型会更会模仿,也会更会组织已有知识。它可能写出更像样的假设,给出更漂亮的方案,甚至制造很多人类没想到的组合。但科学发现不只需要“像”,还需要“验”。
一条定理能不能证明,一个蛋白结构能不能解释数据,一步棋会不会提高胜率,一段代码能不能跑通,这些都不是靠语言流畅度解决的。
Claude Code 这类编程工具显得更进一步,也正因为代码有硬反馈。能不能编译,测试过不过,报错在哪里,这些信号把“生成答案”推进到“修正答案”。
这给产品团队一个很现实的判断标准:不要只看模型能不能多轮对话、能不能写得像专家,要看它有没有可执行的评价闭环。
对企业采购者也一样。买“自动科研”“自动分析”“自动研发”之前,先问三件事:
- 它的候选结果由谁评价,是人、测试系统,还是外部数据?
- 错误结果会不会被记录、排除、反向改进?
- 成功路径能不能复用,还是每次都重新碰运气?
如果答案都落在人类身上,那它仍然是高效助手,不是独立发现者。采购可以继续,但预算预期要降一档。
接下来该看什么:谁能把火花变成炉膛
真正值得观察的变量不多。
一个是运行时评价。模型生成之后,有没有证明器、模拟器、实验数据、代码测试、奖励函数或人工反馈系统接住它。没有这层,生成越多,噪音也越多。
另一个是选择性保留。系统有没有能力把有效路径沉淀下来,而不是每次都从提示词重新开始。很多产品看起来聪明,实际只是临场发挥。临场发挥不能积累成科学。
这也是研究团队最该调整的地方。与其继续把所有赌注压在“更大模型自动涌现发现能力”,不如把工程重心移到验证环境、搜索策略、工具调用、记忆与反馈闭环上。
开发者的动作会更具体:优先选择能跑测试、能读错误、能迭代补丁的工具,而不是只会生成一整屏建议的聊天框。研究机构则要少写“自动科研”的大词,多公开系统如何评估失败、如何保留成功路径。
历史上,很多技术泡沫都栽在一个误判上:把“能展示”当成“能生产”。早期电气、铁路、互联网都经历过这种时刻。今天的 AI 不完全一样,但人性相似。演示最容易融资,闭环最难交付。
Sutton 这次真正提醒的,是别把打火机当发动机。
火花重要。没有火花,什么都不会开始。但能驱动车轮的,是可验证、可筛选、可积累的机制。大模型正在变强,可“AI 科学家”的门槛也因此变得更清楚:会生成只是入场券,会自我验证才算过门。
