Sutton 给大模型划线：会生成，不等于会发现

核心摘要 Summary

Richard Sutton 的核心判断很明确：主要靠监督学习训练的普通生成式 AI 很有用，但更像“模仿型 AI”，缺少独立发现机制。
真正的分水岭不是能不能生成新奇内容，而是能不能评价、筛选、保留，并在目标约束下继续推进。
受影响最大的，是押注“模型变大就会自动通向科学发现”的研究叙事和产品路线。

内容导图 Mind Map

发现门槛

会生成不等于会发现

Sutton 划线

普通生成式 AI 偏模仿

三步机制

变化、评价、保留缺一不可

短板所在

缺运行时评价

分水岭

关键不在模型大小

评价闭环

验证推动修正

硬反馈

代码测试更接近发现

路线重估

自动科研叙事降温

采购预期

助手价值高于发现者

产品判断

先看可执行闭环

后续变量

火花需变成炉膛

验证环境

证明器、模拟器接住候选

选择保留

成功路径可积累

Richard Sutton 这次给大模型泼的冷水，不是说生成式 AI 没价值。他说得更窄，也更扎手：主要靠监督学习训练的普通生成式 AI，本质上更接近“模仿型 AI”，很有用，但还不能独立完成真正的新发现。

这个判断容易被吵偏。重点不在大模型会不会写论文、画图、出方案，而在它生成一堆东西之后，系统自己能不能判断哪一个更好，能不能把有效路径留下来，继续往前推。

这条线一旦划清，很多“AI 科学家”的宣传就要重新打分。

Sutton 划的线：发现不是随机生成

Sutton 给“发现”下的定义很朴素：variation、evaluation、selective retention。

翻成白话，就是三步：产生变化，评价好坏，留下有效结果。进化论靠这套逻辑运转，科学实验也靠这套逻辑推进。古人说“物竞天择”，放在这里并不玄，关键就是选择压力。

普通生成式 AI 有第一步。它能随机采样，能组合，能给出新奇答案。但 Sutton 批评的是：如果缺少运行时评价机制，新奇很难变成发现。

维度	普通生成式 AI	更接近发现型的系统
变化	能生成大量候选内容	能尝试不同路径
评价	多数时候依赖人类判断	有目标、奖励、证明、测试或外部标准
保留	难以自动沉淀有效路线	能保留高价值结果并继续搜索
典型对照	文本、图片、视频生成模型	AlphaGo、AlphaZero、AlphaFold、AlphaProof、Claude Code 等增强系统

这不是把所有现代 LLM 一棍子打死。很多系统已经被工具、搜索、反馈、代码执行环境增强过。Sutton 针对的是主要由监督学习训练的普通生成式 AI，而不是否定所有 AI 路线。

也不能把 AlphaFold、Claude Code 这类系统简单归成“纯强化学习”。更准确的说法是：它们多了一层能让候选结果被检验的机制。这个差别很关键。

分水岭在评价机制，不在模型大小

很多 AI 叙事喜欢走一条省事路线：数据更多，算力更大，参数更多，模型自然就会变成科学家。

我不太买账。

更大的模型会更会模仿，也会更会组织已有知识。它可能写出更像样的假设，给出更漂亮的方案，甚至制造很多人类没想到的组合。但科学发现不只需要“像”，还需要“验”。

一条定理能不能证明，一个蛋白结构能不能解释数据，一步棋会不会提高胜率，一段代码能不能跑通，这些都不是靠语言流畅度解决的。

Claude Code 这类编程工具显得更进一步，也正因为代码有硬反馈。能不能编译，测试过不过，报错在哪里，这些信号把“生成答案”推进到“修正答案”。

这给产品团队一个很现实的判断标准：不要只看模型能不能多轮对话、能不能写得像专家，要看它有没有可执行的评价闭环。

对企业采购者也一样。买“自动科研”“自动分析”“自动研发”之前，先问三件事：

它的候选结果由谁评价，是人、测试系统，还是外部数据？
错误结果会不会被记录、排除、反向改进？
成功路径能不能复用，还是每次都重新碰运气？

如果答案都落在人类身上，那它仍然是高效助手，不是独立发现者。采购可以继续，但预算预期要降一档。

接下来该看什么：谁能把火花变成炉膛

真正值得观察的变量不多。

一个是运行时评价。模型生成之后，有没有证明器、模拟器、实验数据、代码测试、奖励函数或人工反馈系统接住它。没有这层，生成越多，噪音也越多。

另一个是选择性保留。系统有没有能力把有效路径沉淀下来，而不是每次都从提示词重新开始。很多产品看起来聪明，实际只是临场发挥。临场发挥不能积累成科学。

这也是研究团队最该调整的地方。与其继续把所有赌注压在“更大模型自动涌现发现能力”，不如把工程重心移到验证环境、搜索策略、工具调用、记忆与反馈闭环上。

开发者的动作会更具体：优先选择能跑测试、能读错误、能迭代补丁的工具，而不是只会生成一整屏建议的聊天框。研究机构则要少写“自动科研”的大词，多公开系统如何评估失败、如何保留成功路径。

历史上，很多技术泡沫都栽在一个误判上：把“能展示”当成“能生产”。早期电气、铁路、互联网都经历过这种时刻。今天的 AI 不完全一样，但人性相似。演示最容易融资，闭环最难交付。

Sutton 这次真正提醒的，是别把打火机当发动机。

火花重要。没有火花，什么都不会开始。但能驱动车轮的，是可验证、可筛选、可积累的机制。大模型正在变强，可“AI 科学家”的门槛也因此变得更清楚：会生成只是入场券，会自我验证才算过门。

锐评 Commentary

新奇只是火星，评价才是炉膛。没有保留机制，再大的模型也很难独立发现。

Richard Sutton生成式 AI大模型强化学习监督学习模仿型 AI发现能力自我评价选择性保留科学方法