AI圈最近又多了一个更难按住的词:RSI,递归自我改进。
它听起来比AGI还刺激。AGI问的是,机器能不能达到广泛智能;RSI问的是,机器能不能改进自己。如果后者成立,AI进步就不只是“人训练模型”,而可能变成“模型推动下一代模型”。
问题也在这里。
现在行业里确实出现了一批围绕自动研究、自动训练、模型自我优化的项目。但按公认意义上的RSI看,关键闭环还没出现:AI自己提出有效想法,自己实现,自己验证,再把结果带进下一轮升级。
我更在意的不是谁先喊出RSI,而是谁能证明这个闭环真的跑起来。
RSI为什么突然热:它比AGI更适合讲“加速”
RSI的完整说法是 Recursive Self-Improvement,递归自我改进。放到AI语境里,意思是AI系统持续改进自身。
理想状态下,它不只是帮研究员写代码,也不只是自动调参。它要能自动完成三件事:生成研究想法、实现方案、验证结果。
这就是它比AGI更容易点燃产业叙事的地方。
AGI的定义一直很难钉牢。到底是考试能力、工作能力,还是跨任务泛化能力?各家说法不同。RSI看起来更像一台加速器:只要AI能改进AI,下一轮进步就可能更快。
这套叙事对前沿实验室有吸引力,对创业公司也有吸引力。它能解释为什么要继续堆算力、招研究员、做自动化平台,也能给投资人一个更大的故事。
Richard Socher的新公司 Recursive Superintelligence 就是一个明确信号。公开信息里,这家公司把大规模递归自我改进作为目标,想让研究想法的构思、实现和验证全流程自动化。
但目标不是结果。
现在更像是大家在拆RSI这台机器的零件:有人做自动研究代理,有人做自动训练流程,有人让代理在特定竞赛里自我优化。零件有进展,整机还没证明能长期稳定运转。
| 项目或案例 | 公开动作 | 更接近RSI哪一环 | 现实判断 |
|---|---|---|---|
| Recursive Superintelligence | 以大规模递归自我改进为公司目标 | 全流程自动研究愿景 | 目标清楚,但公开验证还不足 |
| Karpathy Auto-Research | 用代理群训练小模型 | 自动实验、小幅改进 | 仍在GPT-2级别探索 |
| Adaption AutoScientist | 尝试自动化前沿模型训练 | 自动训练流程 | 更接近训练基础设施 |
| Disarray Kaggle案例 | 自训练机器学习代理拿到28枚奖牌 | 特定任务优化 | 不能直接外推到通用科研 |
这张表的重点不是谁更强,而是边界在哪里。
RSI现在最容易被讲过头。把自动编码说成自我进化,把训练流水线说成机器接管研究,把Kaggle奖牌说成通用科研突破,都是偷换概念。
谁在试水:有进展,但还不是机器自己做研究
Karpathy的 Auto-Research 是一个很好的参照物。
他公开在GitHub推进这个项目,用代理群在简单任务上训练语言模型。目前主要是在GPT-2级别模型上做小幅改进。Karpathy本人也称,这还不是新颖、突破性的研究。
这个判断很重要。因为它把热闹往回拉了一步。
Auto-Research说明,AI代理已经能参与实验流程,甚至能在局部任务上带来改进。但它还没有证明自己能提出高价值研究方向,也没有证明这种收益能在更大模型、更复杂训练环境里稳定复现。
Adaption 的 AutoScientist 代表另一条路。它由有 Cohere 和 Google 背景的 Sara Hooker 创立,目标是让模型训练过程更自动化。
这对训练团队有实际意义。很多模型训练不是灵光一闪,而是大量配置、实验、排错和评估。自动化工具如果能减少重复劳动,团队就能把人力放到方向选择和结果判断上。
对小团队也一样。它们未必能负担大厂式训练团队。如果训练流程自动化程度提高,小团队可能会把更多资源从“搭流水线”转向“选问题、做评估”。
但这仍然不是RSI的完整闭环。更准确地说,它是在降低训练摩擦,不是在证明模型能独立推动科研突破。
Disarray的Kaggle案例也有价值。其创始人Doris Xin提到,自训练机器学习代理在Kaggle比赛中拿到28枚奖牌。这说明在目标函数明确、数据集固定、评分规则清楚的环境里,自动化代理已经能做出竞争力。
限制也正来自这里。
Kaggle像一条画好赛道的跑道。真实科研更像在雾里找路。问题定义可能会变,实验结果会有噪声,负结果也可能有价值,长期方向不一定能用一个排行榜衡量。
所以,这类案例能证明“代理能在强约束任务里优化”。它还不能证明“代理能做通用科研”。
真正的分界线:验证权还在谁手里
Google CEO Sundar Pichai在近期播客里给过一个克制判断:行业确实在连续进步,但按人们描述的RSI,那会代表更高一级的加速,并带来很多影响;现在还没有真正到达。
这句话把问题说到了底层。
今天的AI可以写代码,可以辅助训练,可以让工程团队更依赖Claude Code这类工具。很多研发环节已经被AI重新分工。
但研究责任还没有交出去。
人类仍在设定目标,选择实验,判断结果,决定哪些方向值得继续烧算力。模型可以提出建议,但坏建议由人类筛掉;模型可以跑实验,但实验是否有价值仍由人类判断。
这对AI创业者和投资人影响最直接。
创业者如果打RSI牌,需要把“自我改进”说清楚:是自动调参,自动写训练代码,自动设计实验,还是能在低人工介入下稳定提升模型能力?这几个层级差很多。
投资人也不能只看演示视频。更该问四个问题:
- 改进结果能不能复现?
- 验证集和评估标准是谁定的?
- 算力预算是否可承受?
- 人类介入比例有没有真实下降?
这会改变决策动作。
如果一家创业公司只能展示“代理帮忙写代码”,那更像研发效率工具,估值和采购逻辑应按工具看。如果它能证明自动研究系统在多个任务上稳定产生可验证收益,才有资格进入更接近RSI的讨论。
对正在选型的AI团队也一样。短期更现实的做法不是押注“机器自我进化”,而是把自动化工具接到训练、评估、实验管理这些高重复环节。采购可以先小规模试点,别急着替换核心研究流程。
接下来最该盯三条线。
| 观察项 | 为什么关键 | 没做到意味着什么 |
|---|---|---|
| 更大模型上能否稳定复现收益 | 小模型有效不代表规模化有效 | 仍是实验室局部结果 |
| 改进结果是否有独立验证 | 自评容易放大收益 | 难判断是真进步还是评估偏差 |
| 人类监督比例是否下降 | RSI要求系统进入下一轮自我改进 | 仍是人类主导的自动化工具 |
这三条如果不能同时成立,RSI就还只是一个有技术含量的产业叙事。
它值得追,因为它指向AI研发自动化的真实方向。它不能拜,因为闭环还没有被公开证明。
回到开头那个问题:RSI是不是AGI之后的新目标?是。
但它现在更像一张路线图,不是一张成绩单。真正的门槛不在口号里,而在验证权从人手里移出去的那一刻。
