RSI成了AI圈新目标，但真正的自我改进还没跑通

核心摘要 Summary

AI圈正把递归自我改进（RSI）推到AGI之后的位置，但公开证据还停在自动研究、自动训练和局部优化。
真正的分界线不是模型会不会写代码，而是它能否自己提出改进、完成实现、验证收益，并进入下一轮。
对创业者和投资人来说，RSI可以看，但要把愿景、演示和可复现实验分开看。

AI圈最近又多了一个更难按住的词：RSI，递归自我改进。

它听起来比AGI还刺激。AGI问的是，机器能不能达到广泛智能；RSI问的是，机器能不能改进自己。如果后者成立，AI进步就不只是“人训练模型”，而可能变成“模型推动下一代模型”。

问题也在这里。

现在行业里确实出现了一批围绕自动研究、自动训练、模型自我优化的项目。但按公认意义上的RSI看，关键闭环还没出现：AI自己提出有效想法，自己实现，自己验证，再把结果带进下一轮升级。

我更在意的不是谁先喊出RSI，而是谁能证明这个闭环真的跑起来。

RSI为什么突然热：它比AGI更适合讲“加速”

RSI的完整说法是 Recursive Self-Improvement，递归自我改进。放到AI语境里，意思是AI系统持续改进自身。

理想状态下，它不只是帮研究员写代码，也不只是自动调参。它要能自动完成三件事：生成研究想法、实现方案、验证结果。

这就是它比AGI更容易点燃产业叙事的地方。

AGI的定义一直很难钉牢。到底是考试能力、工作能力，还是跨任务泛化能力？各家说法不同。RSI看起来更像一台加速器：只要AI能改进AI，下一轮进步就可能更快。

这套叙事对前沿实验室有吸引力，对创业公司也有吸引力。它能解释为什么要继续堆算力、招研究员、做自动化平台，也能给投资人一个更大的故事。

Richard Socher的新公司 Recursive Superintelligence 就是一个明确信号。公开信息里，这家公司把大规模递归自我改进作为目标，想让研究想法的构思、实现和验证全流程自动化。

但目标不是结果。

现在更像是大家在拆RSI这台机器的零件：有人做自动研究代理，有人做自动训练流程，有人让代理在特定竞赛里自我优化。零件有进展，整机还没证明能长期稳定运转。

项目或案例	公开动作	更接近RSI哪一环	现实判断
Recursive Superintelligence	以大规模递归自我改进为公司目标	全流程自动研究愿景	目标清楚，但公开验证还不足
Karpathy Auto-Research	用代理群训练小模型	自动实验、小幅改进	仍在GPT-2级别探索
Adaption AutoScientist	尝试自动化前沿模型训练	自动训练流程	更接近训练基础设施
Disarray Kaggle案例	自训练机器学习代理拿到28枚奖牌	特定任务优化	不能直接外推到通用科研

这张表的重点不是谁更强，而是边界在哪里。

RSI现在最容易被讲过头。把自动编码说成自我进化，把训练流水线说成机器接管研究，把Kaggle奖牌说成通用科研突破，都是偷换概念。

谁在试水：有进展，但还不是机器自己做研究

Karpathy的 Auto-Research 是一个很好的参照物。

他公开在GitHub推进这个项目，用代理群在简单任务上训练语言模型。目前主要是在GPT-2级别模型上做小幅改进。Karpathy本人也称，这还不是新颖、突破性的研究。

这个判断很重要。因为它把热闹往回拉了一步。

Auto-Research说明，AI代理已经能参与实验流程，甚至能在局部任务上带来改进。但它还没有证明自己能提出高价值研究方向，也没有证明这种收益能在更大模型、更复杂训练环境里稳定复现。

Adaption 的 AutoScientist 代表另一条路。它由有 Cohere 和 Google 背景的 Sara Hooker 创立，目标是让模型训练过程更自动化。

这对训练团队有实际意义。很多模型训练不是灵光一闪，而是大量配置、实验、排错和评估。自动化工具如果能减少重复劳动，团队就能把人力放到方向选择和结果判断上。

对小团队也一样。它们未必能负担大厂式训练团队。如果训练流程自动化程度提高，小团队可能会把更多资源从“搭流水线”转向“选问题、做评估”。

但这仍然不是RSI的完整闭环。更准确地说，它是在降低训练摩擦，不是在证明模型能独立推动科研突破。

Disarray的Kaggle案例也有价值。其创始人Doris Xin提到，自训练机器学习代理在Kaggle比赛中拿到28枚奖牌。这说明在目标函数明确、数据集固定、评分规则清楚的环境里，自动化代理已经能做出竞争力。

限制也正来自这里。

Kaggle像一条画好赛道的跑道。真实科研更像在雾里找路。问题定义可能会变，实验结果会有噪声，负结果也可能有价值，长期方向不一定能用一个排行榜衡量。

所以，这类案例能证明“代理能在强约束任务里优化”。它还不能证明“代理能做通用科研”。

真正的分界线：验证权还在谁手里

Google CEO Sundar Pichai在近期播客里给过一个克制判断：行业确实在连续进步，但按人们描述的RSI，那会代表更高一级的加速，并带来很多影响；现在还没有真正到达。

这句话把问题说到了底层。

今天的AI可以写代码，可以辅助训练，可以让工程团队更依赖Claude Code这类工具。很多研发环节已经被AI重新分工。

但研究责任还没有交出去。

人类仍在设定目标，选择实验，判断结果，决定哪些方向值得继续烧算力。模型可以提出建议，但坏建议由人类筛掉；模型可以跑实验，但实验是否有价值仍由人类判断。

这对AI创业者和投资人影响最直接。

创业者如果打RSI牌，需要把“自我改进”说清楚：是自动调参，自动写训练代码，自动设计实验，还是能在低人工介入下稳定提升模型能力？这几个层级差很多。

投资人也不能只看演示视频。更该问四个问题：

改进结果能不能复现？
验证集和评估标准是谁定的？
算力预算是否可承受？
人类介入比例有没有真实下降？

这会改变决策动作。

如果一家创业公司只能展示“代理帮忙写代码”，那更像研发效率工具，估值和采购逻辑应按工具看。如果它能证明自动研究系统在多个任务上稳定产生可验证收益，才有资格进入更接近RSI的讨论。

对正在选型的AI团队也一样。短期更现实的做法不是押注“机器自我进化”，而是把自动化工具接到训练、评估、实验管理这些高重复环节。采购可以先小规模试点，别急着替换核心研究流程。

接下来最该盯三条线。

观察项	为什么关键	没做到意味着什么
更大模型上能否稳定复现收益	小模型有效不代表规模化有效	仍是实验室局部结果
改进结果是否有独立验证	自评容易放大收益	难判断是真进步还是评估偏差
人类监督比例是否下降	RSI要求系统进入下一轮自我改进	仍是人类主导的自动化工具

这三条如果不能同时成立，RSI就还只是一个有技术含量的产业叙事。

它值得追，因为它指向AI研发自动化的真实方向。它不能拜，因为闭环还没有被公开证明。

回到开头那个问题：RSI是不是AGI之后的新目标？是。

但它现在更像一张路线图，不是一张成绩单。真正的门槛不在口号里，而在验证权从人手里移出去的那一刻。

RSI成了AI圈新目标，但真正的自我改进还没跑通

RSI热潮

叙事升温

资本友好

目标明确

进展边界

自动研究

任务优化

核心门槛

闭环缺口

科研责任

商业判断

创业估值

采购策略

后续变量

规模复现

独立评估

RSI为什么突然热：它比AGI更适合讲“加速”

谁在试水：有进展，但还不是机器自己做研究

真正的分界线：验证权还在谁手里