把旧论文交给 AI 重做,跑上 42 次实验,能得到什么?旧稿的主线已经很明确:自动科研不是不能用,而是很好用的部分集中在可拆解、可验证、可回滚的环节;一旦走到研究判断、实验编排、结果取舍这些位置,人还是得回来兜底。
新线索提供的补强,不是又来一个“AI 能写代码”的例子,而是把旧稿里一个隐性的瓶颈挑明了:当你不再只用一个模型,而是同时让多个 AI 代理去读论文、改代码、补实验、整理文档,混乱增长得往往比产出更快。问题开始从“单个 AI 能力够不够”转成“多代理流程怎么管”。
这个变化很重要。它让自动科研的讨论不再只盯着模型智力,而是回到一件更工程化的事:如果未来的研究工作越来越像“一个研究者带着一组 AI 实习生”,那真正决定效率上限的,可能不是最强的那个模型,而是谁能把这些代理的任务边界、状态、修改记录和人工介入点安排清楚。
旧稿谈的是能力边界,新线索补上了“组织边界”
旧稿的结论偏向能力论:42 次实验说明,AI 在重复性科研劳动上有甜头,但很难独立穿过研究流程里的不确定区。这个判断没问题,但新线索把另一个现实问题补得更完整——很多时候,不是 AI 完全不会做,而是人在管理这些 AI 产出的过程中被拖慢了。
在软件开发里,这个问题已经很具体了。一个代理修 Bug,一个代理重构模块,一个代理改文档,分支切换、stash、终端标签页、冲突排查,全都压到人身上。Baton 这类工具抓的就是这个痛点:不是替代理写代码,而是把每个代理放进独立 worktree,给它单独的分支、状态面板和 diff 视图,让人知道谁做完了、谁卡住了、谁需要拍板。
把这个观察搬回自动科研,映射关系其实很直接:
- 一个代理负责复现实验环境
- 一个代理负责重跑基线模型
- 一个代理负责改写方法描述和图表说明
- 一个代理负责整理日志、输出对照表
- 人类研究者在中间审阅、比较、叫停、回滚
旧稿更强调“AI 单点能力的上限”,新线索补强的是“多代理协作的管理成本”。两者放在一起,自动科研的天花板就更清楚了:不是某个步骤不能自动化,而是步骤一多、代理一多、分工一细,协调成本会迅速吞掉前面的效率红利。
真正稀缺的不是生成速度,是可见性和审计能力
新线索里最有价值的一点,是它把“并行”与“可见性”区分开了。手动多开几个终端、建几个分支,理论上也能并行;难的是你得时刻知道每个代理改了什么、做到哪一步、在哪个地方出了错。
这对自动科研尤其关键。因为科研场景里,审计往往比生成更重要。
旧稿讲 42 次实验时,重点落在 AI 是否能给出可用结果。新线索提醒我们,还要追问另一件事:你有没有能力低成本地检查这些结果是怎么来的。科研里最怕的不是 AI 写得慢,而是它改了实验参数、动了预处理脚本、换了评估口径,最后论文文字看起来更完整,结论却已经悄悄偏了。
所以,自动科研想走出“演示很好看、落地很费劲”的状态,靠的不只是更强模型,还要补几类能力:
- 状态汇总.哪个任务完成了,哪个实验失败了,哪个代理在等待人的决定
- 修改可追踪.代码、数据处理、图表、文稿分别动了哪些地方
- 差异可审查.任意两轮实验、两个代理、两个版本之间能快速比对
- 回滚可执行.发现方向错了,能退回上一个稳定版本,而不是重来一遍
- 责任可定位.错误来自模型幻觉、工具链问题,还是人的任务分配失误
这正是新来源相比旧稿额外补强的信息:旧稿更多是在看 AI 能不能帮研究者把活干完,新线索把焦点往前推进了一步——即便 AI 能干,人类也得有一套低摩擦的方式去监督、筛选和收口,否则实验次数越多,管理成本越像滚雪球。
自动科研正在进入第二阶段:从“单代理试用”到“多代理编排”
过去一段时间,很多人对 AI 科研或 AI 编程的想象都偏向单点突破:找一个足够强的模型,让它读文献、写代码、补分析、出结论。旧稿其实已经证明,这条路能省下一部分时间,但到复杂任务就会掉链子。
新线索提供的行业背景很有参考价值:AI 编程产品的竞争,已经从“谁更会写”转向“谁更能嵌进真实流程”。开发者不再只看模型演示,而是看它能不能在大仓库里改代码、补测试、遵守 Git 流程、支持 PR 审查。这个变化,对自动科研同样成立。
研究者接下来要面对的,可能不是“选哪一个最强助手”,而是“怎么把多个还不错的助手组织起来”。这和早期科研自动化工具的思路不一样。以前大家想的是找一个全能系统;现在更现实的方向,反而像分工协作:
- 让一个代理做文献检索和摘要
- 让一个代理写实验脚本和测试
- 让一个代理画图、整理附录和补材料
- 让人类保留问题定义、假设筛选和结果解释
一旦走到这一步,工作重点就会从能力采购转到流程设计。谁负责拆任务,谁负责隔离上下文,谁负责最终合并,谁负责定义“需要人工确认”的节点,这些都会成为自动科研系统的一部分。
这也是新线索最值得吸收的判断:AI 工具正在从模型中心,慢慢转到基础设施中心。对科研来说,这意味着未来真正有用的产品,未必是最会写摘要、最会补代码的那个,而是最能把实验记录、版本控制、审查节点、失败重试和人工决策整合顺的那个。
它能解决混乱,但解决不了研究判断
当然,把“调度层”补上,不等于自动科研的难题就消失了。新线索里也提到一个很现实的限制:多代理并行只是在组织上减少互相覆盖,不会自动减少任务之间的耦合。
这放到科研里,问题会更明显。几个代理分别去改同一套实验设计时,即便文件不冲突,研究判断也可能互相打架:
- 一个代理为了提高指标改了数据切分
- 一个代理为了提升可复现性删掉了某些启发式步骤
- 一个代理按论文叙述去“修饰”结果呈现
- 最终每个局部看起来都合理,整体却不再回答原来的研究问题
工具能隔离工作目录,不能替你做学术判断。它能告诉你谁改了哪几行代码,不能告诉你这个改动是否破坏了实验公正性。它能让多个代理各做各的,不能保证它们在方法论上是同一个方向。
这也是旧稿主线仍然成立的地方:自动科研的天花板,最后还是撞在判断、解释和责任归属上。新线索没有推翻这个结论,而是让它更具体:以前我们以为上限主要来自模型不够聪明,现在看,上限还来自流程没人收拾。
对不同人群,影响也不一样。
对独立研究者来说,多代理调度的价值最高。一个人本来就既要写代码又要跑实验,还要改论文,最容易被琐碎切换拖住。如果有一层能统一看状态、看 diff、做回滚,AI 才更像帮手,而不是额外负担。
对实验室和小团队来说,收益取决于任务是否可拆。基线复现、消融实验、文档整理这类工作适合并行;方法创新、研究假设修正、异常结果解释这类工作,仍然要由人集中拍板。团队越早把这条线画清楚,AI 产出越不容易失控。
对刚入门的研究者来说,新线索还提醒了另一点:底层如果还是 Git worktree、版本分支、日志和差异审查,这套系统天然更偏向有工程习惯的人。工具能把复杂性藏掉一部分,不能把理解成本抹平。自动科研若要真正普及,还得把“科研操作系统”做得比今天更容易上手。
旧稿还能往前走一步:把“返工论文”理解成一个调度问题
如果把旧稿里的 42 次实验重新看一遍,一个更完整的结论应该是:AI 带来的甜头,不只取决于模型能不能替人做研究动作,还取决于研究者能不能把任务拆到足够清楚、把代理管到足够有序、把结果审到足够透明。
这也是为什么新线索虽然来自 AI 编程工具,却能实打实补强旧稿。它没有带来新的惊艳能力,却提供了一个更现实的观察框架:自动科研不是一台更聪明的机器,而是一条更复杂的流水线。流水线一复杂,调度、可见性、审计、回滚就会和模型本身一样重要。
如果说旧稿回答的是“AI 返工旧论文,能帮研究者省下哪些体力”,那升级后的问题应该变成:“当多个 AI 一起返工时,谁来保证这些省下来的体力,不会在协调和收尾里再被吃回去。”
这比单纯争论模型强弱,更接近自动科研接下来两年的现实。我们看到的瓶颈,已经不只是生成质量,而是组织质量。
