AI会做题还不够，得会动手：ARC-AGI-3把“行动能力差距”量出来了

核心摘要 Summary

旧稿讨论的是 ARC-AGI-3 为什么比传统智力测试更接近“真正的智能差距”。
新线索补强了两个关键变量：一是 Symbolica 在公共评测上给出 36.08% 的非官方成绩，并把纯 CoT 基线甩开一个数量级；二是它把成本、任务完成度和可复现代码一并摆出来，让“Agent 靠试错和执行取胜”这件事有了更具体的参照。
问题也随之更清楚：下一轮 AI 竞争，可能不是谁更会解释，而是谁能在环境里持续把事做完。

内容导图 Mind Map

评测范式转变

ARC AGI 3量化AI能力断层：从语言推理转向行动闭环

核心成绩线索

Symbolica非官方成绩达36.08%

解题与通关

解出182关中的113个，完整通关7个游戏

旧路线对比

纯CoT基线不到0.3%，差距达两个数量级

成本效率

耗资仅千美元，远低于CoT基线近九千美元

测试重点转移

行动闭环取代静态推理成为核心考核点

环境交互操作

必须具备对环境进行操作与工具调用能力

策略动态修正

依赖反馈调整策略并持续试错

多步任务执行

需将目标维持至多步任务完成

能力解耦

拉开差距的是代理系统架构而非底模

系统级工程

决定上限的是任务拆解、记忆保留与回溯机制

成本榨取率

代理框架能以更低成本榨取底模有效能力

受影响对象

评估重心向流程执行与稳定性倾斜

企业自动化

竞争点转向工具调用与错误恢复

应用层开发

被迫强化状态管理与环境接口

投资与评测

不能仅看语言榜单，需引入行动稳定性指标

核心约束

非官方成绩受限于受控环境，亟待复现验证

结果未验证

非官方成绩，口径敏感易波动

任务分布不均

高分集中在特定类型，异常场景处理极弱

脱离开放场景

受控环境难掩真实业务中的复杂扰动

后续验证变量

行业价值取决于开源复现与企业场景迁移

独立复现

已公开方法与代码，等待社区验证拆解

成本口径统一

尝试次数与工具权限需形成标准

开放场景迁移

代理能力需跨越受控环境进入真实业务流程

ARC-AGI-3 这类测试的价值，旧稿已经讲过：它不是测模型会不会说漂亮话，而是在量模型面对陌生任务时，能不能自己摸规则、修正错误并完成目标。新线索把这件事往前推了一步。它没有改写 ARC 的定义，但给出了一个更硬的对照：在同一类公共评测里，代理式系统和纯思维链系统，差距可能大到不再适合放在一个能力框里讨论。

新来源比旧稿额外补强了三类信息。第一，是具体成绩：Symbolica 宣布其 Agentica SDK 在 ARC-AGI-3 公共评测上拿到 36.08% 的非官方成绩，解出 182 个可玩关卡中的 113 个，并完整通关 25 个游戏中的 7 个。第二，是明确对照：文中给出的纯 CoT 基线里，Opus 4.6 Max 约 0.2%，GPT 5.4 High 约 0.3%。第三，是成本维度：Agentica 报称用约 1005 美元拿到这份成绩，而 Opus 4.6 的 CoT 基线成本约 8900 美元。旧稿如果只停在“ARC-AGI-3 更强调行动”，那还是原则判断；加上这组数据后，判断开始有了工程上的落点。

36% 不是高分，但足够说明问题变了

单看 36.08%，很难说这是“接近人类”的成绩。ARC 系列本来就难，ARC-AGI-3 又把题目从静态推理推到交互环境里，36% 远不能代表系统已经具备稳定的通用智能。

但这组数字的重要性，不在于它高不高，而在于它和旧路线拉开了可见差距。新线索里最有信息量的部分，不是 Agentica 单独考了多少，而是纯 CoT 基线几乎贴地。假如后续验证口径一致，这意味着在 ARC-AGI-3 这种题目上，靠模型“想得更长、解释得更完整”已经不够，关键变成了：

能不能对环境做操作
能不能根据反馈调整策略
能不能在失败后继续尝试
能不能把目标维持到多步任务结束

这正是旧稿主线里“会做题不等于会思考”需要补上的下半句：很多时候，会思考也不等于会完成任务。ARC-AGI-3 测的不是答题姿势，而是行动闭环。

新增对照告诉我们：差距不只在模型，在系统

新来源最有用的补充，不是又一次证明 ARC 很难，而是把“系统设计”这个变量摊开了。按照博客口径，Agentica 并不是靠更大的底层模型把分数抬上去，而是靠代理式执行把已有模型能力组织起来。这和过去两年很多团队的经验是对得上的：模型像发动机，真正决定产品上限的，往往是发动机外面的那一圈结构。

这里有个判断，旧稿可以借新材料说得更直白：ARC-AGI-3 正在把“模型能力”和“系统能力”分开测。

在传统榜单里，大家习惯把分数归功于模型本身。但在这类交互任务里，决定结果的因素至少还包括：

任务怎么拆
何时调用工具
如何保留中间记忆
搜索和回溯怎么做
遇到错误是否及时止损
成本预算如何约束尝试次数

新线索里的成本对照尤其关键。1005 美元对 8900 美元，如果口径成立，说明问题不只是“Agent 分更高”，而是“Agent 可能用更便宜的方式，把模型的有效能力榨出来”。对企业用户和开发团队来说，这比榜单上的几个百分点更现实。因为他们买的不是抽象智能，而是单位成本下能完成多少工作。

这份成绩单对谁最有影响

如果只把 ARC-AGI-3 当成研究圈内部的竞赛，36.08% 只是一条榜单新闻。但把新线索放进现实应用里看，它影响的是几类很具体的人。

第一类是做企业自动化的团队。

他们关心的不是模型会不会写一段漂亮分析，而是能不能把查错、填表、调接口、跑流程这类事情做完。新线索强化了一个趋势：面向流程执行的产品，竞争点会越来越多地落在代理框架、工具调用和错误恢复，而不是只比底模参数。

第二类是大模型平台和应用层创业公司。

如果纯 CoT 在某些交互基准上接近失效，那么“更长思维链”“更强解释能力”未必能直接转成任务完成率。应用层团队会被迫更重视状态管理、规划器、环境接口和测试机制。平台公司也会面对一个更实际的问题：用户究竟需要一个会回答的人，还是一个能办事的系统？

第三类是评测设计者和投资人。

过去很多判断建立在“谁在标准问答里更强”。新线索提供了一个更细的观察口径：同样是 AI，语言表现和行动表现可能不是一条曲线。对投资和产品判断来说，这意味着不能再只看通用大模型榜单，还要看系统在任务环境中的稳定性、成本和失败处理能力。

别急着把 36% 当成分水岭，它还有几道坎没过

新线索也带来了旧稿里必须补足的约束。最重要的一条，是这份成绩目前仍是非官方、未验证结果。ARC 这类基准对评测口径很敏感，只要环境设置、成本统计、尝试次数、工具权限稍有不同，分数就可能大幅波动。所以现在能下的判断，不是“Agentica 已经证明自己全面领先”，而是“它提出了一个值得复查的强信号”。

还有两个现实限制不能省略。

一是任务分布不均。博客里列出的分项目成绩高低差很多。有些游戏接近 80% 到 97%，有些则很低，甚至近乎没有进展。这说明系统不是普遍可靠，而是在部分任务类型上已经形成有效策略，在另一部分上还没有。对实际部署来说，这类不均匀性会直接影响可用性，因为用户碰到的往往不是平均任务，而是最棘手的那几个异常场景。

二是基准成绩不自动等于产品能力。ARC-AGI-3 比很多纸面测试更接近现实，但它仍然是一个受控环境。真实世界的问题更脏：页面会变、权限会断、输入会乱、上下文会缺、用户会中途改主意。一个系统能在 ARC 里学会试错，不代表它已经具备开放世界中的稳健执行。

不过，新来源里有一点仍然值得肯定：它不只报分，还公开了 GitHub 仓库和方法路径。对社区来说，这比一句“我们更强”更有意义。因为真正能推动行业判断的，不是单次宣告，而是后续是否有人复现、拆解、质疑，然后确认哪些能力是真的，哪些只是特定设定下的结果。

ARC-AGI-3 现在更像一面镜子，不再只是难题集

把旧稿和新线索放在一起看，ARC-AGI-3 的位置也更清楚了。它不是用来宣布 AGI 已到来的舞台，也不是一份普通排行榜。它更像一面镜子，照出今天 AI 系统里一个很实际的断层：语言上已经很像，行动上还差很远。

新来源补强的核心，不是“又一家团队拿到了更好成绩”，而是把这道断层量化了。纯 CoT 的低分和 Agentica 的相对高分，连同成本差距、任务完成度和开源代码，构成了一个更具体的行业信号：接下来谁能把模型组织成可持续执行、可反馈修正、可控成本的任务系统，谁就更接近真实业务价值。

这件事对普通用户的翻译也很简单。未来两年，最有用的 AI 也许不是最会聊天的那个，而是最少让你返工、最能自己补救错误、最能把一串步骤走完的那个。ARC-AGI-3 不负责替行业下结论，但它至少把该盯的指标换了一批。

锐评 Commentary

我的判断是，Symbolica 这次 36.08% 的非官方成绩，还不足以改变行业格局，但足以改变讨论重点。旧稿强调 ARC-AGI-3 在重新测“真正的智能差距”；新线索进一步证明，这个差距正在从“会不会推理”转向“能不能在环境里完成任务”。接下来最关键的不是再多几个营销式高分，而是三件事：有没有独立复现、成本口径能否统一、这些代理能力能否迁移到企业流程和开放场景。如果后续验证成立，Agent 系统会比单纯更会说的模型，更快进入付费场景。

ARC-AGI-3Agent 能力SymbolicaAgentica SDK思维链行动能力差距公共评测任务完成度GPT 5.4 HighOpus 4.6 Max