ARC-AGI-3 这类测试的价值,旧稿已经讲过:它不是测模型会不会说漂亮话,而是在量模型面对陌生任务时,能不能自己摸规则、修正错误并完成目标。新线索把这件事往前推了一步。它没有改写 ARC 的定义,但给出了一个更硬的对照:在同一类公共评测里,代理式系统和纯思维链系统,差距可能大到不再适合放在一个能力框里讨论。

新来源比旧稿额外补强了三类信息。第一,是具体成绩:Symbolica 宣布其 Agentica SDK 在 ARC-AGI-3 公共评测上拿到 36.08% 的非官方成绩,解出 182 个可玩关卡中的 113 个,并完整通关 25 个游戏中的 7 个。第二,是明确对照:文中给出的纯 CoT 基线里,Opus 4.6 Max 约 0.2%,GPT 5.4 High 约 0.3%。第三,是成本维度:Agentica 报称用约 1005 美元拿到这份成绩,而 Opus 4.6 的 CoT 基线成本约 8900 美元。旧稿如果只停在“ARC-AGI-3 更强调行动”,那还是原则判断;加上这组数据后,判断开始有了工程上的落点。

36% 不是高分,但足够说明问题变了

单看 36.08%,很难说这是“接近人类”的成绩。ARC 系列本来就难,ARC-AGI-3 又把题目从静态推理推到交互环境里,36% 远不能代表系统已经具备稳定的通用智能。

但这组数字的重要性,不在于它高不高,而在于它和旧路线拉开了可见差距。新线索里最有信息量的部分,不是 Agentica 单独考了多少,而是纯 CoT 基线几乎贴地。假如后续验证口径一致,这意味着在 ARC-AGI-3 这种题目上,靠模型“想得更长、解释得更完整”已经不够,关键变成了:

  • 能不能对环境做操作
  • 能不能根据反馈调整策略
  • 能不能在失败后继续尝试
  • 能不能把目标维持到多步任务结束

这正是旧稿主线里“会做题不等于会思考”需要补上的下半句:很多时候,会思考也不等于会完成任务。ARC-AGI-3 测的不是答题姿势,而是行动闭环。

新增对照告诉我们:差距不只在模型,在系统

新来源最有用的补充,不是又一次证明 ARC 很难,而是把“系统设计”这个变量摊开了。按照博客口径,Agentica 并不是靠更大的底层模型把分数抬上去,而是靠代理式执行把已有模型能力组织起来。这和过去两年很多团队的经验是对得上的:模型像发动机,真正决定产品上限的,往往是发动机外面的那一圈结构。

这里有个判断,旧稿可以借新材料说得更直白:ARC-AGI-3 正在把“模型能力”和“系统能力”分开测。

在传统榜单里,大家习惯把分数归功于模型本身。但在这类交互任务里,决定结果的因素至少还包括:

  • 任务怎么拆
  • 何时调用工具
  • 如何保留中间记忆
  • 搜索和回溯怎么做
  • 遇到错误是否及时止损
  • 成本预算如何约束尝试次数

新线索里的成本对照尤其关键。1005 美元对 8900 美元,如果口径成立,说明问题不只是“Agent 分更高”,而是“Agent 可能用更便宜的方式,把模型的有效能力榨出来”。对企业用户和开发团队来说,这比榜单上的几个百分点更现实。因为他们买的不是抽象智能,而是单位成本下能完成多少工作。

这份成绩单对谁最有影响

如果只把 ARC-AGI-3 当成研究圈内部的竞赛,36.08% 只是一条榜单新闻。但把新线索放进现实应用里看,它影响的是几类很具体的人。

第一类是做企业自动化的团队。

他们关心的不是模型会不会写一段漂亮分析,而是能不能把查错、填表、调接口、跑流程这类事情做完。新线索强化了一个趋势:面向流程执行的产品,竞争点会越来越多地落在代理框架、工具调用和错误恢复,而不是只比底模参数。

第二类是大模型平台和应用层创业公司。

如果纯 CoT 在某些交互基准上接近失效,那么“更长思维链”“更强解释能力”未必能直接转成任务完成率。应用层团队会被迫更重视状态管理、规划器、环境接口和测试机制。平台公司也会面对一个更实际的问题:用户究竟需要一个会回答的人,还是一个能办事的系统?

第三类是评测设计者和投资人。

过去很多判断建立在“谁在标准问答里更强”。新线索提供了一个更细的观察口径:同样是 AI,语言表现和行动表现可能不是一条曲线。对投资和产品判断来说,这意味着不能再只看通用大模型榜单,还要看系统在任务环境中的稳定性、成本和失败处理能力。

别急着把 36% 当成分水岭,它还有几道坎没过

新线索也带来了旧稿里必须补足的约束。最重要的一条,是这份成绩目前仍是非官方、未验证结果。ARC 这类基准对评测口径很敏感,只要环境设置、成本统计、尝试次数、工具权限稍有不同,分数就可能大幅波动。所以现在能下的判断,不是“Agentica 已经证明自己全面领先”,而是“它提出了一个值得复查的强信号”。

还有两个现实限制不能省略。

一是任务分布不均。博客里列出的分项目成绩高低差很多。有些游戏接近 80% 到 97%,有些则很低,甚至近乎没有进展。这说明系统不是普遍可靠,而是在部分任务类型上已经形成有效策略,在另一部分上还没有。对实际部署来说,这类不均匀性会直接影响可用性,因为用户碰到的往往不是平均任务,而是最棘手的那几个异常场景。

二是基准成绩不自动等于产品能力。ARC-AGI-3 比很多纸面测试更接近现实,但它仍然是一个受控环境。真实世界的问题更脏:页面会变、权限会断、输入会乱、上下文会缺、用户会中途改主意。一个系统能在 ARC 里学会试错,不代表它已经具备开放世界中的稳健执行。

不过,新来源里有一点仍然值得肯定:它不只报分,还公开了 GitHub 仓库和方法路径。对社区来说,这比一句“我们更强”更有意义。因为真正能推动行业判断的,不是单次宣告,而是后续是否有人复现、拆解、质疑,然后确认哪些能力是真的,哪些只是特定设定下的结果。

ARC-AGI-3 现在更像一面镜子,不再只是难题集

把旧稿和新线索放在一起看,ARC-AGI-3 的位置也更清楚了。它不是用来宣布 AGI 已到来的舞台,也不是一份普通排行榜。它更像一面镜子,照出今天 AI 系统里一个很实际的断层:语言上已经很像,行动上还差很远。

新来源补强的核心,不是“又一家团队拿到了更好成绩”,而是把这道断层量化了。纯 CoT 的低分和 Agentica 的相对高分,连同成本差距、任务完成度和开源代码,构成了一个更具体的行业信号:接下来谁能把模型组织成可持续执行、可反馈修正、可控成本的任务系统,谁就更接近真实业务价值。

这件事对普通用户的翻译也很简单。未来两年,最有用的 AI 也许不是最会聊天的那个,而是最少让你返工、最能自己补救错误、最能把一串步骤走完的那个。ARC-AGI-3 不负责替行业下结论,但它至少把该盯的指标换了一批。