LLM 半年真正变天：别再只追最强模型，编码 Agent 已经跨过可用线

核心摘要 Summary

Simon Willison 在 PyCon US 2026 用 5 分钟回顾了过去半年 LLM 变化：2025 年 11 月是关键拐点，最强模型多次易主，但更重要的是编码 Agent 从“经常能用”变成“多数时候能用”。
这半年真正的分水岭，不是模型榜单，而是 AI 开始进入开发者日常工作流。
本地和开放权重模型也追得比预期快，但硬件、成本和能力边界仍然摆在那里。

Simon Willison 在 PyCon US 2026 做了一场 5 分钟闪电演讲，题目是过去半年 LLM 发生了什么。

最扎眼的不是某个新模型发布，而是 2025 年 11 月。那一个月里，Anthropic、OpenAI、Google 之间的“最强模型”位置来回切换：Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5 先后被开发者拿来比较。

但这个“最强”不能当严格榜单。Willison 也说得很清楚，很多时候靠体感，靠任务，靠你怎么测。真正该看的，是另一件事：编码 Agent 开始能稳定干活了。

过去半年，LLM 跨过的是可用线

这半年可以压成一张表。

线索	发生了什么	我的判断
11 月拐点	Claude、GPT、Gemini 之间多次出现体感领先切换	模型皇冠越来越短命
编码 Agent	从“经常能用”变成“多数时候能用”	开发者工作流被真正碰到了
OpenClaw / Claws	Warelay 起步，几个月内在开发者圈获得大量注意，并带出 Claws 这个个人 AI 助手泛称	个人 AI 助手形态开始有样子，但商业成败还没证据
本地 / 开放权重模型	Gemma 4、GLM-5.1、Qwen3.6 等表现超出预期	没追平 frontier，但足够改变很多小场景

编码 Agent 的变化，不是聊天机器人变聪明这么简单。

OpenAI 和 Anthropic 在 2025 年把大量精力放到了代码能力上，尤其是可验证奖励强化学习。代码有一个好处：它能跑，测试能过，输出能核对。相比普通文本，这类任务更容易给模型明确反馈。

再加上 Codex、Claude Code 这类 Agent 外壳，模型不只是“回答怎么写”。它能读项目、改文件、跑命令、看报错、再修一轮。

以前是你问一句，它答一段。现在是你交一个小任务，它推进一截。

这就是分水岭。

对重度开发者来说，工具选择会变得更现实：少看发布会，多看它能不能在自己的仓库里稳定提交补丁。对技术负责人来说，采购也该放慢一点。不要因为某个模型这周榜单高，就立刻迁移整套流程。

关键变量不在模型名，而在执行闭环

Willison 还用了一个很怪的测试：让模型生成“一只骑自行车的鹈鹕”的 SVG。

这个测试好玩。鹈鹕难画，自行车难画，鹈鹕也不会骑车。它能暴露一点组合能力、空间理解和审美稳定性。

但它不是严肃基准。

不能因为某个模型画鹈鹕画得好，就说它代码、推理、多模态、工具调用都强。Willison 自己也承认，这个测试已经快到边界了，更像叙事道具，不是评测体系。

有意思的是，本地和开放权重模型在这些怪题上开始显得不那么弱。

Gemma 4 被 Willison 评价为美国公司里能力很强的一批开放权重模型。GLM-5.1 是开放权重模型，体量达到 1.5TB，效果不错，但硬件门槛很高。Qwen3.6-35B-A3B 是 20.9GB 级别，可以在笔记本上跑，甚至在鹈鹕测试里压过了 Claude Opus 4.7 的某次结果。

这不能说明本地模型已经追平最强闭源模型。原文说得很克制：它们仍弱于 frontier，只是超出预期。

这个判断更重要。

因为很多团队需要的不是“世界第一聪明”，而是可控、便宜、能私有化、能离线、能塞进现有流程。只要本地模型在摘要、代码辅助、批处理、内部工具这些场景里够用，它就有价值。

限制也很硬。

GLM-5.1 这种 1.5TB 模型，不是普通开发者随手就能跑。开放权重不等于低成本。本地部署也不等于自动安全。权限、日志、数据隔离、更新频率、推理延迟，都要算账。

OpenClaw 这条线也类似。

它从 Warelay 起步，经历多次改名，最后以 OpenClaw 的名字在开发者圈火起来。Claws 变成一类个人 AI 助手的泛称。甚至有人把 Mac Mini 调侃成运行 Claw 的“鱼缸”。

这个比喻准在一点：开发者想要的不是聊天框，而是一个长期待命的小执行体。它能接任务，能用工具，能在本地或半本地环境里运行。

但章鱼博士的爪子也提醒得很直白：只要权限给得足，失控代价也会变高。Agent 越能干活，越不能只看能力。还要看边界、审计和回滚。

我的判断：模型皇冠会继续换手，工具链才会沉淀

我不太买账“最强模型”叙事。

不是因为模型不重要。模型当然重要。没有底层能力，Agent 外壳就是空架子。

但过去半年已经说明，单点领先很难长期保值。今天 Claude 领先，明天 GPT 抢回来，后天 Gemini 又压一头。城头变幻大王旗，热闹是真热闹，决策价值却有限。

更该盯的是四个变量：

成功率.它能不能连续完成真实任务，而不是演示里惊艳一次。
成本.一次任务烧多少钱，失败重试又烧多少。
上下文.它能不能读懂项目结构、历史代码和团队规范。
控制权.权限怎么给，错误怎么回滚，数据能不能留在本地或内网。

接下来半年，我会更看这几件事。

不是谁又拿了榜单第一，而是哪类 Agent 能稳定进入 IDE、终端、代码审查和 CI 流程。不是哪个本地模型画图更好，而是 20GB、几十 GB、上百 GB 这些不同体量的模型，分别能吃下哪些企业和个人场景。

开发者可以做一件很具体的事：把候选工具放进同一个真实仓库里测。让它修一个 bug，补一个测试，改一个接口，跑一轮命令。看它错在哪里，也看你要花多少时间收拾。

技术负责人也该改评估表。别只写模型名称和跑分。要加上失败率、人工接管成本、权限模型、本地部署成本、日志审计和供应商切换成本。

这半年 LLM 的变化，不是 AI 突然万能了。

更准确的说法是：它终于从“能聊”走到了“能推进一部分工作”。这一步没那么浪漫，但更值钱。

LLM 半年真正变天：别再只追最强模型，编码 Agent 已经跨过可用线

半年变天

模型皇冠

11月拐点

榜单降权

编码 Agent

可验证任务

执行闭环

本地模型

开放权重

部署约束

评估重心

四个变量

真实仓库

Agent 风险

权限控制

审计回滚

过去半年，LLM 跨过的是可用线

关键变量不在模型名，而在执行闭环

我的判断：模型皇冠会继续换手，工具链才会沉淀