Simon Willison 在 PyCon US 2026 做了一场 5 分钟闪电演讲,题目是过去半年 LLM 发生了什么。
最扎眼的不是某个新模型发布,而是 2025 年 11 月。那一个月里,Anthropic、OpenAI、Google 之间的“最强模型”位置来回切换:Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5 先后被开发者拿来比较。
但这个“最强”不能当严格榜单。Willison 也说得很清楚,很多时候靠体感,靠任务,靠你怎么测。真正该看的,是另一件事:编码 Agent 开始能稳定干活了。
过去半年,LLM 跨过的是可用线
这半年可以压成一张表。
| 线索 | 发生了什么 | 我的判断 |
|---|---|---|
| 11 月拐点 | Claude、GPT、Gemini 之间多次出现体感领先切换 | 模型皇冠越来越短命 |
| 编码 Agent | 从“经常能用”变成“多数时候能用” | 开发者工作流被真正碰到了 |
| OpenClaw / Claws | Warelay 起步,几个月内在开发者圈获得大量注意,并带出 Claws 这个个人 AI 助手泛称 | 个人 AI 助手形态开始有样子,但商业成败还没证据 |
| 本地 / 开放权重模型 | Gemma 4、GLM-5.1、Qwen3.6 等表现超出预期 | 没追平 frontier,但足够改变很多小场景 |
编码 Agent 的变化,不是聊天机器人变聪明这么简单。
OpenAI 和 Anthropic 在 2025 年把大量精力放到了代码能力上,尤其是可验证奖励强化学习。代码有一个好处:它能跑,测试能过,输出能核对。相比普通文本,这类任务更容易给模型明确反馈。
再加上 Codex、Claude Code 这类 Agent 外壳,模型不只是“回答怎么写”。它能读项目、改文件、跑命令、看报错、再修一轮。
以前是你问一句,它答一段。现在是你交一个小任务,它推进一截。
这就是分水岭。
对重度开发者来说,工具选择会变得更现实:少看发布会,多看它能不能在自己的仓库里稳定提交补丁。对技术负责人来说,采购也该放慢一点。不要因为某个模型这周榜单高,就立刻迁移整套流程。
关键变量不在模型名,而在执行闭环
Willison 还用了一个很怪的测试:让模型生成“一只骑自行车的鹈鹕”的 SVG。
这个测试好玩。鹈鹕难画,自行车难画,鹈鹕也不会骑车。它能暴露一点组合能力、空间理解和审美稳定性。
但它不是严肃基准。
不能因为某个模型画鹈鹕画得好,就说它代码、推理、多模态、工具调用都强。Willison 自己也承认,这个测试已经快到边界了,更像叙事道具,不是评测体系。
有意思的是,本地和开放权重模型在这些怪题上开始显得不那么弱。
Gemma 4 被 Willison 评价为美国公司里能力很强的一批开放权重模型。GLM-5.1 是开放权重模型,体量达到 1.5TB,效果不错,但硬件门槛很高。Qwen3.6-35B-A3B 是 20.9GB 级别,可以在笔记本上跑,甚至在鹈鹕测试里压过了 Claude Opus 4.7 的某次结果。
这不能说明本地模型已经追平最强闭源模型。原文说得很克制:它们仍弱于 frontier,只是超出预期。
这个判断更重要。
因为很多团队需要的不是“世界第一聪明”,而是可控、便宜、能私有化、能离线、能塞进现有流程。只要本地模型在摘要、代码辅助、批处理、内部工具这些场景里够用,它就有价值。
限制也很硬。
GLM-5.1 这种 1.5TB 模型,不是普通开发者随手就能跑。开放权重不等于低成本。本地部署也不等于自动安全。权限、日志、数据隔离、更新频率、推理延迟,都要算账。
OpenClaw 这条线也类似。
它从 Warelay 起步,经历多次改名,最后以 OpenClaw 的名字在开发者圈火起来。Claws 变成一类个人 AI 助手的泛称。甚至有人把 Mac Mini 调侃成运行 Claw 的“鱼缸”。
这个比喻准在一点:开发者想要的不是聊天框,而是一个长期待命的小执行体。它能接任务,能用工具,能在本地或半本地环境里运行。
但章鱼博士的爪子也提醒得很直白:只要权限给得足,失控代价也会变高。Agent 越能干活,越不能只看能力。还要看边界、审计和回滚。
我的判断:模型皇冠会继续换手,工具链才会沉淀
我不太买账“最强模型”叙事。
不是因为模型不重要。模型当然重要。没有底层能力,Agent 外壳就是空架子。
但过去半年已经说明,单点领先很难长期保值。今天 Claude 领先,明天 GPT 抢回来,后天 Gemini 又压一头。城头变幻大王旗,热闹是真热闹,决策价值却有限。
更该盯的是四个变量:
- 成功率.它能不能连续完成真实任务,而不是演示里惊艳一次。
- 成本.一次任务烧多少钱,失败重试又烧多少。
- 上下文.它能不能读懂项目结构、历史代码和团队规范。
- 控制权.权限怎么给,错误怎么回滚,数据能不能留在本地或内网。
接下来半年,我会更看这几件事。
不是谁又拿了榜单第一,而是哪类 Agent 能稳定进入 IDE、终端、代码审查和 CI 流程。不是哪个本地模型画图更好,而是 20GB、几十 GB、上百 GB 这些不同体量的模型,分别能吃下哪些企业和个人场景。
开发者可以做一件很具体的事:把候选工具放进同一个真实仓库里测。让它修一个 bug,补一个测试,改一个接口,跑一轮命令。看它错在哪里,也看你要花多少时间收拾。
技术负责人也该改评估表。别只写模型名称和跑分。要加上失败率、人工接管成本、权限模型、本地部署成本、日志审计和供应商切换成本。
这半年 LLM 的变化,不是 AI 突然万能了。
更准确的说法是:它终于从“能聊”走到了“能推进一部分工作”。这一步没那么浪漫,但更值钱。
