Anthropic 这次发布 Claude Sonnet 5,最有意思的地方有点拧巴:它更强,但不是最强;更便宜,但也不是市场最低价。

它真正要打的,不是模型参数秀,而是 Agent 的账本。谁能用更低成本、更少人工接管,把企业流程跑完,谁才有机会从演示走到预算表。

Sonnet 5 站在哪一档

Claude Sonnet 5 是 Anthropic 新一代中端模型。定位很清楚:让更多 Agent 场景不必一上来就用 Opus 这类高端模型。

从发布日起,Sonnet 5 成为 Claude 免费版和 Pro 计划默认模型,也面向所有订阅用户开放。对普通用户,它是默认体验升级;对开发者,它更像一个新的自动化主力候选。

项目Sonnet 5 的位置
定位更便宜的 Agent 主力模型
默认覆盖Claude 免费版、Pro 计划
开放范围面向所有订阅用户开放
8 月 31 日前价格输入 2 美元/百万 token,输出 10 美元/百万 token
之后价格输入涨至 3 美元/百万 token,输出不变
主要对标Opus 4.8、GPT-5.5、Gemini Pro
价格限制仍贵于 Gemini 3.5 Flash

这张表里最关键的是最后一行。

Sonnet 5 不是“最低价模型”。Gemini Flash 仍是低成本参照。Anthropic 这次卖的不是极限便宜,而是一个更均衡的位置:能力够跑更多 Agent,价格又低于高端模型。

这对企业采购很现实。预算紧的团队不会只问“哪个模型最聪明”,而会问:一条自动化流程跑下来,花多少钱,错了谁修,出了权限事故谁背锅。

能力上来了,但 Opus 还没被替代

Anthropic 披露的 Agentic coding 基准里,Sonnet 5 是 63.2%。Sonnet 4.6 是 58.1%,Opus 4.8 是 69.2%。

模型Agentic coding 分数更适合的理解
Sonnet 4.658.1%上一代中端模型
Sonnet 563.2%中端线明显补强
Opus 4.869.2%复杂、高准确率任务仍更稳

所以,Sonnet 5 比 Sonnet 4.6 强,这点成立。说它全面超过 Opus 4.8,不成立。

Anthropic 还称,Sonnet 5 在部分知识工作基准上略超 Opus 4.8。但这来自 Anthropic 自己披露的 benchmark,不是第三方独立验证。更稳妥的说法是:它在一些知识工作任务上逼近甚至局部超过高端线,但复杂、高准确率任务,Anthropic 仍推荐 Opus 4.8。

这个边界很重要。

开发者不该把 Sonnet 5 当成 Opus 的一键替代品。更合理的做法,是把它放进路由里:日常代码修改、资料整理、工单处理、低风险流程,先试 Sonnet 5;法律、财务、生产系统变更、复杂多步决策,继续保留 Opus 或人工确认。

安全也不能被一句“更安全”带过。

Anthropic 称 Sonnet 5 相比 Sonnet 4.6 更少协助误用,更少欺骗、幻觉和谄媚,对 prompt injection 的抵抗也更强。但这不等于达到 Opus 4.8 或 Claude Mythos Preview 的安全水平,更不等于 Agent 风险已经解决。

Agent 不是聊天机器人。它会点按钮、调接口、改数据。幻觉以前只是胡说一句,现在可能写进 CRM。提示注入以前像恶作剧,现在更像权限漏洞。

开发者该怎么动

我更在意的是这次发布背后的节奏:Agent 能力正在从高端模型的展示台,搬到中端模型的日常账本。

“天下熙熙,皆为利来。”放在大模型行业里,就是所有炫技最后都要落到成本表。企业不怕模型贵一次,怕它每次执行都贵;也不怕偶尔失败,怕失败不可预测、不可审计、不可回滚。

最相关的两类人,可以直接这样看。

对象该做什么不该做什么
AI 应用开发者用 Sonnet 5 跑一轮真实任务评测,重点看每单成本、失败率、人工接管次数只看 benchmark 就迁移全部链路
企业自动化团队把 Sonnet 5 作为默认 Agent 候选,把 Opus 留给高风险节点为了省 token 砍掉权限、审计和回滚

8 月 31 日前的价格窗口,适合做压测和迁移评估。不是为了抢便宜,而是为了拿到自己的成本曲线。

一个团队真正该算的,不是“每百万 token 便宜了多少”。而是一个完整任务要跑多少 token,失败重试几次,人工介入几次,能不能追责,能不能撤销。

如果任务是客服摘要、销售线索整理、内部知识库问答,Sonnet 5 可能很合适。若任务会改生产数据库、发外部邮件、触发付款、修改合同条款,就别只看模型单价。便宜模型加弱权限,是最贵的组合。

这和云计算早年有点像,但不完全一样。云计算让团队从买服务器变成按量付费,成本透明后才真正普及。Agent 也会走这条路:不是谁演示得最像人,谁就赢;谁能把单位任务成本、稳定性和治理成本压到可接受范围,谁才有机会进企业流程。

接下来要看的变量很具体:Sonnet 5 在真实 Agent 链路里的失败率,prompt injection 防护能不能扛住实际攻击,企业是否愿意把更多默认任务从 Opus 切到 Sonnet。

模型看起来更像劳动力后,竞争就不再只看智商。还要看工资、出错率和上锁成本。