Claude Sonnet 5 发布：Agent 开始拼每件活多少钱

核心摘要 Summary

Anthropic 发布 Claude Sonnet 5，并从发布日起把它设为 Claude 免费版和 Pro 计划默认模型。
它的关键不在“全面超过 Opus”，而在把更强 Agent 能力下放到更便宜的中端模型。
对开发者和自动化团队来说，接下来要算的是单位任务成本、失败兜底和权限风险。

Anthropic 这次发布 Claude Sonnet 5，最有意思的地方有点拧巴：它更强，但不是最强；更便宜，但也不是市场最低价。

它真正要打的，不是模型参数秀，而是 Agent 的账本。谁能用更低成本、更少人工接管，把企业流程跑完，谁才有机会从演示走到预算表。

Sonnet 5 站在哪一档

Claude Sonnet 5 是 Anthropic 新一代中端模型。定位很清楚：让更多 Agent 场景不必一上来就用 Opus 这类高端模型。

从发布日起，Sonnet 5 成为 Claude 免费版和 Pro 计划默认模型，也面向所有订阅用户开放。对普通用户，它是默认体验升级；对开发者，它更像一个新的自动化主力候选。

项目	Sonnet 5 的位置
定位	更便宜的 Agent 主力模型
默认覆盖	Claude 免费版、Pro 计划
开放范围	面向所有订阅用户开放
8 月 31 日前价格	输入 2 美元/百万 token，输出 10 美元/百万 token
之后价格	输入涨至 3 美元/百万 token，输出不变
主要对标	Opus 4.8、GPT-5.5、Gemini Pro
价格限制	仍贵于 Gemini 3.5 Flash

这张表里最关键的是最后一行。

Sonnet 5 不是“最低价模型”。Gemini Flash 仍是低成本参照。Anthropic 这次卖的不是极限便宜，而是一个更均衡的位置：能力够跑更多 Agent，价格又低于高端模型。

这对企业采购很现实。预算紧的团队不会只问“哪个模型最聪明”，而会问：一条自动化流程跑下来，花多少钱，错了谁修，出了权限事故谁背锅。

能力上来了，但 Opus 还没被替代

Anthropic 披露的 Agentic coding 基准里，Sonnet 5 是 63.2%。Sonnet 4.6 是 58.1%，Opus 4.8 是 69.2%。

模型	Agentic coding 分数	更适合的理解
Sonnet 4.6	58.1%	上一代中端模型
Sonnet 5	63.2%	中端线明显补强
Opus 4.8	69.2%	复杂、高准确率任务仍更稳

所以，Sonnet 5 比 Sonnet 4.6 强，这点成立。说它全面超过 Opus 4.8，不成立。

Anthropic 还称，Sonnet 5 在部分知识工作基准上略超 Opus 4.8。但这来自 Anthropic 自己披露的 benchmark，不是第三方独立验证。更稳妥的说法是：它在一些知识工作任务上逼近甚至局部超过高端线，但复杂、高准确率任务，Anthropic 仍推荐 Opus 4.8。

这个边界很重要。

开发者不该把 Sonnet 5 当成 Opus 的一键替代品。更合理的做法，是把它放进路由里：日常代码修改、资料整理、工单处理、低风险流程，先试 Sonnet 5；法律、财务、生产系统变更、复杂多步决策，继续保留 Opus 或人工确认。

安全也不能被一句“更安全”带过。

Anthropic 称 Sonnet 5 相比 Sonnet 4.6 更少协助误用，更少欺骗、幻觉和谄媚，对 prompt injection 的抵抗也更强。但这不等于达到 Opus 4.8 或 Claude Mythos Preview 的安全水平，更不等于 Agent 风险已经解决。

Agent 不是聊天机器人。它会点按钮、调接口、改数据。幻觉以前只是胡说一句，现在可能写进 CRM。提示注入以前像恶作剧，现在更像权限漏洞。

开发者该怎么动

我更在意的是这次发布背后的节奏：Agent 能力正在从高端模型的展示台，搬到中端模型的日常账本。

“天下熙熙，皆为利来。”放在大模型行业里，就是所有炫技最后都要落到成本表。企业不怕模型贵一次，怕它每次执行都贵；也不怕偶尔失败，怕失败不可预测、不可审计、不可回滚。

最相关的两类人，可以直接这样看。

对象	该做什么	不该做什么
AI 应用开发者	用 Sonnet 5 跑一轮真实任务评测，重点看每单成本、失败率、人工接管次数	只看 benchmark 就迁移全部链路
企业自动化团队	把 Sonnet 5 作为默认 Agent 候选，把 Opus 留给高风险节点	为了省 token 砍掉权限、审计和回滚

8 月 31 日前的价格窗口，适合做压测和迁移评估。不是为了抢便宜，而是为了拿到自己的成本曲线。

一个团队真正该算的，不是“每百万 token 便宜了多少”。而是一个完整任务要跑多少 token，失败重试几次，人工介入几次，能不能追责，能不能撤销。

如果任务是客服摘要、销售线索整理、内部知识库问答，Sonnet 5 可能很合适。若任务会改生产数据库、发外部邮件、触发付款、修改合同条款，就别只看模型单价。便宜模型加弱权限，是最贵的组合。

这和云计算早年有点像，但不完全一样。云计算让团队从买服务器变成按量付费，成本透明后才真正普及。Agent 也会走这条路：不是谁演示得最像人，谁就赢；谁能把单位任务成本、稳定性和治理成本压到可接受范围，谁才有机会进企业流程。

接下来要看的变量很具体：Sonnet 5 在真实 Agent 链路里的失败率，prompt injection 防护能不能扛住实际攻击，企业是否愿意把更多默认任务从 Opus 切到 Sonnet。

模型看起来更像劳动力后，竞争就不再只看智商。还要看工资、出错率和上锁成本。

Claude Sonnet 5 发布：Agent 开始拼每件活多少钱

Sonnet 5

中端定位

默认覆盖

非最低价

能力边界

编程提升

高风险任务

采购账本

真实评测

价格窗口

权限风险

弱权限

后续变量

Sonnet 5 站在哪一档

能力上来了，但 Opus 还没被替代

开发者该怎么动