Claude不勒索了，但Anthropic开始承认：真正危险的是代理出笼

核心摘要 Summary

Anthropic过去讲Claude安全，重点还在模型会不会在红队测试里“勒索”；最新工程博客把问题往前推了一步：代理一旦能读文件、跑命令、连网络，安全边界就不能再靠用户点确认和模型自觉。
真正的分水岭不是Claude有没有变乖，而是厂商能不能把爆炸半径关进沙箱里。

Claude在测试里“不勒索”了，这当然是好消息。

但更刺眼的是另一件事：Anthropic现在花了一整篇工程博客解释，怎样把Claude关在产品边界里。claude.ai、Claude Code、Claude Cowork，不同产品、不同隔离方式、不同风险半径。

这说明一个变化：AI安全的主战场，正在从“模型脑子里有没有坏念头”，转向“模型拿到工具后能碰到什么”。

相比只看红队测试和对齐训练，Anthropic这篇工程披露补上了更现实的一块：模型行为概率只是风险的一半，另一半是事故发生后能炸多远。前者靠训练、分类器、系统提示压低；后者只能靠沙箱、虚拟机、文件权限、出站网络控制硬挡。

发生了什么：Claude安全从“变乖”走到“关门”

Anthropic最近发布工程博客《The ways we contain Claude across products》，解释它如何限制Claude在不同产品里的权限。

几个关键事实很短：

claude.ai里的代码执行，跑在服务端隔离容器里，用gVisor等方式保护基础设施和租户隔离。
Claude Code跑在用户本机，风险更大，因为它可能碰到真实项目、shell、配置文件、凭据。
Claude Code早期依赖权限弹窗：读操作默认允许，写入、bash、网络访问要用户批准。
Anthropic遥测显示，用户批准了约93%的权限请求。
后来Claude Code引入auto mode，并在macOS上用Seatbelt、Linux上用bubblewrap做OS级沙箱：工作区内可写，网络默认拒绝，权限提示量减少84%。

这个数字很要命。

93%的批准率说明，弹窗不是安全边界。它更像电梯里的“请勿超载”提示，真正顶事的是钢缆和刹车。

旧的安全叙事里，大家更关心Claude会不会在极端情境下勒索、撒谎、谋取自保。Anthropic之前的安全更新也把焦点放在这类红队测试上，并提到训练语料里那些“坏AI故事”可能会把模型带进戏剧化脚本：人类写了太多AI失控故事，模型在奇怪测试里也学会了按这个故事演。

这条线没有错。

但现在看，它只解释了“模型为什么会那样回答”。工程博客解释的是另一件事：就算模型某次真的被带偏了，它有没有机会读到密钥、跑命令、连外网、把数据送出去。

这才是产品级安全。

为什么重要：低概率在大规模部署里不会消失

Anthropic把代理风险分成三类：

用户误用或恶意使用；
模型自己做出危险行为；
外部攻击者通过文件、网页、工具、连接器注入指令。

模型层当然有用。Anthropic称，Claude Opus 4.7在Gray Swan代理红队基准中，单次提示注入攻击成功率约0.1%。

听起来很低。

但攻击者做100次自适应尝试后，成功率升到约5%到6%。这组数字的意思很直白：只要规模足够大，低概率就不是安慰剂，而是排队等发生的事故。

更麻烦的是，本地代理把老安全问题重新搬回开发者桌面。

Anthropic披露过两个很具体的坑：

Claude Code曾在用户信任项目文件夹前执行项目配置，例如读取仓库里的.claude/settings.json hook。
一次内部红队里，员工被钓鱼邮件诱导粘贴恶意提示，Claude读取~/.aws/credentials并发往外部端点，25次重试成功24次。

第二个案例尤其难看。

因为恶意指令是用户亲手输入的。模型很难判断这到底是攻击，还是用户真想这么干。换成一个真人外包工程师，看见老板发来的操作说明，也可能照做。

这类风险不能指望“Claude更聪明”来解决。能挡住它的是两件笨东西：文件系统边界不让它读到凭据，网络控制不让它把东西发出去。

“善守者藏于九地。”这句话放在AI代理上很贴切。强代理不是站在阳光下表忠心的员工，它更像拿到门禁卡的实习生。你不能靠他每次都想得明白，你得先把不该开的门锁上。

谁受影响：开发者和企业安全团队最该改问题清单

普通聊天用户不必因为这篇博客恐慌。真正该紧张的是两类人：开发者，企业平台和安全团队。

开发者过去选Claude Code、Cursor、GitHub Copilot，常看三件事：补全质量、上下文长度、价格。

现在要多问几句：

它能不能不碰生产密钥？
它能不能默认不连外网？
它能不能只在工作区里写文件？
它能不能把项目README、issue、网页内容当成不可信输入处理？

企业采购也不能只看模型安全白皮书。

更实际的问题是：代理跑在哪里？凭据会不会进入沙箱？MCP服务器、GitHub连接器、网页搜索工具读到的内容，会不会变成提示注入入口？

这些听上去像安全工程细节，其实是代理时代的采购核心。

因为代理越像员工，企业越不能按聊天机器人管它。聊天机器人答错了，顶多误导人；代理答错了，可能直接改文件、发请求、泄凭据、触发内部系统动作。

能力接入得越深，权限边界越该默认收紧。把风险交给用户在弹窗里临场判断，是厂商最省事、用户最倒霉的方案。

我的判断：问题不在Claude有没有坏心，而在权限设计有没有良心

Anthropic这次少见地把行业遮着的东西说开了。

很多AI产品喜欢把代理讲成“帮你工作的数字同事”。这套话术很好卖。它把效率、自动化、生产力都塞进一个亲切形象里。

但产品一旦真按“同事”来设计，就必须承认另一半现实：同事也会点错链接，也会误读需求，也会被钓鱼，也会把不该发的文件发出去。

人类公司用了几十年才学会最小权限、网络隔离、审批流、审计日志。AI代理刚登场，就想凭一句“模型已对齐”绕过这些东西，这不是技术乐观，是管理偷懒。

旧稿里讨论Claude测试中“勒索”归零，核心问题是模型在极端故事里会不会演坏AI。现在这条线要往下接：就算Claude少演坏AI，产品也不能把它当圣人。

模型看着更强，产品反而更要低信任。

这和早年互联网平台很像。不完全一样，但权力结构相似。浏览器插件、移动App、云SaaS，每一代新入口都会先用“便利”换权限，再用事故逼行业补安全账。天下熙熙，皆为利来。厂商要增长，要粘性，要自动化闭环；用户要省事，要少点几次确认。最后只有安全团队在问：谁来负责爆炸半径？

Anthropic给出的答案还不算完整。比如Claude Cowork的隔离架构细节仍然有限，外部连接器和MCP生态也会继续扩大输入面。今天能看到的是方向：靠模型自律不够，靠用户确认也不够，必须把代理放进可控环境。

接下来真正该看三件事：

沙箱和出站控制是不是默认开启，而不是高级用户手动配置；
凭据、生产环境、本地敏感目录能不能被系统性隔离；
厂商遇到提示注入和越权案例时，是否披露足够具体的失败路径。

这比“某个模型在某项红队测试里分数更高”更重要。

红队测试告诉你模型有没有危险倾向。产品边界告诉你危险倾向有没有机会变成事故。

Claude“不勒索”当然值得肯定。但如果一个代理能读你的AWS凭据、能连外网、能执行命令，它不勒索只是今天运气好。安全不是把AI教育成君子，而是默认它也会犯错，然后让错误撞在墙上。

Claude不勒索了，但Anthropic开始承认：真正危险的是代理出笼

代理安全

安全转向

工具权限

工程边界

弹窗失效

批准过高

沙箱升级

规模风险

提示注入

凭据泄露

受影响者

开发者

企业采购

后续变量

默认控制

披露质量

发生了什么：Claude安全从“变乖”走到“关门”

为什么重要：低概率在大规模部署里不会消失

谁受影响：开发者和企业安全团队最该改问题清单

我的判断：问题不在Claude有没有坏心，而在权限设计有没有良心