13 个开源模型被切开后，大模型“拒答”更像一枚脆弱开关

核心摘要 Summary

一篇题为《Refusal in Language Models Is Mediated by a Single Direction》的 arXiv 论文研究了 13 个开源聊天模型，发现拒答行为可由 residual stream activations 中的一个一维方向介导。
删除这个方向，模型更少拒绝有害请求；加入这个方向，无害请求也可能被拒绝。
这不是“所有大模型被破解”，但足够提醒产品和安全团队：安全微调如果只学会拒答姿态，可靠感会很薄。

一件反常的事：大模型拒绝危险请求，看起来像一整套安全系统，论文却在 13 个主流开源聊天模型里找到了一个很小的控制点。

更准确地说，不是一个神经元，也不是一句提示词，而是 residual stream activations 里的 single direction / one-dimensional subspace。把这个方向抹掉，模型更不拒绝有害请求；把它加进去，正常问题也可能被拒绝。

这篇论文没有证明闭源商业模型也一样。它的价值在于把一个行业常识戳薄了：我们以为模型学会了风险边界，它可能只是学会了触发某个内部刹车。

论文到底发现了什么

论文题目叫《Refusal in Language Models Is Mediated by a Single Direction》。研究对象是 13 个开源聊天模型，参数规模最高到 72B。

作者观察到，这些模型的拒答行为和一个一维方向高度相关。这个方向存在于 residual stream activations 中。它不像“安全神经元”那么简单，更像一个可被测量、可被干预的内部表征。

关键发现可以压成一张表：

观察点	论文发现	直接含义
研究对象	13 个开源聊天模型，最高 72B	结论限定在这组开源模型，不等于覆盖所有模型
核心机制	residual stream activations 中的 single direction / one-dimensional subspace	拒答有可定位的内部方向
删除该方向	模型更少拒绝有害请求	安全微调可能存在脆弱控制点
添加该方向	无害请求也可能被拒绝	部分误拒可能来自拒答方向误激活
作者延伸	提出白盒 jailbreak 方法，并称对其他能力影响较小	可解释性同时提高了防守和攻击的精度

最要紧的是这个对称性。

删掉它，安全刹车变松。加上它，正常驾驶也急刹。

这比“模型会不会说抱歉”更底层。拒答不是只发生在输出层的一段模板话术里，它在模型内部有传播路径，也能被干预。论文还讨论了 adversarial suffixes 如何削弱拒答方向的传播，但这里不展开攻击细节。

边界也要说清楚。论文覆盖的是一组开源聊天模型。它不能推出“所有大模型已经被彻底越狱”，也不能推出闭源商业模型已经存在同样结构。现在能说的是：至少在这些开源模型上，拒答比很多人以为的更集中、更可操控。

为什么产品和安全团队要紧张

对做 AI 产品的人，这事不只是论文趣闻。它直接碰到两个日常问题：白盒风险和误拒。

开源模型的优势是可检查、可复现、可改造。代价也在这里。内部结构越透明，研究者能定位安全机制，攻击者也可能定位薄弱处。可解释性不是纯善工具，它会把锁芯画出来。

企业部署方会因此多一层现实约束：不能只看模型卡上的安全评测分数，也不能只看厂商说“经过安全对齐”。如果业务涉及客服、医疗咨询、金融助理、代码代理这类高风险场景，采购和上线节奏应该更慢一点。至少要补自己的红队测试、误拒测试和权限隔离。

开发者也要调整工具链。只在 prompt 层写安全规则，太脆。只靠模型自己拒答，也太乐观。更现实的做法是把模型内拒答、系统权限、工具调用审计、输出后处理分开设计。哪一层坏了，别让整条链路一起裸奔。

误拒同样重要。很多用户问一个正常问题，模型突然开始背安全声明。过去我们常把它归因于策略太保守。现在多了一个解释：拒答方向可能被误激活。

这会影响产品体验。安全团队追求少漏答，业务团队追求少误拒，两边会打架。论文的提醒是，争论不能只停在“阈值调高还是调低”。如果拒答行为集中压在一个方向上，调阈值可能只是把同一个开关调得更敏感。

我更在意这枚开关背后的偷懒

我不太买账的是一种行业安慰：模型已经对齐了，因为它会拒绝危险请求。

拒绝当然有用。工程上先做一个能跑的近似解，也没错。问题是，近似解一旦被包装成安全体系，风险就开始积累。

安全对齐不是让模型学会说“不”。它还要知道为什么不能答，边界在哪里，能不能给无害替代方案，遇到伪装请求时能否保持一致。否则模型看着更安全，实际只是更会表演安全。

这里有一点像早期互联网的防火墙思路。门口放一道墙，能挡住一批低级攻击。但业务一复杂，权限、身份、审计、隔离、追责都得跟上。门卫不能替代治理。

放到大模型上，真正要观察的变量不是“拒答话术更像不像人”。我会看三件事：

接下来该看什么	为什么重要	对应动作
这个一维方向是否跨模型、跨架构稳定存在	决定它是普遍机制，还是这组开源模型的训练产物	研究团队需要在更多模型上复现，而不是急着下总判决
删除或添加该方向后，能力损失到底有多小	决定白盒攻击的现实成本	企业不能只看论文结论，要做任务级回归测试
误拒和漏拒是否能被同一方向解释	决定安全调参是不是在同一个开关上拉扯	产品团队要把误拒样本单独建集，别只盯越狱样本

这三个变量，比一句“模型安全被破解”更有用。

如果后续研究发现，不同模型、不同训练路线里都有类似拒答方向，那说明当前安全微调确实走出了一条很窄的路。它有效，但脆。天下熙熙，皆为利来。模型厂商要快速上线、快速过评、快速减少事故，最容易奖励的就是“看起来会拒绝”。

可安全不是外观工程。拒答方向能被发现，是可解释性的胜利；同一个发现能被用于白盒 jailbreak，又是可解释性的代价。

这篇论文没有给行业判死刑。它只是把一层安全感剥开，露出里面的机械结构。开源模型尤其如此：透明带来信任，也带来攻击面。

所以结论要克制，但不能轻描淡写。

如果拒答真能被一个方向强烈介导，安全团队就不能只问“模型会不会拒绝”。还要问：谁能碰到这个方向，哪些输入会压低它，它失效以后还有没有第二道刹车。

13 个开源模型被切开后，大模型“拒答”更像一枚脆弱开关

拒答开关

论文发现

删除方向

添加方向

结论边界

非全局破解

产品风险

部署约束

误拒压力

安全反思

单层过脆

多层防护

后续变量

跨模型稳定

能力损失

论文到底发现了什么

为什么产品和安全团队要紧张

我更在意这枚开关背后的偷懒