一件反常的事:大模型拒绝危险请求,看起来像一整套安全系统,论文却在 13 个主流开源聊天模型里找到了一个很小的控制点。

更准确地说,不是一个神经元,也不是一句提示词,而是 residual stream activations 里的 single direction / one-dimensional subspace。把这个方向抹掉,模型更不拒绝有害请求;把它加进去,正常问题也可能被拒绝。

这篇论文没有证明闭源商业模型也一样。它的价值在于把一个行业常识戳薄了:我们以为模型学会了风险边界,它可能只是学会了触发某个内部刹车。

论文到底发现了什么

论文题目叫《Refusal in Language Models Is Mediated by a Single Direction》。研究对象是 13 个开源聊天模型,参数规模最高到 72B。

作者观察到,这些模型的拒答行为和一个一维方向高度相关。这个方向存在于 residual stream activations 中。它不像“安全神经元”那么简单,更像一个可被测量、可被干预的内部表征。

关键发现可以压成一张表:

观察点论文发现直接含义
研究对象13 个开源聊天模型,最高 72B结论限定在这组开源模型,不等于覆盖所有模型
核心机制residual stream activations 中的 single direction / one-dimensional subspace拒答有可定位的内部方向
删除该方向模型更少拒绝有害请求安全微调可能存在脆弱控制点
添加该方向无害请求也可能被拒绝部分误拒可能来自拒答方向误激活
作者延伸提出白盒 jailbreak 方法,并称对其他能力影响较小可解释性同时提高了防守和攻击的精度

最要紧的是这个对称性。

删掉它,安全刹车变松。加上它,正常驾驶也急刹。

这比“模型会不会说抱歉”更底层。拒答不是只发生在输出层的一段模板话术里,它在模型内部有传播路径,也能被干预。论文还讨论了 adversarial suffixes 如何削弱拒答方向的传播,但这里不展开攻击细节。

边界也要说清楚。论文覆盖的是一组开源聊天模型。它不能推出“所有大模型已经被彻底越狱”,也不能推出闭源商业模型已经存在同样结构。现在能说的是:至少在这些开源模型上,拒答比很多人以为的更集中、更可操控。

为什么产品和安全团队要紧张

对做 AI 产品的人,这事不只是论文趣闻。它直接碰到两个日常问题:白盒风险和误拒。

开源模型的优势是可检查、可复现、可改造。代价也在这里。内部结构越透明,研究者能定位安全机制,攻击者也可能定位薄弱处。可解释性不是纯善工具,它会把锁芯画出来。

企业部署方会因此多一层现实约束:不能只看模型卡上的安全评测分数,也不能只看厂商说“经过安全对齐”。如果业务涉及客服、医疗咨询、金融助理、代码代理这类高风险场景,采购和上线节奏应该更慢一点。至少要补自己的红队测试、误拒测试和权限隔离。

开发者也要调整工具链。只在 prompt 层写安全规则,太脆。只靠模型自己拒答,也太乐观。更现实的做法是把模型内拒答、系统权限、工具调用审计、输出后处理分开设计。哪一层坏了,别让整条链路一起裸奔。

误拒同样重要。很多用户问一个正常问题,模型突然开始背安全声明。过去我们常把它归因于策略太保守。现在多了一个解释:拒答方向可能被误激活。

这会影响产品体验。安全团队追求少漏答,业务团队追求少误拒,两边会打架。论文的提醒是,争论不能只停在“阈值调高还是调低”。如果拒答行为集中压在一个方向上,调阈值可能只是把同一个开关调得更敏感。

我更在意这枚开关背后的偷懒

我不太买账的是一种行业安慰:模型已经对齐了,因为它会拒绝危险请求。

拒绝当然有用。工程上先做一个能跑的近似解,也没错。问题是,近似解一旦被包装成安全体系,风险就开始积累。

安全对齐不是让模型学会说“不”。它还要知道为什么不能答,边界在哪里,能不能给无害替代方案,遇到伪装请求时能否保持一致。否则模型看着更安全,实际只是更会表演安全。

这里有一点像早期互联网的防火墙思路。门口放一道墙,能挡住一批低级攻击。但业务一复杂,权限、身份、审计、隔离、追责都得跟上。门卫不能替代治理。

放到大模型上,真正要观察的变量不是“拒答话术更像不像人”。我会看三件事:

接下来该看什么为什么重要对应动作
这个一维方向是否跨模型、跨架构稳定存在决定它是普遍机制,还是这组开源模型的训练产物研究团队需要在更多模型上复现,而不是急着下总判决
删除或添加该方向后,能力损失到底有多小决定白盒攻击的现实成本企业不能只看论文结论,要做任务级回归测试
误拒和漏拒是否能被同一方向解释决定安全调参是不是在同一个开关上拉扯产品团队要把误拒样本单独建集,别只盯越狱样本

这三个变量,比一句“模型安全被破解”更有用。

如果后续研究发现,不同模型、不同训练路线里都有类似拒答方向,那说明当前安全微调确实走出了一条很窄的路。它有效,但脆。天下熙熙,皆为利来。模型厂商要快速上线、快速过评、快速减少事故,最容易奖励的就是“看起来会拒绝”。

可安全不是外观工程。拒答方向能被发现,是可解释性的胜利;同一个发现能被用于白盒 jailbreak,又是可解释性的代价。

这篇论文没有给行业判死刑。它只是把一层安全感剥开,露出里面的机械结构。开源模型尤其如此:透明带来信任,也带来攻击面。

所以结论要克制,但不能轻描淡写。

如果拒答真能被一个方向强烈介导,安全团队就不能只问“模型会不会拒绝”。还要问:谁能碰到这个方向,哪些输入会压低它,它失效以后还有没有第二道刹车。