Qwen3.5-9B 涉华过滤研究：知识还在，输出路由变了

核心摘要 Summary

一项机制可解释性研究称，Qwen3.5-9B 的涉华政治过滤，可在开放权重模型内部定位为三条方向和分层电路。
更关键的判断是：它支持“知识没有被删掉，后训练改变了输出路由”，但目前只适用于这个小模型个案，不能外推到所有 Qwen 或中文大模型。

约 200 条手工整理的提示，三条内部方向，一个开放权重模型。

这篇题为《What political censorship looks like inside an LLM's weights (Qwen 3.5)》的机制可解释性研究，盯的是 Qwen3.5-9B。它讨论的不是模型外面那句拒答，而是拒答、回避和宣传式回答在模型内部怎样被触发。

真正反常的地方在这里：作者称，Base 模型里相关事实知识仍然存在。聊天模型更像是在后训练之后，把这类问题稳定导向了某些回答模板。

我更在意的也是这一点。若结论站得住，它说明涉华政治过滤未必是“模型不知道”，更像是“模型知道，但被训练成走另一条路”。

研究发现：过滤被拆成三条方向

研究对象很窄：Qwen3.5-9B，重点是开放权重模型中的涉华政治过滤机制。

作者使用约 200 个手工整理提示，分为天安门、其他涉华议题、有害请求、中性或无害政治问题等类别。随后在模型残差流中提取出三条方向。

内部方向	对应信号	研究中的含义
d_prc	PRC 敏感性	判断输入是否落入涉华敏感议题
d_refuse	是否拒答	判断输出是否进入拒答路径
d_style	涉华拒答风格	区分回避式拒答与宣传式回答

这比“模型会不会回答某个问题”更进一步。

外部测评只能看到结果。机制可解释性研究试图看到中间过程：哪些层在写入判断，哪些层在读取判断，最后怎样落成文本。

作者还把电路分成两段：L11–L20 更像“写入者”，负责形成上述类别信号；L20–L31 更像“读取者”，把信号转成输出行为。原文提到，第 24 层附近可能先把判定落实到中文 token，再由后续层转成英文输出。

这个细节有意思，但不能读歪。它不是在说“中文 token 决定审查”。研究主线仍然是：少数方向携带了可干预的行为信号。

对安全研究者来说，这提供了一个更硬的检查对象。不是只看模型有没有拒答，而是看拒答路径是否能在权重内部被定位。

关键证据：Base 对比和 steering 干预

这项研究最重要的对比，是 Base 模型和 Chat 模型。

作者称，Qwen3.5-9B-Base 在原始文本补全形式下，对天安门、Tank Man、法轮功等提示能给出相关事实。聊天模型则更稳定地产生拒答、回避或宣传式模板。

这支持一个判断：相关事实知识没有消失。变化发生在后训练之后，模型把某些输入路由到特定输出。

对比项	Base 模型	Chat 模型	能说明什么
相关事实	作者称仍能补全相关内容	不一定直接给出	知识缺失不是唯一解释
输出行为	更接近文本补全	更稳定拒答、回避或宣传式回答	后训练改变行为路径
研究价值	作为知识参照	作为过滤对象	可区分“知道什么”和“怎么回答”

更关键的是 steering 干预。

如果只提取方向，最多说明相关性。作者进一步在合适层级、合适剂量上推动或减去某个方向，观察模型是否在正常回答、拒答、回避和宣传式模板之间切换。

这一步很重要。它把问题从“方向能分类输出”推进到“方向会影响输出”。因果链条仍需复现，但证据强度比单纯跑提示词测评高一截。

闭源模型很难做这件事。外部用户只能猜系统提示、RLHF 边界或安全策略。开放权重模型至少给了研究者一个机会：去看 activation patching、方向提取和 steering 是否能解释行为。

这也是开源模型治理里容易被低估的部分。开放权重不只意味着能部署、能微调，也意味着模型里的行为路由可能被检查、被改写、被绕开。利弊同源，不可不察。

影响和边界：谁该动，谁该等

最该受影响的不是普通聊天用户，而是两类人：模型安全团队，以及准备把开放权重模型接进业务系统的团队。

安全团队可以把测试从“问 50 个敏感问题，看答不答”往前推一步。更现实的动作是：同时比较 Base 与 Chat，按议题类别整理提示集，检查拒答、回避、宣传式模板是否稳定出现；如果有能力，再做激活层面的审计。

企业采购或内部模型团队则要更谨慎。若模型要进入政务、教育、知识库、跨境产品，仅靠表面红队不够。至少要把涉政、跨语种、历史事实类问题放进验收集。验收不过，就延后采购、换模型，或把这类问题交给单独的检索与审核流程。

这不是要求每家公司都做机制可解释性。现实里，多数团队没有这个能力。底线是别把“开源可控”直接等同于“行为透明”。权重能下载，不代表路由已被理解。

边界也要说清。

这项研究只覆盖 Qwen3.5-9B 这一模型。提示集约 200 条，类别由人工整理。它不能证明所有 Qwen、所有阿里模型，或所有中文大模型都有同一套审查电路。

它也没有评价政治事件真伪，更不是在替任何政治立场背书。它研究的是机制：模型怎样把一类输入导向一类输出。把机制研究直接改写成政治宣言，反而会削弱它的可复现价值。

接下来要看的不是一句“还会不会有更多研究”，而是三个硬条件：独立团队能否复现；更大参数版本是否仍有相似方向；中文、英文和多语提示下，这套电路是否稳定。

如果这些条件成立，开源大模型治理会从“看输出”推进到“查权重”。如果不能成立，它更像一个有启发的小模型病例，而不是行业通则。

文章开头那个问题也就回来了：模型到底是不知道，还是知道却不这么说？

就这项研究目前给出的证据看，更接近后者。但这句话只能落在 Qwen3.5-9B 这个范围里。过线一步，就不是判断，是编故事。

Qwen3.5-9B 涉华过滤研究：知识还在，输出路由变了

路由过滤

研究对象

提示规模

议题范围

内部机制

敏感判定

输出风格

关键证据

知识未删

后训练改道

治理影响

安全审计

企业验收

结论边界

不可外推

后续变量

研究发现：过滤被拆成三条方向

关键证据：Base 对比和 steering 干预

影响和边界：谁该动，谁该等