约 200 条手工整理的提示,三条内部方向,一个开放权重模型。

这篇题为《What political censorship looks like inside an LLM's weights (Qwen 3.5)》的机制可解释性研究,盯的是 Qwen3.5-9B。它讨论的不是模型外面那句拒答,而是拒答、回避和宣传式回答在模型内部怎样被触发。

真正反常的地方在这里:作者称,Base 模型里相关事实知识仍然存在。聊天模型更像是在后训练之后,把这类问题稳定导向了某些回答模板。

我更在意的也是这一点。若结论站得住,它说明涉华政治过滤未必是“模型不知道”,更像是“模型知道,但被训练成走另一条路”。

研究发现:过滤被拆成三条方向

研究对象很窄:Qwen3.5-9B,重点是开放权重模型中的涉华政治过滤机制。

作者使用约 200 个手工整理提示,分为天安门、其他涉华议题、有害请求、中性或无害政治问题等类别。随后在模型残差流中提取出三条方向。

内部方向对应信号研究中的含义
d_prcPRC 敏感性判断输入是否落入涉华敏感议题
d_refuse是否拒答判断输出是否进入拒答路径
d_style涉华拒答风格区分回避式拒答与宣传式回答

这比“模型会不会回答某个问题”更进一步。

外部测评只能看到结果。机制可解释性研究试图看到中间过程:哪些层在写入判断,哪些层在读取判断,最后怎样落成文本。

作者还把电路分成两段:L11–L20 更像“写入者”,负责形成上述类别信号;L20–L31 更像“读取者”,把信号转成输出行为。原文提到,第 24 层附近可能先把判定落实到中文 token,再由后续层转成英文输出。

这个细节有意思,但不能读歪。它不是在说“中文 token 决定审查”。研究主线仍然是:少数方向携带了可干预的行为信号。

对安全研究者来说,这提供了一个更硬的检查对象。不是只看模型有没有拒答,而是看拒答路径是否能在权重内部被定位。

关键证据:Base 对比和 steering 干预

这项研究最重要的对比,是 Base 模型和 Chat 模型。

作者称,Qwen3.5-9B-Base 在原始文本补全形式下,对天安门、Tank Man、法轮功等提示能给出相关事实。聊天模型则更稳定地产生拒答、回避或宣传式模板。

这支持一个判断:相关事实知识没有消失。变化发生在后训练之后,模型把某些输入路由到特定输出。

对比项Base 模型Chat 模型能说明什么
相关事实作者称仍能补全相关内容不一定直接给出知识缺失不是唯一解释
输出行为更接近文本补全更稳定拒答、回避或宣传式回答后训练改变行为路径
研究价值作为知识参照作为过滤对象可区分“知道什么”和“怎么回答”

更关键的是 steering 干预。

如果只提取方向,最多说明相关性。作者进一步在合适层级、合适剂量上推动或减去某个方向,观察模型是否在正常回答、拒答、回避和宣传式模板之间切换。

这一步很重要。它把问题从“方向能分类输出”推进到“方向会影响输出”。因果链条仍需复现,但证据强度比单纯跑提示词测评高一截。

闭源模型很难做这件事。外部用户只能猜系统提示、RLHF 边界或安全策略。开放权重模型至少给了研究者一个机会:去看 activation patching、方向提取和 steering 是否能解释行为。

这也是开源模型治理里容易被低估的部分。开放权重不只意味着能部署、能微调,也意味着模型里的行为路由可能被检查、被改写、被绕开。利弊同源,不可不察。

影响和边界:谁该动,谁该等

最该受影响的不是普通聊天用户,而是两类人:模型安全团队,以及准备把开放权重模型接进业务系统的团队。

安全团队可以把测试从“问 50 个敏感问题,看答不答”往前推一步。更现实的动作是:同时比较 Base 与 Chat,按议题类别整理提示集,检查拒答、回避、宣传式模板是否稳定出现;如果有能力,再做激活层面的审计。

企业采购或内部模型团队则要更谨慎。若模型要进入政务、教育、知识库、跨境产品,仅靠表面红队不够。至少要把涉政、跨语种、历史事实类问题放进验收集。验收不过,就延后采购、换模型,或把这类问题交给单独的检索与审核流程。

这不是要求每家公司都做机制可解释性。现实里,多数团队没有这个能力。底线是别把“开源可控”直接等同于“行为透明”。权重能下载,不代表路由已被理解。

边界也要说清。

这项研究只覆盖 Qwen3.5-9B 这一模型。提示集约 200 条,类别由人工整理。它不能证明所有 Qwen、所有阿里模型,或所有中文大模型都有同一套审查电路。

它也没有评价政治事件真伪,更不是在替任何政治立场背书。它研究的是机制:模型怎样把一类输入导向一类输出。把机制研究直接改写成政治宣言,反而会削弱它的可复现价值。

接下来要看的不是一句“还会不会有更多研究”,而是三个硬条件:独立团队能否复现;更大参数版本是否仍有相似方向;中文、英文和多语提示下,这套电路是否稳定。

如果这些条件成立,开源大模型治理会从“看输出”推进到“查权重”。如果不能成立,它更像一个有启发的小模型病例,而不是行业通则。

文章开头那个问题也就回来了:模型到底是不知道,还是知道却不这么说?

就这项研究目前给出的证据看,更接近后者。但这句话只能落在 Qwen3.5-9B 这个范围里。过线一步,就不是判断,是编故事。