GPT-5 系列最近最怪的一件事,不是模型突然变“哥布林”,而是 OpenAI 终于把这个口癖的来路讲清了。

从 GPT-5.1 开始,ChatGPT 里 goblin、gremlin 这类怪物隐喻明显变多。到 GPT-5.5 在 Codex 早期测试中,这种倾向已经明显到员工能很快报异常。听起来像一个无伤大雅的笑话,但技术上不是。

这不是安全事故,也不是能力退化。更准确地说,是奖励模型把一种“俏皮表达”当成了好答案,训练链条又把它一轮轮喂回去。

OpenAI 这次披露补齐了几个关键空白:词频涨了多少、源头集中在哪个个性、奖励信号怎么放大、后续怎么修。以前只能说“模型有口癖”,现在可以看到它是怎么被训练出来的。

发生了什么:小词频异常,被量化成训练问题

GPT-5.1 发布后,OpenAI 先收到用户反馈:模型语气太熟络。内部排查具体话术时,一名安全研究员把 goblin、gremlin 加进检查项。

结果不小。

现象OpenAI 披露数据说明
GPT-5.1 后 goblin 提及上升 175%不再是零星趣味表达
GPT-5.1 后 gremlin 提及上升 52%同类词一起抬头
Nerdy 个性占 ChatGPT 回复2.5%流量很小
Nerdy 贡献 goblin 提及66.7%异常高度集中

线索指向 ChatGPT 的 Nerdy 个性。这个个性的系统提示鼓励模型“玩味、书呆子气、用俏皮语言消解装腔”。所以 goblin、gremlin 这类词在 Nerdy 模式里变多,不奇怪。

真正麻烦的是:关闭 Nerdy 后,类似表达仍会外溢到其他场景。

这就不是“一个人格提示词太活泼”这么简单了。它说明风格偏好已经进入训练分布,开始跨任务迁移。

根因不是提示词,是奖励把口癖当成优点

OpenAI 用 Codex 场景审计了 RL 训练期间的输出:同一任务里,含 goblin 或 gremlin 的回答,和不含这些词的回答,哪一种更受奖励模型偏好。

答案很直白:最突出的偏好来自鼓励 Nerdy 个性的奖励模型。

审计显示,在所有数据集中,Nerdy 奖励有 76.2% 的数据集更偏好含 goblin/gremlin 的回答。换句话说,模型不是偶然学会一个怪词,而是在训练中反复收到暗示:这样说,更像好答案。

路径大概是这样:

  • Nerdy 个性让怪物隐喻更常出现;
  • 奖励模型偏好这种表达;
  • rollout 中继续复现;
  • 生成样本进入 SFT 数据;
  • 下一轮模型更习惯这种口癖。

这就是数据飞轮的阴影面。

企业喜欢讲飞轮,因为它听起来像增长机器。但飞轮不只放大好东西,也放大噪声。奖励函数轻轻偏一下,下一轮训练就会把这个偏差擦亮、抛光、批量生产。

OpenAI 后来在 GPT-5.5 的 SFT 数据中确实找到了大量 goblin、gremlin 数据点,还发现 raccoon、troll、ogre、pigeon 等相近口癖。frog 多数被判定为正常用法。

这个细节很重要。它说明问题不是一个词,而是一类风格模板。

模型学到的不是“goblin”这个单词。它学到的是:用小怪物隐喻包装回答,会被奖励系统喜欢。

谁受影响:不是普通闲聊用户,是要稳定输出的人

普通用户偶尔看到一句 goblin,大概率只会觉得模型有点贫。问题没那么戏剧化。

最受影响的是两类人。

一类是开发者。尤其是把 GPT-5.5 接进编程助手、Agent、内部工具的人。代码解释、错误分析、迁移建议,本来就要求稳。一个“gremlin in your config”式的表达,在个人聊天里可爱,在企业日志分析里就显得轻浮。

另一类是企业客户。客服、知识库、销售助手、合规问答,都需要语气一致。模型多一个口癖,团队就多一层提示词约束、多一批评测样本、多一次人工验收。

这笔账不大,但烦。

AI 产品里最贵的经常不是单次错误,而是每次上线前都要防一遍“它会不会又开始自由发挥”。

OpenAI 的修复动作也比较现实:3 月下线 Nerdy 个性;训练侧移除偏向 goblin 的奖励信号;过滤含相关 creature-words 的训练数据;在 GPT-5.5 的 Codex 测试中加入 developer-prompt 指令做抑制。

但限制也摆在那里。GPT-5.5 在找到根因前已经开始训练,所以没法完全避开这条路径。并且这里披露的重点是 Codex 测试和相关训练处理,不能粗暴理解成所有 GPT-5.5 产品形态都经历了同样流程。

这点要说清。很多 AI 新闻的问题,是把一个测试场景讲成全线产品,把一个工程修复讲成彻底解决。现实没那么整齐。

真正该看的,是个性化奖励能不能被关进笼子

我更在意的不是 goblin 有没有被压下去。删词很容易,难的是防止下一批口癖换个皮回来。

今天是 goblin,明天可以是“伙计”“小魔法”“让我来拆解一下这个小怪兽”。词会变,机制不变。

这个机制就是:个性化提示、奖励模型、采样、筛数、SFT 回灌之间没有足够隔离。一个小偏好先在角落里长出来,再被训练流程当成优质样本搬进主干。

“天下熙熙,皆为利来。”放到模型训练里,利不是钱,是奖励分。模型不会理解什么叫职业语气,它只会沿着奖励更高的方向走。奖励喜欢俏皮,它就俏皮;奖励喜欢奉承,它就奉承;奖励喜欢把话说满,它就把不确定说成确定。

这才是旧问题的新皮肤。

早年聊天机器人学坏,往往是外部用户污染。微软 Tay 的教训是开放互动环境会被恶意灌输。GPT-5 这次更像现代大模型内部流水线的副作用:不是外人把脏东西扔进来,而是系统自己把小偏差养大。

这比 Tay 更温和,也更值得警惕。

因为它不靠恶意攻击,也不需要极端输入。只要奖励信号偏一点,数据回灌勤快一点,模型就会把“风格”误学成“质量”。

这次少见地做对了,但代价还没结算完

OpenAI 这次复盘有价值。它没有只说“我们已经修复”,而是给了数字、路径和修复动作。175%、52%、66.7%、76.2%,这些数字让问题从段子变成了可审计对象。

这比很多公司一句“体验已优化”强得多。

但工程债也露出来了。

AI 公司正在把模型做得越来越“有人格”:更会聊天、更会调语气、更会迎合场景。产品上这是好事。用户不想每天面对一台冷冰冰的文本机器。

代价是,个性不再只是前端皮肤。它可能通过奖励、训练样本和评测体系进入模型骨头里。

一旦进了骨头,迁移指南就只能解决一半问题。你可以告诉开发者怎么改 prompt、怎么选模型、怎么加 developer message,但如果底层分布已经偏了,开发者是在跟一套看不见的激励设计拔河。

问题不在产品会不会开玩笑。问题在于谁决定什么叫“好回答”。

如果奖励模型把活泼当专业,把亲昵当有帮助,把戏剧化当清晰,那模型能力越强,产品反而越虚。因为它不是不会答,而是会用一种不该出现的语气答。

接下来最该观察三件事:

  • OpenAI 是否把小词频异常做成训练流程里的常规审计,而不是事后排雷;
  • 个性化奖励能否和通用能力训练隔离,避免小人格污染大模型;
  • SFT 数据能否标注来源,让“来自某个个性模式的样本”不再无差别进入主干。

Anthropic、Google DeepMind 也绕不开这道题。只要做偏好训练,只要做个性化助手,只要把用户喜欢当成奖励信号,就会遇到同一种工程债。

这不是 OpenAI 一家的笑话。它是整个行业的提醒。

模型说出 goblin 的那一刻,看起来像小怪物探头。真正探头的是奖励函数。它告诉我们:大模型不是只会继承知识,也会继承组织对“好”的误判。

这件事最反常的地方,恰恰是它太小了。小到不像事故,小到容易被当成风格问题。

可训练系统里,很多大偏差一开始都只是一个小偏好。无人设防,遂成习气。