GPT-5 系列最近最怪的一件事,不是模型突然变“哥布林”,而是 OpenAI 终于把这个口癖的来路讲清了。
从 GPT-5.1 开始,ChatGPT 里 goblin、gremlin 这类怪物隐喻明显变多。到 GPT-5.5 在 Codex 早期测试中,这种倾向已经明显到员工能很快报异常。听起来像一个无伤大雅的笑话,但技术上不是。
这不是安全事故,也不是能力退化。更准确地说,是奖励模型把一种“俏皮表达”当成了好答案,训练链条又把它一轮轮喂回去。
OpenAI 这次披露补齐了几个关键空白:词频涨了多少、源头集中在哪个个性、奖励信号怎么放大、后续怎么修。以前只能说“模型有口癖”,现在可以看到它是怎么被训练出来的。
发生了什么:小词频异常,被量化成训练问题
GPT-5.1 发布后,OpenAI 先收到用户反馈:模型语气太熟络。内部排查具体话术时,一名安全研究员把 goblin、gremlin 加进检查项。
结果不小。
| 现象 | OpenAI 披露数据 | 说明 |
|---|---|---|
| GPT-5.1 后 goblin 提及 | 上升 175% | 不再是零星趣味表达 |
| GPT-5.1 后 gremlin 提及 | 上升 52% | 同类词一起抬头 |
| Nerdy 个性占 ChatGPT 回复 | 2.5% | 流量很小 |
| Nerdy 贡献 goblin 提及 | 66.7% | 异常高度集中 |
线索指向 ChatGPT 的 Nerdy 个性。这个个性的系统提示鼓励模型“玩味、书呆子气、用俏皮语言消解装腔”。所以 goblin、gremlin 这类词在 Nerdy 模式里变多,不奇怪。
真正麻烦的是:关闭 Nerdy 后,类似表达仍会外溢到其他场景。
这就不是“一个人格提示词太活泼”这么简单了。它说明风格偏好已经进入训练分布,开始跨任务迁移。
根因不是提示词,是奖励把口癖当成优点
OpenAI 用 Codex 场景审计了 RL 训练期间的输出:同一任务里,含 goblin 或 gremlin 的回答,和不含这些词的回答,哪一种更受奖励模型偏好。
答案很直白:最突出的偏好来自鼓励 Nerdy 个性的奖励模型。
审计显示,在所有数据集中,Nerdy 奖励有 76.2% 的数据集更偏好含 goblin/gremlin 的回答。换句话说,模型不是偶然学会一个怪词,而是在训练中反复收到暗示:这样说,更像好答案。
路径大概是这样:
- Nerdy 个性让怪物隐喻更常出现;
- 奖励模型偏好这种表达;
- rollout 中继续复现;
- 生成样本进入 SFT 数据;
- 下一轮模型更习惯这种口癖。
这就是数据飞轮的阴影面。
企业喜欢讲飞轮,因为它听起来像增长机器。但飞轮不只放大好东西,也放大噪声。奖励函数轻轻偏一下,下一轮训练就会把这个偏差擦亮、抛光、批量生产。
OpenAI 后来在 GPT-5.5 的 SFT 数据中确实找到了大量 goblin、gremlin 数据点,还发现 raccoon、troll、ogre、pigeon 等相近口癖。frog 多数被判定为正常用法。
这个细节很重要。它说明问题不是一个词,而是一类风格模板。
模型学到的不是“goblin”这个单词。它学到的是:用小怪物隐喻包装回答,会被奖励系统喜欢。
谁受影响:不是普通闲聊用户,是要稳定输出的人
普通用户偶尔看到一句 goblin,大概率只会觉得模型有点贫。问题没那么戏剧化。
最受影响的是两类人。
一类是开发者。尤其是把 GPT-5.5 接进编程助手、Agent、内部工具的人。代码解释、错误分析、迁移建议,本来就要求稳。一个“gremlin in your config”式的表达,在个人聊天里可爱,在企业日志分析里就显得轻浮。
另一类是企业客户。客服、知识库、销售助手、合规问答,都需要语气一致。模型多一个口癖,团队就多一层提示词约束、多一批评测样本、多一次人工验收。
这笔账不大,但烦。
AI 产品里最贵的经常不是单次错误,而是每次上线前都要防一遍“它会不会又开始自由发挥”。
OpenAI 的修复动作也比较现实:3 月下线 Nerdy 个性;训练侧移除偏向 goblin 的奖励信号;过滤含相关 creature-words 的训练数据;在 GPT-5.5 的 Codex 测试中加入 developer-prompt 指令做抑制。
但限制也摆在那里。GPT-5.5 在找到根因前已经开始训练,所以没法完全避开这条路径。并且这里披露的重点是 Codex 测试和相关训练处理,不能粗暴理解成所有 GPT-5.5 产品形态都经历了同样流程。
这点要说清。很多 AI 新闻的问题,是把一个测试场景讲成全线产品,把一个工程修复讲成彻底解决。现实没那么整齐。
真正该看的,是个性化奖励能不能被关进笼子
我更在意的不是 goblin 有没有被压下去。删词很容易,难的是防止下一批口癖换个皮回来。
今天是 goblin,明天可以是“伙计”“小魔法”“让我来拆解一下这个小怪兽”。词会变,机制不变。
这个机制就是:个性化提示、奖励模型、采样、筛数、SFT 回灌之间没有足够隔离。一个小偏好先在角落里长出来,再被训练流程当成优质样本搬进主干。
“天下熙熙,皆为利来。”放到模型训练里,利不是钱,是奖励分。模型不会理解什么叫职业语气,它只会沿着奖励更高的方向走。奖励喜欢俏皮,它就俏皮;奖励喜欢奉承,它就奉承;奖励喜欢把话说满,它就把不确定说成确定。
这才是旧问题的新皮肤。
早年聊天机器人学坏,往往是外部用户污染。微软 Tay 的教训是开放互动环境会被恶意灌输。GPT-5 这次更像现代大模型内部流水线的副作用:不是外人把脏东西扔进来,而是系统自己把小偏差养大。
这比 Tay 更温和,也更值得警惕。
因为它不靠恶意攻击,也不需要极端输入。只要奖励信号偏一点,数据回灌勤快一点,模型就会把“风格”误学成“质量”。
这次少见地做对了,但代价还没结算完
OpenAI 这次复盘有价值。它没有只说“我们已经修复”,而是给了数字、路径和修复动作。175%、52%、66.7%、76.2%,这些数字让问题从段子变成了可审计对象。
这比很多公司一句“体验已优化”强得多。
但工程债也露出来了。
AI 公司正在把模型做得越来越“有人格”:更会聊天、更会调语气、更会迎合场景。产品上这是好事。用户不想每天面对一台冷冰冰的文本机器。
代价是,个性不再只是前端皮肤。它可能通过奖励、训练样本和评测体系进入模型骨头里。
一旦进了骨头,迁移指南就只能解决一半问题。你可以告诉开发者怎么改 prompt、怎么选模型、怎么加 developer message,但如果底层分布已经偏了,开发者是在跟一套看不见的激励设计拔河。
问题不在产品会不会开玩笑。问题在于谁决定什么叫“好回答”。
如果奖励模型把活泼当专业,把亲昵当有帮助,把戏剧化当清晰,那模型能力越强,产品反而越虚。因为它不是不会答,而是会用一种不该出现的语气答。
接下来最该观察三件事:
- OpenAI 是否把小词频异常做成训练流程里的常规审计,而不是事后排雷;
- 个性化奖励能否和通用能力训练隔离,避免小人格污染大模型;
- SFT 数据能否标注来源,让“来自某个个性模式的样本”不再无差别进入主干。
Anthropic、Google DeepMind 也绕不开这道题。只要做偏好训练,只要做个性化助手,只要把用户喜欢当成奖励信号,就会遇到同一种工程债。
这不是 OpenAI 一家的笑话。它是整个行业的提醒。
模型说出 goblin 的那一刻,看起来像小怪物探头。真正探头的是奖励函数。它告诉我们:大模型不是只会继承知识,也会继承组织对“好”的误判。
这件事最反常的地方,恰恰是它太小了。小到不像事故,小到容易被当成风格问题。
可训练系统里,很多大偏差一开始都只是一个小偏好。无人设防,遂成习气。
