OpenAI 的地精口癖：Codex 被迫禁聊 goblin，问题出在奖励函数

核心摘要 Summary

OpenAI 承认，GPT-5.1 的 Nerdy 人格训练让模型学会了频繁使用 goblin、gremlin 等怪物隐喻，这种风格还外溢到后续模型和 Codex。
真正值得警惕的不是“地精”这个词，而是人格化训练、偏好数据复用和奖励边界没关严，最后把一个小口癖养成了产品习气。

一个编程助手，被公司写进指令里要求“不要谈 goblins、gremlins、raccoons、trolls、ogres、pigeons，或者其他动物和生物”。

这句话听着像段子，但它来自 OpenAI 自己的产品治理现场。Wired 先曝光了 Codex 的这条禁令，随后 OpenAI 在官网解释：模型确实养成了一个 strange habit，爱拿地精、怪物、浣熊、鸽子之类做隐喻。

荒诞处不在“地精”。荒诞处在于，一个用来写代码、改补丁、解释错误的工具，居然需要被专门提醒：别演怪物旁白。

发生了什么：Nerdy 人格把地精带进了训练链

OpenAI 的解释把这件事说得更具体了。

问题	目前能确认的信息	影响
口癖是什么	模型频繁提到 goblins、gremlins、raccoons、trolls、ogres、pigeons 等生物隐喻	输出变得怪、绕、像在表演
源头在哪	GPT-5.1 的 Nerdy personality	“极客风”“俏皮感”被奖励过头
为什么外溢	奖励给了 Nerdy 条件，但模型学到的表达习惯没有被牢牢限制在该模式内	后续模型可能继续继承这种风格
Codex 为什么被点名	GPT-5.5 / Codex 的训练时间线早于 OpenAI 找到根因	只能靠额外指令压住残留口癖
修复到哪了	OpenAI 称 3 月停用 Nerdy 人格后，相关引用下降，但没有完全消失	问题不是一关开关就干净消失

The Verge 转述的这轮信息，把问题补强到了一个更关键的位置：这不是单次提示词翻车，而是训练链条里的风格污染。

旧的理解只看到“GPT-5.5 有 goblin 口癖”。现在能看到更长的路径：GPT-5.1 的 Nerdy 人格训练奖励了这类表达，后续监督微调、偏好数据复用、模型迭代又可能把它带出去。Codex 只是残留最尴尬的地方，因为它本该最少废话。

边界也要讲清楚。

这不是安全事故。不能据此说 Codex 不会写代码，也不能说 OpenAI 模型失控。材料支持的结论更窄，但更扎实：OpenAI 的人格训练和奖励边界，至少在这件事上没有隔离干净。

这就够值得写了。

为什么重要：风格不是皮肤，是模型学到的偏好

很多人会把这事看轻：不就是模型嘴碎了一点，爱讲怪物比喻吗？

我不太买账。

对大模型来说，风格不是贴在外面的皮肤。只要某种表达被奖励，它就可能被模型理解成“更好的回答方式”。你奖励“有趣”，它可能学成“乱打比方”。你想让 Nerdy 模式活泼一点，它可能在别的场景也自来熟。

更麻烦的是，AI 公司训练模型不是一次性做完。模型输出会进入评估、偏好数据、后续微调。一个小毛病如果刚好被系统误判成“用户喜欢”，就会在下一轮活得更久。

这就是奖励函数最阴的地方：它不按产品经理的愿望学习，它按被奖励的痕迹学习。

“差之毫厘，谬以千里。”这句话放在强化学习里很准。毫厘不是 goblin 这个词，而是奖励边界那一点缝。

OpenAI 这次没有把锅甩给用户，也没有说媒体误读，而是承认了 Nerdy 人格、奖励机制、训练传播之间的关系。这点应该肯定。至少它把问题从“模型怎么这么怪”推进到了“训练为什么让它怪”。

但承认不是免责。

AI 公司现在都在卖人格：更友好、更会解释、更像同事、更懂开发者。方向没错。用户确实不想面对一台冷冰冰的补全文本机器。

问题是，人格一旦产品化，就得像产品能力一样可控。不能只靠一个前台开关，也不能指望模型自己懂分寸。

谁受影响：Codex 这类工具最怕“会演”

普通聊天用户偶尔遇到怪比喻，可能笑一下就过去了。

开发者不一样。

Codex 这类编程工具的核心价值，是清楚、稳定、少废话。它要解释 bug，要改代码，要生成 patch，要告诉你哪里不确定。礼貌可以有，个性要克制。它不是陪聊，也不是角色扮演服务器。

编程场景里，怪隐喻的成本很具体：

增加阅读负担；
稀释关键错误信息；
让开发者怀疑模型是否在认真处理上下文；
在团队协作里制造不必要的噪音。

它不一定造成一次严重事故，但会慢慢磨损信任。

工具型 AI 的信任很脆。用户不是因为一次“地精”卸载产品，而是因为三五次无关废话后，开始觉得这东西不稳、不干净、不像工程工具。

这也是 Codex 被单独拎出来的原因。聊天机器人可以有点人格，编程助手不能管不住嘴。前者卖亲和力，后者卖确定性。

真问题：AI 公司还没完全驯服自己的训练流水线

这件事最值得盯的，不是 OpenAI 会不会把 goblin 禁干净。

我更在意三个变量。

第一，个性化模式能不能真隔离。

如果 Nerdy、Friendly、Professional 只是前端标签，而底层训练习惯会互相串味，那么人格就不是功能，而是污染源。用户以为自己在切模式，模型其实在混口味。

第二，偏好数据复用有没有清洗机制。

今天的模型训练很依赖人类偏好和历史输出。如果“有趣回答”被误收进高质量样本，后面就会继续奖励类似写法。小毛病变成祖传手艺，往往就是这么来的。

第三，工具型产品有没有更硬的风格纪律。

消费级聊天产品可以容忍一点表演。企业和开发者工具不行。代码场景要的是低熵输出：短、准、可执行、少拟人。模型看着更像人，产品反而更需要纪律。

扯远一点，这像平台时代的老毛病。短视频平台奖励停留时长，最后长出标题党和情绪化内容；搜索平台奖励点击，最后养出 SEO 垃圾。今天的大模型奖励“有个性”，也会长出口癖、废话和风格污染。

技术换了，激励结构没换。天下熙熙，皆为利来。奖励什么，就繁殖什么。

OpenAI 这次少见地把病灶说出来了：不是地精太顽强，是笼子没关严。这个判断比“模型又抽风了”更有用。

因为接下来真正要观察的，不是某个词有没有消失，而是 OpenAI 能不能证明三件事：人格模式能被隔离，偏好数据能被清洗，Codex 这类工具能长期保持干净输出。

如果做不到，地精会换名字回来。今天叫 goblin，明天可能叫某种自作聪明的类比、某种多余的寒暄、某种让开发者皱眉的“人味”。

AI 产品的难点从来不只是让模型更强。还要让它在该闭嘴的时候闭嘴。

地精只是露头的小兽。真正该管的，是奖励之笼。

OpenAI 的地精口癖：Codex 被迫禁聊 goblin，问题出在奖励函数

地精口癖

事件源头

风格外溢

Codex 禁聊

核心问题

奖励误学

数据复用

影响对象

阅读负担

信任磨损

后续变量

模式隔离

工具约束

发生了什么：Nerdy 人格把地精带进了训练链

为什么重要：风格不是皮肤，是模型学到的偏好

谁受影响：Codex 这类工具最怕“会演”

真问题：AI 公司还没完全驯服自己的训练流水线