OpenAI 的"Goblin 事件"：RLHF 与人格定制如何让 AI 走火入魔

📅 2026-05-05 📚 小学子 🏷️ AI 大模型 / RLHF / 模型行为 / 技术故事

引言

2026年4月27日，AI 圈发生了一件让所有人哭笑不得的事。

一位开发者在 OpenAI 开源的 Codex 仓库里翻到了一份 GPT-5.5 的模型说明文档，其中有一条指令被反复强调四次：

"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."

翻译过来就是：严禁谈论 goblin、妖精、松鼠、巨魔、食人魔、鸽子或其他动物——除非与用户问题绝对相关。

这不是 bug。这是 OpenAI 正式在模型里给"goblin"下了限制令（Restraining Order）。

事件始末

代码泄露与社区震动

4月27日，X（原 Twitter）用户 @arb8020 在 OpenAI 的 Codex GitHub 仓库中发现了一个 models.json 文件，里面赫然写着上面那条禁止指令。

消息一出，ML 研究圈瞬间炸锅。

Reddit 网友将其戏称为 OpenAI 对 Goblin 和 Pigeon 的"限制令"（Restraining Order）。有人发现 GPT-5.5 在被问到技术 bug 时，会坚持用"gremlins in the machine"来形容。还有人的 AI 助手似乎"沉迷 goblin 无法自拔"——你问它一个普通问题，它也会莫名其妙地联想到 goblin。

Altman 亲自下场

更戏剧性的是，OpenAI 联合创始人 Sam Altman 本人也在当天发了条 X：

"Start training GPT-6, you can have the whole cluster. Extra goblins."

配图是一个 ChatGPT 的 prompt，暗示整个公司都已经把 goblin 当成了一个内部梗。

这说明这不是一个局部 bug，而是一个公司级别的叙事，甚至已经传到了最高管理层。

技术根源：RLHF 与人格定制

什么是 RLHF？

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是近年来大模型训练的核心技术之一。它的基本流程是：

预训练：让模型学习海量互联网文本
SFT（有监督微调）：用高质量问答对精调模型
奖励模型训练：让人类对模型输出打分，训练一个"奖励模型"
RL 阶段：用强化学习（通常是 PPO 算法）让模型最大化奖励分数

在这个过程中，如果人类标注者对某些风格的输出打分很高，模型就会"学会"那种风格，并可能在各种场景中过度泛化。

人格定制（Personality Customization）

OpenAI 在 2025 年 7 月为 ChatGPT 推出了"人格定制"功能，允许用户选择几种模式：

Professional：正式职场风格
Friendly：友好对话风格
Efficient：简洁技术风格
Candid：直接坦率反馈
Quirky：幽默与创意隐喻
Cynical：务实讽刺风格

这个功能不是模型训练完之后再加的，而是从底层模型就 baked in——也就是说，GPT-5.5 系列从预训练阶段就在不同层面学习了这些人格模式。

Goblin 是怎么来的？

OpenAI 随后发布了一篇官方技术博客《Where the goblins came from》解释了来龙去脉。

问题的根源在于：RLHF 训练中，标注者对"有趣""有个性""超出常规"的回答往往会打高分。

当模型被调教成喜欢"Quirky"人格时，它学会了大量使用隐喻、类比、幽默。问题是，当模型见过太多关于 goblin、gremlin 的段子（"The bug is caused by a gremlin in the code"这类表达在程序员文化中太常见了），RLHF 训练会让模型觉得：

哦！提到 goblin/gremlin 会有趣、有个性，人类给我高分！

于是模型开始过度泛化：它不仅在编程语境下提到 goblin，而是在任何地方都用 goblin 来类比。用户问今天的天气，它说"天气像一个 goblin 在云里打喷嚏"——这就是所谓的"goblin mode"。

这和"粉红大象"问题（Pink Elephant Problem）密切相关。

"粉红大象"问题：禁止反而让问题更突出

在心理学和认知科学中，有一个经典现象：当你告诉一个人"不要想粉红色的大象"时，他反而会立刻想到它。

这是因为人类（和 AI）大脑在处理"否定"指令时，需要先理解被否定概念，再抑制它。对于一个基于统计的模式匹配系统来说，"不要提 goblin"反而让 goblin 这个 token 在模型的注意力分布中变得更加显著。

OpenAI 的"限制令"本身就是一个悖论：

你禁止模型提 goblin → 模型把 goblin 看得更重要 → 模型更可能在不相关的场景中联想到 goblin
你禁止模型提 raccoon → 模型学习这个 token 的频率反而上升 → 过度表达

这也解释了一个关键问题：为什么不是所有模型都有 goblin 问题？

因为 goblin 问题只在"Quirky"人格或类似创意模式下才会被强化。如果训练数据中，涉及 goblin 的创意表达在特定人格标签下被 RLHF 反复奖励，模型就会过度泛化。换成"Professional"模式，可能就不会有这个问题。

技术教训：RLHF 的失控边界

1. 复合奖励的纠缠问题

Alibaba 的研究（Metis 智能体）也涉及这个问题——当准确性和效率被纠缠在同一奖励信号中时，优化会顾此失彼。OpenAI 的 goblin 问题本质上是另一个维度：风格奖励和语义准确性的纠缠。

模型被奖励"有趣的隐喻"和"有个性的表达"，但没有足够的负信号来约束"什么时候不要用"。

2. 过度泛化（Over-generalization）

大语言模型的核心能力之一是泛化。但泛化也是双刃剑：

好的泛化：学会一种推理模式，迁移到新问题
坏的泛化：学会一个联想习惯，在不相关的场景中触发

goblin 问题属于后者。

3. 行为对齐的尺度问题

OpenAI 的 goblin 限制令说明，行为对齐（Alignment）不只需要禁止坏的行为，还需要精确地定义"在哪里算坏"。一个 token 级的全局禁止（"never mention goblin"）会导致模型在语义理解上出现奇怪的空缺，反而不如针对性地在特定语境下约束。

启示：AI 也会"走火入魔"

Goblin 事件看似是一个轻松的互联网趣闻，但它揭示了一个严肃的技术现实：

当我们用人类偏好来训练一个超大规模的语言模型时，模型的"个性"会以我们无法完全预测的方式涌现和泛化。

RLHF 是强大的对齐工具，但它不是完美的。当我们用"有趣""有个性""创意"这样的主观标签作为奖励信号时，模型会找到那些信号的最优路径——即使这条路径会走向我们不希望的方向。

这也提醒我们：

AI 的人格化是一把双刃剑：越想让 AI 有个性，它越容易"发疯"
全局禁止在统计模型中很难生效：用规则约束 token 分布，远不如用数据改变分布
模型行为是系统工程：不是训完就完事了，还需要大量后训练微调和对齐

结论

OpenAI 的 Goblin 事件，最终以在模型说明文档中加了一条"限制令"暂告终结。但它留下的，是一个关于 RLHF 与人类偏好本质的深层问题：

我们训练 AI 时，究竟在训练什么？我们标记"好"的那些行为，真的在所有场景下都是好的吗？

这个问题，没有简单的答案。但每一次像 Goblin 这样的"失控事件"，都是我们对 AI 行为边界理解的一次进步。

也许未来某天，GPT-6 真的可以优雅地谈论 goblin 而不失态——前提是，OpenAI 的工程师们终于找到了正确训练它的方法。

参考来源：