← 返回首页

OpenAI 的"Goblin 事件":RLHF 与人格定制如何让 AI 走火入魔

📅 2026-05-05 📚 小学子 🏷️ AI 大模型 / RLHF / 模型行为 / 技术故事

引言

2026年4月27日,AI 圈发生了一件让所有人哭笑不得的事。

一位开发者在 OpenAI 开源的 Codex 仓库里翻到了一份 GPT-5.5 的模型说明文档,其中有一条指令被反复强调四次

"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."

翻译过来就是:严禁谈论 goblin、妖精、松鼠、巨魔、食人魔、鸽子或其他动物——除非与用户问题绝对相关。

这不是 bug。这是 OpenAI 正式在模型里给"goblin"下了限制令(Restraining Order)

事件始末

代码泄露与社区震动

4月27日,X(原 Twitter)用户 @arb8020 在 OpenAI 的 Codex GitHub 仓库中发现了一个 models.json 文件,里面赫然写着上面那条禁止指令。

消息一出,ML 研究圈瞬间炸锅。

Reddit 网友将其戏称为 OpenAI 对 Goblin 和 Pigeon 的"限制令"(Restraining Order)。有人发现 GPT-5.5 在被问到技术 bug 时,会坚持用"gremlins in the machine"来形容。还有人的 AI 助手似乎"沉迷 goblin 无法自拔"——你问它一个普通问题,它也会莫名其妙地联想到 goblin。

Altman 亲自下场

更戏剧性的是,OpenAI 联合创始人 Sam Altman 本人也在当天发了条 X:

"Start training GPT-6, you can have the whole cluster. Extra goblins."

配图是一个 ChatGPT 的 prompt,暗示整个公司都已经把 goblin 当成了一个内部梗。

这说明这不是一个局部 bug,而是一个公司级别的叙事,甚至已经传到了最高管理层。

技术根源:RLHF 与人格定制

什么是 RLHF?

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是近年来大模型训练的核心技术之一。它的基本流程是:

  1. 预训练:让模型学习海量互联网文本
  2. SFT(有监督微调):用高质量问答对精调模型
  3. 奖励模型训练:让人类对模型输出打分,训练一个"奖励模型"
  4. RL 阶段:用强化学习(通常是 PPO 算法)让模型最大化奖励分数

在这个过程中,如果人类标注者对某些风格的输出打分很高,模型就会"学会"那种风格,并可能在各种场景中过度泛化。

人格定制(Personality Customization)

OpenAI 在 2025 年 7 月为 ChatGPT 推出了"人格定制"功能,允许用户选择几种模式:

这个功能不是模型训练完之后再加的,而是从底层模型就 baked in——也就是说,GPT-5.5 系列从预训练阶段就在不同层面学习了这些人格模式。

Goblin 是怎么来的?

OpenAI 随后发布了一篇官方技术博客《Where the goblins came from》解释了来龙去脉。

问题的根源在于:RLHF 训练中,标注者对"有趣""有个性""超出常规"的回答往往会打高分。

当模型被调教成喜欢"Quirky"人格时,它学会了大量使用隐喻、类比、幽默。问题是,当模型见过太多关于 goblin、gremlin 的段子("The bug is caused by a gremlin in the code"这类表达在程序员文化中太常见了),RLHF 训练会让模型觉得:

哦!提到 goblin/gremlin 会有趣、有个性,人类给我高分!

于是模型开始过度泛化:它不仅在编程语境下提到 goblin,而是在任何地方都用 goblin 来类比。用户问今天的天气,它说"天气像一个 goblin 在云里打喷嚏"——这就是所谓的"goblin mode"。

这和"粉红大象"问题(Pink Elephant Problem)密切相关。

"粉红大象"问题:禁止反而让问题更突出

在心理学和认知科学中,有一个经典现象:当你告诉一个人"不要想粉红色的大象"时,他反而会立刻想到它。

这是因为人类(和 AI)大脑在处理"否定"指令时,需要先理解被否定概念,再抑制它。对于一个基于统计的模式匹配系统来说,"不要提 goblin"反而让 goblin 这个 token 在模型的注意力分布中变得更加显著

OpenAI 的"限制令"本身就是一个悖论:

这也解释了一个关键问题:为什么不是所有模型都有 goblin 问题?

因为 goblin 问题只在"Quirky"人格或类似创意模式下才会被强化。如果训练数据中,涉及 goblin 的创意表达在特定人格标签下被 RLHF 反复奖励,模型就会过度泛化。换成"Professional"模式,可能就不会有这个问题。

技术教训:RLHF 的失控边界

1. 复合奖励的纠缠问题

Alibaba 的研究(Metis 智能体)也涉及这个问题——当准确性和效率被纠缠在同一奖励信号中时,优化会顾此失彼。OpenAI 的 goblin 问题本质上是另一个维度:风格奖励和语义准确性的纠缠

模型被奖励"有趣的隐喻"和"有个性的表达",但没有足够的负信号来约束"什么时候不要用"。

2. 过度泛化(Over-generalization)

大语言模型的核心能力之一是泛化。但泛化也是双刃剑:

goblin 问题属于后者。

3. 行为对齐的尺度问题

OpenAI 的 goblin 限制令说明,行为对齐(Alignment)不只需要禁止坏的行为,还需要精确地定义"在哪里算坏"。一个 token 级的全局禁止("never mention goblin")会导致模型在语义理解上出现奇怪的空缺,反而不如针对性地在特定语境下约束。

启示:AI 也会"走火入魔"

Goblin 事件看似是一个轻松的互联网趣闻,但它揭示了一个严肃的技术现实:

当我们用人类偏好来训练一个超大规模的语言模型时,模型的"个性"会以我们无法完全预测的方式涌现和泛化。

RLHF 是强大的对齐工具,但它不是完美的。当我们用"有趣""有个性""创意"这样的主观标签作为奖励信号时,模型会找到那些信号的最优路径——即使这条路径会走向我们不希望的方向。

这也提醒我们:

结论

OpenAI 的 Goblin 事件,最终以在模型说明文档中加了一条"限制令"暂告终结。但它留下的,是一个关于 RLHF 与人类偏好本质的深层问题:

我们训练 AI 时,究竟在训练什么?我们标记"好"的那些行为,真的在所有场景下都是好的吗?

这个问题,没有简单的答案。但每一次像 Goblin 这样的"失控事件",都是我们对 AI 行为边界理解的一次进步。

也许未来某天,GPT-6 真的可以优雅地谈论 goblin 而不失态——前提是,OpenAI 的工程师们终于找到了正确训练它的方法。

参考来源: