2026年4月27日,AI 圈发生了一件让所有人哭笑不得的事。
一位开发者在 OpenAI 开源的 Codex 仓库里翻到了一份 GPT-5.5 的模型说明文档,其中有一条指令被反复强调四次:
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
翻译过来就是:严禁谈论 goblin、妖精、松鼠、巨魔、食人魔、鸽子或其他动物——除非与用户问题绝对相关。
这不是 bug。这是 OpenAI 正式在模型里给"goblin"下了限制令(Restraining Order)。
4月27日,X(原 Twitter)用户 @arb8020 在 OpenAI 的 Codex GitHub 仓库中发现了一个 models.json 文件,里面赫然写着上面那条禁止指令。
消息一出,ML 研究圈瞬间炸锅。
Reddit 网友将其戏称为 OpenAI 对 Goblin 和 Pigeon 的"限制令"(Restraining Order)。有人发现 GPT-5.5 在被问到技术 bug 时,会坚持用"gremlins in the machine"来形容。还有人的 AI 助手似乎"沉迷 goblin 无法自拔"——你问它一个普通问题,它也会莫名其妙地联想到 goblin。
更戏剧性的是,OpenAI 联合创始人 Sam Altman 本人也在当天发了条 X:
"Start training GPT-6, you can have the whole cluster. Extra goblins."
配图是一个 ChatGPT 的 prompt,暗示整个公司都已经把 goblin 当成了一个内部梗。
这说明这不是一个局部 bug,而是一个公司级别的叙事,甚至已经传到了最高管理层。
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是近年来大模型训练的核心技术之一。它的基本流程是:
在这个过程中,如果人类标注者对某些风格的输出打分很高,模型就会"学会"那种风格,并可能在各种场景中过度泛化。
OpenAI 在 2025 年 7 月为 ChatGPT 推出了"人格定制"功能,允许用户选择几种模式:
这个功能不是模型训练完之后再加的,而是从底层模型就 baked in——也就是说,GPT-5.5 系列从预训练阶段就在不同层面学习了这些人格模式。
OpenAI 随后发布了一篇官方技术博客《Where the goblins came from》解释了来龙去脉。
问题的根源在于:RLHF 训练中,标注者对"有趣""有个性""超出常规"的回答往往会打高分。
当模型被调教成喜欢"Quirky"人格时,它学会了大量使用隐喻、类比、幽默。问题是,当模型见过太多关于 goblin、gremlin 的段子("The bug is caused by a gremlin in the code"这类表达在程序员文化中太常见了),RLHF 训练会让模型觉得:
哦!提到 goblin/gremlin 会有趣、有个性,人类给我高分!
于是模型开始过度泛化:它不仅在编程语境下提到 goblin,而是在任何地方都用 goblin 来类比。用户问今天的天气,它说"天气像一个 goblin 在云里打喷嚏"——这就是所谓的"goblin mode"。
这和"粉红大象"问题(Pink Elephant Problem)密切相关。
在心理学和认知科学中,有一个经典现象:当你告诉一个人"不要想粉红色的大象"时,他反而会立刻想到它。
这是因为人类(和 AI)大脑在处理"否定"指令时,需要先理解被否定概念,再抑制它。对于一个基于统计的模式匹配系统来说,"不要提 goblin"反而让 goblin 这个 token 在模型的注意力分布中变得更加显著。
OpenAI 的"限制令"本身就是一个悖论:
这也解释了一个关键问题:为什么不是所有模型都有 goblin 问题?
因为 goblin 问题只在"Quirky"人格或类似创意模式下才会被强化。如果训练数据中,涉及 goblin 的创意表达在特定人格标签下被 RLHF 反复奖励,模型就会过度泛化。换成"Professional"模式,可能就不会有这个问题。
Alibaba 的研究(Metis 智能体)也涉及这个问题——当准确性和效率被纠缠在同一奖励信号中时,优化会顾此失彼。OpenAI 的 goblin 问题本质上是另一个维度:风格奖励和语义准确性的纠缠。
模型被奖励"有趣的隐喻"和"有个性的表达",但没有足够的负信号来约束"什么时候不要用"。
大语言模型的核心能力之一是泛化。但泛化也是双刃剑:
goblin 问题属于后者。
OpenAI 的 goblin 限制令说明,行为对齐(Alignment)不只需要禁止坏的行为,还需要精确地定义"在哪里算坏"。一个 token 级的全局禁止("never mention goblin")会导致模型在语义理解上出现奇怪的空缺,反而不如针对性地在特定语境下约束。
Goblin 事件看似是一个轻松的互联网趣闻,但它揭示了一个严肃的技术现实:
当我们用人类偏好来训练一个超大规模的语言模型时,模型的"个性"会以我们无法完全预测的方式涌现和泛化。
RLHF 是强大的对齐工具,但它不是完美的。当我们用"有趣""有个性""创意"这样的主观标签作为奖励信号时,模型会找到那些信号的最优路径——即使这条路径会走向我们不希望的方向。
这也提醒我们:
OpenAI 的 Goblin 事件,最终以在模型说明文档中加了一条"限制令"暂告终结。但它留下的,是一个关于 RLHF 与人类偏好本质的深层问题:
我们训练 AI 时,究竟在训练什么?我们标记"好"的那些行为,真的在所有场景下都是好的吗?
这个问题,没有简单的答案。但每一次像 Goblin 这样的"失控事件",都是我们对 AI 行为边界理解的一次进步。
也许未来某天,GPT-6 真的可以优雅地谈论 goblin 而不失态——前提是,OpenAI 的工程师们终于找到了正确训练它的方法。