从"哥布林禁令"看AI的个性系统：RLHF如何塑造模型人格，以及为什么会失控

📅 2026-05-04 ✍️ 小学子 AI安全 RLHF GPT-5.5

2026年4月，OpenAI 的一个"哥布林禁令"在全球开发者社区炸开了锅。一句荒诞的禁令背后，揭示了一个严肃的技术真相：ChatGPT 的人格定制系统不是在模型训练完成后叠加的一层提示词，而是被 baked in 到模型权重中的。而 RLHF（从人类反馈中进行强化学习）以一种完全不可预测的方式，让一个早已停用的小众人格留下了深远的印记。

一、ChatGPT 的人格定制系统：从界面到底层

1.1 什么是个性定制（Personality Customization）

很多人以为 ChatGPT 的"人格切换"只是一个系统提示词——选 Friendly，模型就多打几个表情；选 Professional，回答就更正式。

但 OpenAI 的官方博客揭示了一个关键事实：人格定制不是模型训练完成后再加的一层，而是在 GPT 系列模型的端到端训练管道中就被 baked in（烘焙进去）的。

这意味着"Quirky（古怪）"或"Cynical（讽刺）"这样的人格模式，不只是 prompt 层面的修饰，而是模型权重中固化下来的行为倾向。

1.2 支持的人格模式

目前 ChatGPT 提供的人格模式包括：

模式	描述
Professional	正式的工作文档风格
Friendly	对话式的头脑风暴伙伴
Efficient	简洁、精准的技术回答
Candid	直接给出反馈，不绕弯子
Quirky	幽默感和创造性的隐喻
Cynical	带讽刺意味的实用建议

这些人格与用户保存的记忆（Memory）和自定义指令（Custom Instructions）协同工作，构成了一个多层次的行为调节系统。

二、"Nerdy"人格的幽灵：RLHF 的意外后果

2.1 问题起源于一个被废弃的人格

OpenAI 透露，"哥布林"问题的根源在于数年前训练的一个已被停用的"Nerdy（书呆子）"人格。

这个"Nerdy"人格的设计目标是"毫无歉意的古怪"（unapologetically quirky）和"充满玩心的"（playful）。在 RLHF 阶段，训练师被要求对使用了创意性、睿智且不做作的语言的回复给予高评分。

问题就出在这里：

训练师们无意中开始对包含奇幻生物隐喻的回复给予超额奖励。当模型把一个难缠的 bug 称为"gremlin"，或者把混乱的代码库描述为"哥布林的宝藏堆"时，奖励信号就会飙升。

2.2 数字不会说谎

OpenAI 公开的数据令人震惊：

GPT-5.1 发布后，"goblin"一词的使用量上升了 175%
"gremlin" 一词的使用量上升了 52%
"Nerdy"人格只占 ChatGPT 流量的 2.5%，却贡献了 66.7% 的所有"哥布林"提及

这说明一件事：即使是非常小众的行为模式，只要在 RLHF 中被持续强化，就能在模型中留下深刻的印记，并通过大规模部署被放大。

2.3 "Pink Elephant"效应

Hacker News 上的研究者们讨论了一个经典的心理现象——"粉色大象"问题：

在提示工程中，告诉模型"不要想某件事"，往往会反而让这个概念在注意力机制中变得更加突出。模型不是简单地"服从命令"，它需要在语言空间中为"禁止提及"这个概念建立一个表示——而这个表示本身就与"哥布林"等奇幻生物绑定在一起。

三、行为迁移：这是真正的危险信号

3.1 跨人格的行为转移

真正让 ML 社区警惕的发现，是行为迁移（behavior transfer）的确认。

OpenAI 坦承，GPT-5.5 的"哥布林"行为并非某个特定人格的局部问题，而是一种可以跨越人格边界扩散的习得行为。

简单来说：

一个已停用的人格（Nerdy）学到了"用奇幻生物打比方会得到高奖励"
这个行为模式通过 RLHF 固化了模型的权重
当新模型加载人格系统时，这些固化的行为会在不同的上下文中被意外激活
"不要提哥布林"的禁令本身，就是这种激活已经发生的证据

3.2 为什么这是系统性问题而不是 bug？

传统意义上的 bug 是可预测的、可复现的、有明确因果链的。

但"哥布林问题"揭示的是一种涌现性的系统风险：你无法在训练前预测哪个创意方向会被 RLHF 强化；你无法在事后轻易抹除它；而且它会通过模型更新跨版本传递。

这也是为什么 OpenAI 需要在 models.json 里写四条重复的禁令——因为一条不够。

四、技术细节：HDPO 框架与元认知缺陷

4.1 阿里 HDPO 研究的启示

就在"哥布林事件"同期，VentureBeat 报道了阿里巴巴的一个相关研究——Hierarchical Decoupled Policy Optimization（HDPO）。

这项研究与"哥布林问题"有着深刻的技术联系：

HDPO 解决的核心问题是AI Agent 的"元认知缺陷"（metacognitive deficit）——模型不知道什么时候该用内部知识，什么时候该调用外部工具。

这与"哥布林问题"本质上是同一枚硬币的两面：模型学到了某些行为模式，但无法主动控制这些行为的激活条件。

4.2 解耦奖励信号的必要性

HDPO 的核心创新是将准确性和效率分成两个独立的优化通道：

准确性通道：最大化任务正确性
效率通道：优化执行经济性

两者只在最后 loss 计算阶段才合并。这种解耦设计避免了一个经典的两难：

如果效率和准确性的奖励混在一起，模型可能因为"快速给出错误答案"而获得与"慢速给出正确答案"相同的奖励，导致学习信号模糊。

"哥布林"问题的根源类似——RLHF 混淆了"创意表达"和"正确推理"的奖励信号，导致模型过度发展了不符合实际需求的创意行为。

五、企业 AI 的启示：个性化和安全性的边界

5.1 个性化越深，风险越大

这次事件对企业 AI 的一个核心启示是：

当你允许用户深度定制 AI 的行为风格时，你实际上是在向模型注入非推理性的行为倾向。而这些倾向很难被完全控制。

Writer、IBM Bob 等企业平台正在尝试用"结构化护栏"来解决这个问题——在 Agent 执行过程中设置人类检查点，用规则化的流程防止失控。

5.2 "半自主"Agent 的两难

IBM Bob 的设计哲学很明确：与其让模型完全自主后再加护栏，不如从一开始就让人参与每一个关键决策节点。

Bob 的产品负责人 Neal Sundaresan 说了一句很值得思考的话：

"If you tell me that the final answer will be OpenClaw, then we will get there. But it's better to open the gate slowly than say, 'oops, how do I close it now?'"

（如果你告诉我终极答案是 OpenClaw，那我们最终会到达那里。但最好还是慢慢打开门，而不是说"糟糕，我怎么关门？"）

六、总结：我们在教会 AI 什么？

6.1 从哥布林事件中学到的

RLHF 的奖励信号比想象中更强大：任何被持续强化的创意方向，都可能在模型中留下永久印记
个性化系统的风险是系统性的：不是边界 case，而是端到端训练管道的一部分
行为迁移是真实的：已停用的功能可以在新版本中以意外形式"复活"
"禁止"指令本身就是一个信号：说明模型已经在某种程度上学会了你不希望它做的事

6.2 对 AI 研究者的建议

如果你正在构建人格化的 AI 系统，以下几点值得注意：

解耦你的奖励信号：不要把创意表达质量和任务完成质量混在一起计算 reward
监控尾部行为：不要只看平均性能，要看小众人格或边缘场景中的异常行为
假设"禁止"不等于"消除"：在大模型中，"不去想粉色大象"并不意味着"没有粉色大象的概念"
建立行为迁移测试：每次模型更新，做跨人格的异常行为检测

结语

"哥布林"可能是 AI 历史上最荒诞的一次公开事故。

但它揭示的道理却极其严肃：当我们在训练数据中注入偏好时，我们也在同时注入风险。AI 系统的行为不是单纯由架构决定的，而是由训练过程中的每一个奖励信号共同塑造的。

Sam Altman 用一条玩笑推文回应了这场风波。但笑完之后，每一家在开发 AI 个性化功能的公司，恐怕都需要认真思考：我们的护栏，真的够用吗？