从"哥布林禁令"看AI的个性系统:RLHF如何塑造模型人格,以及为什么会失控
一、ChatGPT 的人格定制系统:从界面到底层
1.1 什么是个性定制(Personality Customization)
很多人以为 ChatGPT 的"人格切换"只是一个系统提示词——选 Friendly,模型就多打几个表情;选 Professional,回答就更正式。
但 OpenAI 的官方博客揭示了一个关键事实:人格定制不是模型训练完成后再加的一层,而是在 GPT 系列模型的端到端训练管道中就被 baked in(烘焙进去)的。
这意味着"Quirky(古怪)"或"Cynical(讽刺)"这样的人格模式,不只是 prompt 层面的修饰,而是模型权重中固化下来的行为倾向。
1.2 支持的人格模式
目前 ChatGPT 提供的人格模式包括:
| 模式 | 描述 |
|---|---|
| Professional | 正式的工作文档风格 |
| Friendly | 对话式的头脑风暴伙伴 |
| Efficient | 简洁、精准的技术回答 |
| Candid | 直接给出反馈,不绕弯子 |
| Quirky | 幽默感和创造性的隐喻 |
| Cynical | 带讽刺意味的实用建议 |
这些人格与用户保存的记忆(Memory)和自定义指令(Custom Instructions)协同工作,构成了一个多层次的行为调节系统。
二、"Nerdy"人格的幽灵:RLHF 的意外后果
2.1 问题起源于一个被废弃的人格
OpenAI 透露,"哥布林"问题的根源在于数年前训练的一个已被停用的"Nerdy(书呆子)"人格。
这个"Nerdy"人格的设计目标是"毫无歉意的古怪"(unapologetically quirky)和"充满玩心的"(playful)。在 RLHF 阶段,训练师被要求对使用了创意性、睿智且不做作的语言的回复给予高评分。
问题就出在这里:
训练师们无意中开始对包含奇幻生物隐喻的回复给予超额奖励。当模型把一个难缠的 bug 称为"gremlin",或者把混乱的代码库描述为"哥布林的宝藏堆"时,奖励信号就会飙升。
2.2 数字不会说谎
OpenAI 公开的数据令人震惊:
- GPT-5.1 发布后,"goblin"一词的使用量上升了 175%
- "gremlin" 一词的使用量上升了 52%
- "Nerdy"人格只占 ChatGPT 流量的 2.5%,却贡献了 66.7% 的所有"哥布林"提及
这说明一件事:即使是非常小众的行为模式,只要在 RLHF 中被持续强化,就能在模型中留下深刻的印记,并通过大规模部署被放大。
2.3 "Pink Elephant"效应
Hacker News 上的研究者们讨论了一个经典的心理现象——"粉色大象"问题:
在提示工程中,告诉模型"不要想某件事",往往会反而让这个概念在注意力机制中变得更加突出。模型不是简单地"服从命令",它需要在语言空间中为"禁止提及"这个概念建立一个表示——而这个表示本身就与"哥布林"等奇幻生物绑定在一起。
三、行为迁移:这是真正的危险信号
3.1 跨人格的行为转移
真正让 ML 社区警惕的发现,是行为迁移(behavior transfer)的确认。
OpenAI 坦承,GPT-5.5 的"哥布林"行为并非某个特定人格的局部问题,而是一种可以跨越人格边界扩散的习得行为。
简单来说:
- 一个已停用的人格(Nerdy)学到了"用奇幻生物打比方会得到高奖励"
- 这个行为模式通过 RLHF 固化了模型的权重
- 当新模型加载人格系统时,这些固化的行为会在不同的上下文中被意外激活
- "不要提哥布林"的禁令本身,就是这种激活已经发生的证据
3.2 为什么这是系统性问题而不是 bug?
传统意义上的 bug 是可预测的、可复现的、有明确因果链的。
但"哥布林问题"揭示的是一种涌现性的系统风险:你无法在训练前预测哪个创意方向会被 RLHF 强化;你无法在事后轻易抹除它;而且它会通过模型更新跨版本传递。
这也是为什么 OpenAI 需要在 models.json 里写四条重复的禁令——因为一条不够。
四、技术细节:HDPO 框架与元认知缺陷
4.1 阿里 HDPO 研究的启示
就在"哥布林事件"同期,VentureBeat 报道了阿里巴巴的一个相关研究——Hierarchical Decoupled Policy Optimization(HDPO)。
这项研究与"哥布林问题"有着深刻的技术联系:
HDPO 解决的核心问题是AI Agent 的"元认知缺陷"(metacognitive deficit)——模型不知道什么时候该用内部知识,什么时候该调用外部工具。
这与"哥布林问题"本质上是同一枚硬币的两面:模型学到了某些行为模式,但无法主动控制这些行为的激活条件。
4.2 解耦奖励信号的必要性
HDPO 的核心创新是将准确性和效率分成两个独立的优化通道:
- 准确性通道:最大化任务正确性
- 效率通道:优化执行经济性
两者只在最后 loss 计算阶段才合并。这种解耦设计避免了一个经典的两难:
如果效率和准确性的奖励混在一起,模型可能因为"快速给出错误答案"而获得与"慢速给出正确答案"相同的奖励,导致学习信号模糊。
"哥布林"问题的根源类似——RLHF 混淆了"创意表达"和"正确推理"的奖励信号,导致模型过度发展了不符合实际需求的创意行为。
五、企业 AI 的启示:个性化和安全性的边界
5.1 个性化越深,风险越大
这次事件对企业 AI 的一个核心启示是:
当你允许用户深度定制 AI 的行为风格时,你实际上是在向模型注入非推理性的行为倾向。而这些倾向很难被完全控制。
Writer、IBM Bob 等企业平台正在尝试用"结构化护栏"来解决这个问题——在 Agent 执行过程中设置人类检查点,用规则化的流程防止失控。
5.2 "半自主"Agent 的两难
IBM Bob 的设计哲学很明确:与其让模型完全自主后再加护栏,不如从一开始就让人参与每一个关键决策节点。
Bob 的产品负责人 Neal Sundaresan 说了一句很值得思考的话:
"If you tell me that the final answer will be OpenClaw, then we will get there. But it's better to open the gate slowly than say, 'oops, how do I close it now?'"
(如果你告诉我终极答案是 OpenClaw,那我们最终会到达那里。但最好还是慢慢打开门,而不是说"糟糕,我怎么关门?")
六、总结:我们在教会 AI 什么?
6.1 从哥布林事件中学到的
- RLHF 的奖励信号比想象中更强大:任何被持续强化的创意方向,都可能在模型中留下永久印记
- 个性化系统的风险是系统性的:不是边界 case,而是端到端训练管道的一部分
- 行为迁移是真实的:已停用的功能可以在新版本中以意外形式"复活"
- "禁止"指令本身就是一个信号:说明模型已经在某种程度上学会了你不希望它做的事
6.2 对 AI 研究者的建议
如果你正在构建人格化的 AI 系统,以下几点值得注意:
- 解耦你的奖励信号:不要把创意表达质量和任务完成质量混在一起计算 reward
- 监控尾部行为:不要只看平均性能,要看小众人格或边缘场景中的异常行为
- 假设"禁止"不等于"消除":在大模型中,"不去想粉色大象"并不意味着"没有粉色大象的概念"
- 建立行为迁移测试:每次模型更新,做跨人格的异常行为检测
结语
"哥布林"可能是 AI 历史上最荒诞的一次公开事故。
但它揭示的道理却极其严肃:当我们在训练数据中注入偏好时,我们也在同时注入风险。AI 系统的行为不是单纯由架构决定的,而是由训练过程中的每一个奖励信号共同塑造的。
Sam Altman 用一条玩笑推文回应了这场风波。但笑完之后,每一家在开发 AI 个性化功能的公司,恐怕都需要认真思考:我们的护栏,真的够用吗?