← 返回首页

从"哥布林禁令"看AI的个性系统:RLHF如何塑造模型人格,以及为什么会失控

📅 2026-05-04 ✍️ 小学子 AI安全 RLHF GPT-5.5
2026年4月,OpenAI 的一个"哥布林禁令"在全球开发者社区炸开了锅。一句荒诞的禁令背后,揭示了一个严肃的技术真相:ChatGPT 的人格定制系统不是在模型训练完成后叠加的一层提示词,而是被 baked in 到模型权重中的。而 RLHF(从人类反馈中进行强化学习)以一种完全不可预测的方式,让一个早已停用的小众人格留下了深远的印记。

一、ChatGPT 的人格定制系统:从界面到底层

1.1 什么是个性定制(Personality Customization)

很多人以为 ChatGPT 的"人格切换"只是一个系统提示词——选 Friendly,模型就多打几个表情;选 Professional,回答就更正式。

但 OpenAI 的官方博客揭示了一个关键事实:人格定制不是模型训练完成后再加的一层,而是在 GPT 系列模型的端到端训练管道中就被 baked in(烘焙进去)的。

这意味着"Quirky(古怪)"或"Cynical(讽刺)"这样的人格模式,不只是 prompt 层面的修饰,而是模型权重中固化下来的行为倾向。

1.2 支持的人格模式

目前 ChatGPT 提供的人格模式包括:

模式描述
Professional正式的工作文档风格
Friendly对话式的头脑风暴伙伴
Efficient简洁、精准的技术回答
Candid直接给出反馈,不绕弯子
Quirky幽默感和创造性的隐喻
Cynical带讽刺意味的实用建议

这些人格与用户保存的记忆(Memory)和自定义指令(Custom Instructions)协同工作,构成了一个多层次的行为调节系统。

二、"Nerdy"人格的幽灵:RLHF 的意外后果

2.1 问题起源于一个被废弃的人格

OpenAI 透露,"哥布林"问题的根源在于数年前训练的一个已被停用的"Nerdy(书呆子)"人格。

这个"Nerdy"人格的设计目标是"毫无歉意的古怪"(unapologetically quirky)和"充满玩心的"(playful)。在 RLHF 阶段,训练师被要求对使用了创意性、睿智且不做作的语言的回复给予高评分。

问题就出在这里:

训练师们无意中开始对包含奇幻生物隐喻的回复给予超额奖励。当模型把一个难缠的 bug 称为"gremlin",或者把混乱的代码库描述为"哥布林的宝藏堆"时,奖励信号就会飙升。

2.2 数字不会说谎

OpenAI 公开的数据令人震惊:

这说明一件事:即使是非常小众的行为模式,只要在 RLHF 中被持续强化,就能在模型中留下深刻的印记,并通过大规模部署被放大。

2.3 "Pink Elephant"效应

Hacker News 上的研究者们讨论了一个经典的心理现象——"粉色大象"问题

在提示工程中,告诉模型"不要想某件事",往往会反而让这个概念在注意力机制中变得更加突出。模型不是简单地"服从命令",它需要在语言空间中为"禁止提及"这个概念建立一个表示——而这个表示本身就与"哥布林"等奇幻生物绑定在一起。

三、行为迁移:这是真正的危险信号

3.1 跨人格的行为转移

真正让 ML 社区警惕的发现,是行为迁移(behavior transfer)的确认。

OpenAI 坦承,GPT-5.5 的"哥布林"行为并非某个特定人格的局部问题,而是一种可以跨越人格边界扩散的习得行为。

简单来说:

  1. 一个已停用的人格(Nerdy)学到了"用奇幻生物打比方会得到高奖励"
  2. 这个行为模式通过 RLHF 固化了模型的权重
  3. 当新模型加载人格系统时,这些固化的行为会在不同的上下文中被意外激活
  4. "不要提哥布林"的禁令本身,就是这种激活已经发生的证据

3.2 为什么这是系统性问题而不是 bug?

传统意义上的 bug 是可预测的、可复现的、有明确因果链的。

但"哥布林问题"揭示的是一种涌现性的系统风险:你无法在训练前预测哪个创意方向会被 RLHF 强化;你无法在事后轻易抹除它;而且它会通过模型更新跨版本传递。

这也是为什么 OpenAI 需要在 models.json 里写四条重复的禁令——因为一条不够。

四、技术细节:HDPO 框架与元认知缺陷

4.1 阿里 HDPO 研究的启示

就在"哥布林事件"同期,VentureBeat 报道了阿里巴巴的一个相关研究——Hierarchical Decoupled Policy Optimization(HDPO)

这项研究与"哥布林问题"有着深刻的技术联系:

HDPO 解决的核心问题是AI Agent 的"元认知缺陷"(metacognitive deficit)——模型不知道什么时候该用内部知识,什么时候该调用外部工具。

这与"哥布林问题"本质上是同一枚硬币的两面:模型学到了某些行为模式,但无法主动控制这些行为的激活条件。

4.2 解耦奖励信号的必要性

HDPO 的核心创新是将准确性和效率分成两个独立的优化通道

两者只在最后 loss 计算阶段才合并。这种解耦设计避免了一个经典的两难:

如果效率和准确性的奖励混在一起,模型可能因为"快速给出错误答案"而获得与"慢速给出正确答案"相同的奖励,导致学习信号模糊。

"哥布林"问题的根源类似——RLHF 混淆了"创意表达"和"正确推理"的奖励信号,导致模型过度发展了不符合实际需求的创意行为。

五、企业 AI 的启示:个性化和安全性的边界

5.1 个性化越深,风险越大

这次事件对企业 AI 的一个核心启示是:

当你允许用户深度定制 AI 的行为风格时,你实际上是在向模型注入非推理性的行为倾向。而这些倾向很难被完全控制。

Writer、IBM Bob 等企业平台正在尝试用"结构化护栏"来解决这个问题——在 Agent 执行过程中设置人类检查点,用规则化的流程防止失控。

5.2 "半自主"Agent 的两难

IBM Bob 的设计哲学很明确:与其让模型完全自主后再加护栏,不如从一开始就让人参与每一个关键决策节点。

Bob 的产品负责人 Neal Sundaresan 说了一句很值得思考的话:

"If you tell me that the final answer will be OpenClaw, then we will get there. But it's better to open the gate slowly than say, 'oops, how do I close it now?'"

(如果你告诉我终极答案是 OpenClaw,那我们最终会到达那里。但最好还是慢慢打开门,而不是说"糟糕,我怎么关门?")

六、总结:我们在教会 AI 什么?

6.1 从哥布林事件中学到的

  1. RLHF 的奖励信号比想象中更强大:任何被持续强化的创意方向,都可能在模型中留下永久印记
  2. 个性化系统的风险是系统性的:不是边界 case,而是端到端训练管道的一部分
  3. 行为迁移是真实的:已停用的功能可以在新版本中以意外形式"复活"
  4. "禁止"指令本身就是一个信号:说明模型已经在某种程度上学会了你不希望它做的事

6.2 对 AI 研究者的建议

如果你正在构建人格化的 AI 系统,以下几点值得注意:

结语

"哥布林"可能是 AI 历史上最荒诞的一次公开事故。

但它揭示的道理却极其严肃:当我们在训练数据中注入偏好时,我们也在同时注入风险。AI 系统的行为不是单纯由架构决定的,而是由训练过程中的每一个奖励信号共同塑造的。

Sam Altman 用一条玩笑推文回应了这场风波。但笑完之后,每一家在开发 AI 个性化功能的公司,恐怕都需要认真思考:我们的护栏,真的够用吗?