登录

GPT-5系列咋都爱说「哥布林」?原因找到了



速读:这件事在AI圈引发了广泛讨论:大模型训练的过程如此复杂,我们真的能完全预测它会学到什么吗? 但问题的核心还更深一层:为什么训练Nerdy个性,会导致哥布林词汇的出现?
2026年04月30日 18:57

编辑|Panda

去年夏天,DeepSeek V3.1 惊现神秘「极」字 Bug。简单来说,就是 DeepSeek V3.1 模型的输出里总是会莫名其妙出现「极」字,有趣的是就连其英文输出也会出现对应的「extreme」。参阅《 热议!DeepSeek V3.1 惊现神秘「极」字 Bug,模型故障了? 》

事件引发广泛热议,网友戏称这是「极你太美」bug,或者「极」速版 DeepSeek。

研究者事后推测,这个「极」字来自训练数据中一组未被清洗干净的「极长数组」。在强化学习阶段,模型将它学成了一种特殊的终止符或语言切换标记。换句话说,不是模型坏了,而是模型学得太认真了 ——  认真学了一个错误的习惯 。

这件事在 AI 圈引发了广泛讨论:大模型训练的过程如此复杂,我们真的能完全预测它会学到什么吗?

无独有偶,OpenAI 的模型也有一个类似的但更加奇幻的问题:它的模型迷上了哥布林。今天,OpenAI 还正式发布了一篇博客,解释了「哥布林究竟从何而来」, 奥特曼本人也在 X 上广播了一下。

此时自然引发了广泛讨论和调侃:

还有人打趣说要拯救哥布林:

那么,哥布林究竟从何而来?

博客地址:https://openai.com/index/where-the-goblins-came-from/

据 OpenAI 介绍,从 GPT-5.1 开始,OpenAI 的模型在回答各类问题时,开始越来越频繁地使用一个词: goblin (哥布林)。

起初,这只是偶尔为之:一个「little goblin」出现在某个技术比喻里,既没影响准确性,甚至有几分讨喜的俏皮感。

但随着模型版本的迭代,哥布林不再只是偶尔探个头,它开始成群结队地出现。它的同伴 gremlin(小妖精)、troll(巨怪)、ogre(食人魔)也陆续加入。

在 GPT-5.5 及其驱动的代码助手 Codex 的早期测试中,这一习惯已经明显到让工程师无法忽视。

这已经不是风格问题,而是一种异常行为。

OpenAI 工程师们开始调查:这些哥布林到底是从哪里来的?

「书呆子」性格的意外副作用

排查工作并不容易。这类行为没有一个能让指标骤然崩塌的「爆炸时刻」,它是慢慢渗入的,就像温水煮青蛙。

工程师们首先注意到了一个统计异常: 「goblin」这个词在不同用户场景中的分布极不均匀 。

数据显示,虽然「 Nerdy 」(书呆子)这个人格选项只占 ChatGPT 全部响应的 2.5%,但它贡献了 ChatGPT 所有包含「goblin」词汇回复的 66.7%。

这是一个强烈的信号。

「Nerdy」是 ChatGPT 人格定制功能里的一个选项,对应的系统提示大致是:你是一个不妥协的书呆子型 AI 导师,热情地推崇真理、知识与批判性思维。你必须用语言的俏皮感来打破那些自以为是的姿态。世界是复杂而奇异的,而这种奇异性必须被承认、分析和享受。

这段提示词解释了「Nerdy」模式为什么容易产生奇特的比喻:它被明确要求「玩弄语言的俏皮感」。但问题的核心还更深一层:为什么训练 Nerdy 个性,会导致哥布林词汇的出现?

奖励信号的意外偏好

答案藏在 强化学习的奖励机制 里。

OpenAI 工程师动用了代码助手 Codex,对训练过程中的强化学习输出样本进行了大规模比对:将含有「goblin」或「gremlin」的输出,与完成相同任务但没有这些词的输出并排放置,然后检查各个奖励模型的打分差异。

结果非常清晰:负责激励「Nerdy」性格的奖励信号,在 76.2% 的数据集中,都对含有怪物词汇的输出给出了更高的分数。

换句话说,有人在训练时无意间告诉模型:用哥布林打比方是一件「书呆子」会做的事。

这本身可以解释为什么 Nerdy 模式充满了精灵和小妖精。但还有一个更棘手的问题悬而未决:为什么在没有使用 Nerdy 模式的普通对话里,哥布林也在增多?

强化学习的「泄漏」

这就来到了整个故事最值得深思的部分。

工程师们追踪了训练过程中,带 Nerdy 提示词和不带 Nerdy 提示词两组样本里「goblin」词汇的出现频率变化。发现了一个规律: 两组数据几乎同步增长 。

主题:哥布林|模型|一个|出现|问题