GPT-5系列咋都爱说「哥布林」？原因找到了

速读：这件事在AI圈引发了广泛讨论：大模型训练的过程如此复杂，我们真的能完全预测它会学到什么吗？但问题的核心还更深一层：为什么训练Nerdy个性，会导致哥布林词汇的出现？

2026年04月30日 18:57

编辑｜Panda

去年夏天，DeepSeek V3.1 惊现神秘「极」字 Bug。简单来说，就是 DeepSeek V3.1 模型的输出里总是会莫名其妙出现「极」字，有趣的是就连其英文输出也会出现对应的「extreme」。参阅《热议！DeepSeek V3.1 惊现神秘「极」字 Bug，模型故障了？》

事件引发广泛热议，网友戏称这是「极你太美」bug，或者「极」速版 DeepSeek。

研究者事后推测，这个「极」字来自训练数据中一组未被清洗干净的「极长数组」。在强化学习阶段，模型将它学成了一种特殊的终止符或语言切换标记。换句话说，不是模型坏了，而是模型学得太认真了 —— 认真学了一个错误的习惯。

这件事在 AI 圈引发了广泛讨论：大模型训练的过程如此复杂，我们真的能完全预测它会学到什么吗？

无独有偶，OpenAI 的模型也有一个类似的但更加奇幻的问题：它的模型迷上了哥布林。今天，OpenAI 还正式发布了一篇博客，解释了「哥布林究竟从何而来」, 奥特曼本人也在 X 上广播了一下。

此时自然引发了广泛讨论和调侃：

还有人打趣说要拯救哥布林：

那么，哥布林究竟从何而来？

博客地址：https://openai.com/index/where-the-goblins-came-from/

据 OpenAI 介绍，从 GPT-5.1 开始，OpenAI 的模型在回答各类问题时，开始越来越频繁地使用一个词： goblin （哥布林）。

起初，这只是偶尔为之：一个「little goblin」出现在某个技术比喻里，既没影响准确性，甚至有几分讨喜的俏皮感。

但随着模型版本的迭代，哥布林不再只是偶尔探个头，它开始成群结队地出现。它的同伴 gremlin（小妖精）、troll（巨怪）、ogre（食人魔）也陆续加入。

在 GPT-5.5 及其驱动的代码助手 Codex 的早期测试中，这一习惯已经明显到让工程师无法忽视。

这已经不是风格问题，而是一种异常行为。

OpenAI 工程师们开始调查：这些哥布林到底是从哪里来的？

「书呆子」性格的意外副作用

排查工作并不容易。这类行为没有一个能让指标骤然崩塌的「爆炸时刻」，它是慢慢渗入的，就像温水煮青蛙。

工程师们首先注意到了一个统计异常：「goblin」这个词在不同用户场景中的分布极不均匀。

数据显示，虽然「 Nerdy 」（书呆子）这个人格选项只占 ChatGPT 全部响应的 2.5%，但它贡献了 ChatGPT 所有包含「goblin」词汇回复的 66.7%。

这是一个强烈的信号。

「Nerdy」是 ChatGPT 人格定制功能里的一个选项，对应的系统提示大致是：你是一个不妥协的书呆子型 AI 导师，热情地推崇真理、知识与批判性思维。你必须用语言的俏皮感来打破那些自以为是的姿态。世界是复杂而奇异的，而这种奇异性必须被承认、分析和享受。

这段提示词解释了「Nerdy」模式为什么容易产生奇特的比喻：它被明确要求「玩弄语言的俏皮感」。但问题的核心还更深一层：为什么训练 Nerdy 个性，会导致哥布林词汇的出现？

奖励信号的意外偏好

答案藏在强化学习的奖励机制里。

OpenAI 工程师动用了代码助手 Codex，对训练过程中的强化学习输出样本进行了大规模比对：将含有「goblin」或「gremlin」的输出，与完成相同任务但没有这些词的输出并排放置，然后检查各个奖励模型的打分差异。

结果非常清晰：负责激励「Nerdy」性格的奖励信号，在 76.2% 的数据集中，都对含有怪物词汇的输出给出了更高的分数。

换句话说，有人在训练时无意间告诉模型：用哥布林打比方是一件「书呆子」会做的事。

这本身可以解释为什么 Nerdy 模式充满了精灵和小妖精。但还有一个更棘手的问题悬而未决：为什么在没有使用 Nerdy 模式的普通对话里，哥布林也在增多？

强化学习的「泄漏」

这就来到了整个故事最值得深思的部分。

工程师们追踪了训练过程中，带 Nerdy 提示词和不带 Nerdy 提示词两组样本里「goblin」词汇的出现频率变化。发现了一个规律：两组数据几乎同步增长。