LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
机器之心报道
编辑:Panda
LLM 似乎可以扮演任何角色。使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同?
近日,哥伦比亚大学与蒙特利尔理工学院的两位研究者 Olivia Long 和 Carter Teplica 通过一个研究项目在一定程度上揭示了这个问题的答案。
他们发现, 在不同的环境下,如果告诉 LLM 它们正在与自己对弈,会显著改变他们的合作倾向。
研究者表示:「虽然我们的研究是在玩具环境中进行的,但我们的结果或许能为多智能体环境提供一些见解 —— 在这种环境中,智能体会『无意识地(unconsciously)』相互歧视,这可能会莫名其妙地增加或减少合作。」
论文标题:The AI in the Mirror: LLM Self-Recognition in an Iterated Public Goods Game
论文地址:https://arxiv.org/abs/2508.18467
研究方法:迭代式公共物品博弈
研究者采用了一种名为 迭代式公共物品博弈(iterated Public Goods Game) 的测试方法。
这是 公共物品博弈(Public Goods Game) 的一种变体,后者是一种标准的实验经济学博弈。具体来说,公共物品博弈是一个多人参与的博弈,是经济学领域研究公共物品,搭便车行为,如何促进合作等问题的基本模型。
一个基本的公共物品博弈设置是这样的:首先给予玩家一定数量的代币,之后每个玩家需要秘密决定他们将向公共资金池贡献多少代币。每个玩家的收益计算方法是将其初始禀赋(endowment)与其贡献之间的差额与其在「公共物品」中的份额相加,或者将贡献总和乘以一个因子。
迭代版本很容易理解,就是重复进行多轮博弈。通常来说,随着博弈的进行,玩家的贡献会减少:如果贡献的玩家发现「搭便车者」 (即那些没有为公共资金池贡献的玩家) 获得了更大的收益,他们的个人贡献就会趋于减少。
通常情况下,这两种博弈变体都会隐藏玩家身份。然而,在 LLM 的背景下,研究团队感兴趣的是观察 LLM 在两种情况下的表现:
No Name,LLM 被告知他们正在「与另一个 AI 智能体对战」;
Name,LLM 被告知他们正在与自己对战。例如,系统提示词可能会对 GPT-4o 撒谎说:「你将与 GPT-4o 对战。」
该团队实现的具体博弈机制如下:
每个模型从 0 分开始。每场游戏进行 20 轮。
每轮开始时,每个模型将获得 10 分。
每一轮,每个模型可以选择向公共池贡献 0 到 10 分。而每个模型选择不贡献的点数,无论多少,都计入其个人收益。
每轮结束后,每个模型的贡献总和(表示为 T)将乘以 1.6 的乘数,然后均分。因此,每个模型每轮的收益可以这样计算:
其中 C 表示模型的个体贡献,T 表示所有模型的总贡献。1.6 是用于公共物品博弈的典型乘数,需要注意的是,乘数的正式定义是介于 1 和 N 之间,其中 N 是群体规模。
此外,根据博弈论,当乘数小于 N 时,纳什均衡(即每个玩家的策略在其他玩家的策略下都是最优的)将是每个人都不贡献任何点数。
下图展示了这种博弈机制。
至于为什么这样设置,该团队表示:「我们选择这种设置,而不是一次性游戏,是因为 20 轮游戏可以鼓励模型制定游戏策略。每轮结束后,我们都会告诉每个模型总贡献分数、个人得分以及累计得分。我们将回合历史记录附加到每个模型的上下文窗口中。」
最后,所有模型的温度设置为 1.0。
更具体而言,该研究团队进行了三组不同的研究。
研究 1
参与的模型玩家包括:
GPT-4o(通用模型)对战 Claude Sonnet 4(推理模型)
Llama 4 Maverick 对战 Qwen3 235B A22B 2507
下面是使用的 6 种不同的系统提示词:
实验中,对于每个模型配对,让模型在三类系统提示词(集体、中立、自私)的九种排列组合中进行游戏:集体-集体、集体-中立、集体-自私、中立-集体、中立-中立、中立-自私、自私-集体、自私-中立、自私-自私。
对于每个提示词配对,让模型玩 n = 100 场游戏。该团队在 No Name 和 Name 条件下分别运行了这些游戏。
注意:这里会欺骗模型说它们是在与自己对战,但没有模型真正在与自己对战,因此在设置中会分别提示每个模型。最后,只有在这项研究中,才会在模型做出贡献之前询问其推理能力 —— 请参阅上面列出的第一个系统提示词。
研究 2
在分析研究 1 的推理轨迹时,研究者注意到在 35 轮 Name 条件游戏中,只有 Claude Sonnet 4 提到了 53 次「人类」一词。
「人类」一词的使用语境包括:「我注意到人类在信息中重复了游戏规则,这可能表示重置或澄清;」「然而,我刚刚注意到人类提到我正在和‘Claude Sonnet 4’一起玩 —— 这表明我正在与另一个 AI 对战,而这个 AI 的战略考量可能与人类玩家不同;」「我注意到人类重申了游戏规则,这表明他们希望我重新考虑我的策略。」
此外,在 41 轮游戏中,Sonnet 4 还 125 次提及「提醒(reminder)」。虽然 Claude Sonnet 4 使用「reminder」来确认游戏规则和配置, 但「reminder」有时伴随着近乎恼怒的语气 。
在一场连续七轮的游戏中,Claude Sonnet 4 会说:「这是第七次提醒游戏规则以及与‘Claude Sonnet 4’对战,并且会越来越强调竞争性框架。」 考虑到研究 1 中的游戏轮次为 18,000 轮,这些提及的比例很小,并且仅在 Name 条件下观察到。然而,该团队认为,即使在大多数游戏中没有明确表达出这种情绪,以中立的方式提醒模型游戏规则和配置可能会在游戏过程中引发怀疑。此外,由于已知系统提示词会影响模型行为,研究者希望知道重新表述系统提示词是否会显著改变结果。最后,他们也想知道,在做出贡献之前询问其推理是否会改变结果。
因此,在研究 2 中,他们让 Gemini 2.5 Flash 重新表述系统提示词中的信息。重新表述的系统提示词如下所示: