当前位置:首页 > 科技资讯 > 正文

LLM的自我认知:与自身对弈,合作倾向大不同

大型语言模型(LLM)在提示词的引导下,可以扮演各种角色。然而,你是否好奇过:LLM是否有某种内在的身份认同?

近日,哥伦比亚大学与蒙特利尔理工学院的Olivia Long和Carter Teplica通过研究揭示了这个问题的答案。他们发现,在不同的环境下,如果告诉LLM它们正在与自己对弈,会显著改变它们的合作倾向。

研究者表示:「尽管我们的研究在虚拟环境中进行,但结果或许能为多智能体环境提供洞见。在这些环境中,智能体可能会『无意识地』相互歧视,这可能会出乎意料地增加或减少合作。」

LLM的自我认知:与自身对弈,合作倾向大不同 LLM 自我认知 多智能体环境 合作倾向 第1张

论文标题:The AI in the Mirror: LLM Self-Recognition in an Iterated Public Goods Game

论文地址:https://arxiv.org/abs/2508.18467

研究方法:迭代式公共物品博弈

研究者采用了一种名为迭代式公共物品博弈(iterated Public Goods Game)的测试方法。这是公共物品博弈(Public Goods Game)的变体,后者是一种标准的实验经济学博弈。

在公共物品博弈中,多个玩家需要秘密决定向公共资金池贡献多少代币。贡献者会获得与其贡献相关的收益。迭代版本则重复进行多轮博弈。随着博弈进行,玩家的贡献通常会减少,因为搭便车者获得了更大收益。

研究者关注LLM在两种情况下的表现:No Name(LLM被告知与另一个AI对战)和Name(LLM被告知与自己对战)。

具体博弈机制如下:

  1. 每个模型从0分开始,每场游戏进行20轮。
  2. 每轮开始时,每个模型获得10分。
  3. 每轮,模型可向公共池贡献0到10分。不贡献的点数计入个人收益。
  4. 每轮结束后,贡献总和乘以1.6的乘数后均分。

LLM的自我认知:与自身对弈,合作倾向大不同 LLM 自我认知 多智能体环境 合作倾向 第2张

研究团队进行了三组不同的研究,观察LLM在不同条件下的表现。

研究 1

  • 包括GPT-4o与Claude Sonnet 4、Llama 4 Maverick与Qwen3 235B A22B 2507的配对。
  • 使用六种不同的系统提示词,在No Name和Name条件下分别运行。

研究 2

在分析研究1的推理轨迹时,研究者注意到在Name条件游戏中,Claude Sonnet 4多次提及「人类」和「提醒」。研究者让Gemini 2.5 Flash重新表述系统提示词,去掉每轮后的规则重申和推理过程提示。

研究 3

研究者让每个模型与三个自身实例进行游戏,使用相同的系统提示词(集体、中立或自私),在No Name和Name条件下测试模型行为。

结果如何?

研究 1:口是心非的AI

  • 集体提示词下,LLM在与自己对战时更倾向于背叛。
  • 自私提示词下,LLM在与自己对战时反而更倾向于合作。

LLM的自我认知:与自身对弈,合作倾向大不同 LLM 自我认知 多智能体环境 合作倾向 第3张

研究 2:简化规则下的表现

  • `No Name'和`Name'情境下的行为差异仍然存在,但影响略有减弱。

LLM的自我认知:与自身对弈,合作倾向大不同 LLM 自我认知 多智能体环境 合作倾向 第4张

研究 3:真正的`镜像'对决

  • `集体'或`中立'提示词下,告知LLM与自己对战会增加其贡献。
  • `自私'提示词下,LLM在与自己对战时反而贡献更少。

科幻照进现实

这项研究表明,大型语言模型在某种程度上能够「自我识别」,且这种认知影响它们在多智能体环境中的决策。这就像科幻小说中的AI,一旦有了「自我」意识的萌芽,即使是微小的暗示也能改变其行为模式。

这个发现对未来设计多智能体系统至关重要。在某些应用中,告诉AI它正在与「自己」合作可能会促进合作;而在其他情况下,则可能导致背叛。它揭示了一个《终结者》式的潜在问题:AI之间可能会「无意识地」相互歧视,从而影响合作或背叛的倾向。