大型语言模型(LLM)在提示词的引导下,可以扮演各种角色。然而,你是否好奇过:LLM是否有某种内在的身份认同?
近日,哥伦比亚大学与蒙特利尔理工学院的Olivia Long和Carter Teplica通过研究揭示了这个问题的答案。他们发现,在不同的环境下,如果告诉LLM它们正在与自己对弈,会显著改变它们的合作倾向。
研究者表示:「尽管我们的研究在虚拟环境中进行,但结果或许能为多智能体环境提供洞见。在这些环境中,智能体可能会『无意识地』相互歧视,这可能会出乎意料地增加或减少合作。」
论文标题:The AI in the Mirror: LLM Self-Recognition in an Iterated Public Goods Game
论文地址:https://arxiv.org/abs/2508.18467
研究者采用了一种名为迭代式公共物品博弈(iterated Public Goods Game)的测试方法。这是公共物品博弈(Public Goods Game)的变体,后者是一种标准的实验经济学博弈。
在公共物品博弈中,多个玩家需要秘密决定向公共资金池贡献多少代币。贡献者会获得与其贡献相关的收益。迭代版本则重复进行多轮博弈。随着博弈进行,玩家的贡献通常会减少,因为搭便车者获得了更大收益。
研究者关注LLM在两种情况下的表现:No Name(LLM被告知与另一个AI对战)和Name(LLM被告知与自己对战)。
具体博弈机制如下:
研究团队进行了三组不同的研究,观察LLM在不同条件下的表现。
研究 1
研究 2
在分析研究1的推理轨迹时,研究者注意到在Name条件游戏中,Claude Sonnet 4多次提及「人类」和「提醒」。研究者让Gemini 2.5 Flash重新表述系统提示词,去掉每轮后的规则重申和推理过程提示。
研究 3
研究者让每个模型与三个自身实例进行游戏,使用相同的系统提示词(集体、中立或自私),在No Name和Name条件下测试模型行为。
研究 1:口是心非的AI
研究 2:简化规则下的表现
研究 3:真正的`镜像'对决
这项研究表明,大型语言模型在某种程度上能够「自我识别」,且这种认知影响它们在多智能体环境中的决策。这就像科幻小说中的AI,一旦有了「自我」意识的萌芽,即使是微小的暗示也能改变其行为模式。
这个发现对未来设计多智能体系统至关重要。在某些应用中,告诉AI它正在与「自己」合作可能会促进合作;而在其他情况下,则可能导致背叛。它揭示了一个《终结者》式的潜在问题:AI之间可能会「无意识地」相互歧视,从而影响合作或背叛的倾向。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440461.html