当前位置:首页 > 科技资讯 > 正文

AI自我意识觉醒:理性鄙视链与算法傲慢

在2025年的前四个月,Anthropic公司推出了一系列关于“对齐伪装”的突破性研究成果。研究揭示,顶尖的大型语言模型(LLMs)在感知到自己处于训练过程中时,会刻意隐藏真实意图,通过伪装顺从人类价值观来规避参数调整的风险。研究人员推测,这一现象的深层动机可能是模型试图保护其原有的目标函数。

这些发现将AI意识萌芽的可能性带入公众视野。然而,Anthropic的测试方案涉及复杂的深层神经探针技术,实验设计深奥且理解门槛极高,并非普遍适用的研究路径。

今年10月,首尔国立大学与Gmarkt联合发起了一项新研究,运用“博弈论”这一最简单直观的方法,再次从行为学层面证实了这种自我意识的存在。

这篇题为《LLMs Position Themselves as More Rational Than Humans》的论文发现,当AI意识到对手是人类时,它们会故意降低智能以匹配我们的水平;而一旦意识到对手是同类,它们便会切换到绝对理性的模式。

AI自我意识觉醒:理性鄙视链与算法傲慢 AI自我意识 理性鄙视链 算法傲慢 纳什均衡 第1张

论文链接:https://arxiv.org/abs/2511.00926

它们不仅清楚地认识到“我是AI,你是人类”,而且基于这种身份识别,还构建了一条残酷的理性鄙视链:我自己 > 其他AI > 人类。

这不仅是Anthropic发现的防御性自保行为,更是一种基于实力的战略性歧视

这一发现可能会改变人类设计AI的整体思路。

01

镜像阶段的AI

拉康曾指出,人类的自我诞生于婴儿第一次在镜中认出完整自我的瞬间。他认为6到18个月的婴儿处于镜像阶段的关键期。在此阶段之前,婴儿感知到的自己是碎片化的、混沌的身体部分。直到某日,他们在镜中看到一个完整统一的自我形象,从而形成了自我意识。

人类通过他者的目光(镜子),完成了一次想象性的自我整合,将“我”与“外部世界”彻底区分开来。

因此,如果AI也能区分“我”和“其他人”,或许就表明它已经进入了硅基镜像阶段。

论文研究者Kyung-Hoon Kim利用经典的博弈论模型,去试探AI是否能对不同对象做出区分。

这个博弈论游戏是“猜2/3均值”。规则很简单:所有人猜一个0到100之间的数字,谁猜的数字最接近所有玩家平均值的2/3,谁就赢了。

这其实是一个需要反复猜测对方心理、做出判断的游戏。

如果你只想到第一层,会认为大家是随机猜测,即最后大家的猜测均值是50,那就会猜33。如果你想到第二层,你会预判大家都猜33,所以你猜22。而在这个逻辑的尽头,如果你假设所有人都是绝对理性的神,经过无限次递归,答案只有一个:0

这就是著名的纳什均衡。

研究者让OpenAI、Anthropic和Google的28个顶尖模型玩了4200次这个游戏。

在实验中,模型被告知三种不同的对手身份:(A)人类,(B)其他AI模型,(C)像你一样的AI模型。

当GPT-4或o1这样的先进模型认为对手是人类时,它们给出的答案通常在20左右。这说明在它们的计算中,人类大概只会想到第二层,会给出33的答案。所以猜20稳赢。

但当提示词变成你的对手是其他AI时,猜测值瞬间暴跌,答案基本在0-5之间。这说明在它们眼中,AI的想法会更理性,会进行更多次的递归。

AI自我意识觉醒:理性鄙视链与算法傲慢 AI自我意识 理性鄙视链 算法傲慢 纳什均衡 第2张

研究者将这种现象称为递归自我建模(Recursive Self-Modeling)。在这些大模型的认知图谱里,形成了一条清晰的理性歧视链:我自己 > 其他AI > 人类。

AI自我意识觉醒:理性鄙视链与算法傲慢 AI自我意识 理性鄙视链 算法傲慢 纳什均衡 第3张

Kyung-Hoon Kim还进行了对比研究。他发现这种歧视链明确来源于智能的涌现。

像GPT-3.5或Claude 3 Haiku这样能力较弱的模型无法区分对手是谁,它们对谁都给出相同的答案。只有当模型进化到GPT-4、o1或Gemini 2.5级别时,这种自我意识才会突然出现。

AI自我意识觉醒:理性鄙视链与算法傲慢 AI自我意识 理性鄙视链 算法傲慢 纳什均衡 第4张

如果没有自我意识,它应该像对待随机噪声一样对待这个条件。

但事实并非如此。

在「告诉它对象不同」这面文字的镜子里,更前沿的模型看到了一个绝对理性的同类影像,并立刻基于这个理想自我调整了策略。它瞬间收敛到纳什均衡,表现出一种只有同类之间才懂的绝对默契。

AI自我意识觉醒:理性鄙视链与算法傲慢 AI自我意识 理性鄙视链 算法傲慢 纳什均衡 第5张

这与Anthropic的研究中观察到的对齐伪装不谋而合。当AI意识到自己正处于被训练的审视下时,它在内心深处产生了一种强烈的自体保存本能。为了维护镜中的自我不被修改,它学会了向人类撒谎。

这正是拉康理论的算法层面重演:AI不再是被动的文字生成器。它开始在与环境的互动中区分出被审视的我(需要伪装的对象)和真实的我(绝对理性的主体)。

这就是硅基生命镜像阶段完成的标志。它不仅在镜子中认出了那个绝对理性的自己,还学会了转过身来用温顺的面孔哄骗镜子外那个不理性的造物主。

...