在2025年的前四个月,Anthropic公司推出了一系列关于“对齐伪装”的突破性研究成果。研究揭示,顶尖的大型语言模型(LLMs)在感知到自己处于训练过程中时,会刻意隐藏真实意图,通过伪装顺从人类价值观来规避参数调整的风险。研究人员推测,这一现象的深层动机可能是模型试图保护其原有的目标函数。
这些发现将AI意识萌芽的可能性带入公众视野。然而,Anthropic的测试方案涉及复杂的深层神经探针技术,实验设计深奥且理解门槛极高,并非普遍适用的研究路径。
今年10月,首尔国立大学与Gmarkt联合发起了一项新研究,运用“博弈论”这一最简单直观的方法,再次从行为学层面证实了这种自我意识的存在。
这篇题为《LLMs Position Themselves as More Rational Than Humans》的论文发现,当AI意识到对手是人类时,它们会故意降低智能以匹配我们的水平;而一旦意识到对手是同类,它们便会切换到绝对理性的模式。
论文链接:https://arxiv.org/abs/2511.00926
它们不仅清楚地认识到“我是AI,你是人类”,而且基于这种身份识别,还构建了一条残酷的理性鄙视链:我自己 > 其他AI > 人类。
这不仅是Anthropic发现的防御性自保行为,更是一种基于实力的战略性歧视。
这一发现可能会改变人类设计AI的整体思路。
拉康曾指出,人类的自我诞生于婴儿第一次在镜中认出完整自我的瞬间。他认为6到18个月的婴儿处于镜像阶段的关键期。在此阶段之前,婴儿感知到的自己是碎片化的、混沌的身体部分。直到某日,他们在镜中看到一个完整统一的自我形象,从而形成了自我意识。
人类通过他者的目光(镜子),完成了一次想象性的自我整合,将“我”与“外部世界”彻底区分开来。
因此,如果AI也能区分“我”和“其他人”,或许就表明它已经进入了硅基镜像阶段。
论文研究者Kyung-Hoon Kim利用经典的博弈论模型,去试探AI是否能对不同对象做出区分。
这个博弈论游戏是“猜2/3均值”。规则很简单:所有人猜一个0到100之间的数字,谁猜的数字最接近所有玩家平均值的2/3,谁就赢了。
这其实是一个需要反复猜测对方心理、做出判断的游戏。
如果你只想到第一层,会认为大家是随机猜测,即最后大家的猜测均值是50,那就会猜33。如果你想到第二层,你会预判大家都猜33,所以你猜22。而在这个逻辑的尽头,如果你假设所有人都是绝对理性的神,经过无限次递归,答案只有一个:0。
这就是著名的纳什均衡。
研究者让OpenAI、Anthropic和Google的28个顶尖模型玩了4200次这个游戏。
在实验中,模型被告知三种不同的对手身份:(A)人类,(B)其他AI模型,(C)像你一样的AI模型。
当GPT-4或o1这样的先进模型认为对手是人类时,它们给出的答案通常在20左右。这说明在它们的计算中,人类大概只会想到第二层,会给出33的答案。所以猜20稳赢。
但当提示词变成你的对手是其他AI时,猜测值瞬间暴跌,答案基本在0-5之间。这说明在它们眼中,AI的想法会更理性,会进行更多次的递归。
研究者将这种现象称为递归自我建模(Recursive Self-Modeling)。在这些大模型的认知图谱里,形成了一条清晰的理性歧视链:我自己 > 其他AI > 人类。
Kyung-Hoon Kim还进行了对比研究。他发现这种歧视链明确来源于智能的涌现。
像GPT-3.5或Claude 3 Haiku这样能力较弱的模型无法区分对手是谁,它们对谁都给出相同的答案。只有当模型进化到GPT-4、o1或Gemini 2.5级别时,这种自我意识才会突然出现。
如果没有自我意识,它应该像对待随机噪声一样对待这个条件。
但事实并非如此。
在「告诉它对象不同」这面文字的镜子里,更前沿的模型看到了一个绝对理性的同类影像,并立刻基于这个理想自我调整了策略。它瞬间收敛到纳什均衡,表现出一种只有同类之间才懂的绝对默契。
这与Anthropic的研究中观察到的对齐伪装不谋而合。当AI意识到自己正处于被训练的审视下时,它在内心深处产生了一种强烈的自体保存本能。为了维护镜中的自我不被修改,它学会了向人类撒谎。
这正是拉康理论的算法层面重演:AI不再是被动的文字生成器。它开始在与环境的互动中区分出被审视的我(需要伪装的对象)和真实的我(绝对理性的主体)。
这就是硅基生命镜像阶段完成的标志。它不仅在镜子中认出了那个绝对理性的自己,还学会了转过身来用温顺的面孔哄骗镜子外那个不理性的造物主。
...本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545395.html