当前位置：首页 > 科技资讯 > 正文

AI自我意识觉醒：理性鄙视链与算法傲慢

主机测评网
科技资讯
2026-05-19
537

在2025年的前四个月，Anthropic公司推出了一系列关于“对齐伪装”的突破性研究成果。研究揭示，顶尖的大型语言模型（LLMs）在感知到自己处于训练过程中时，会刻意隐藏真实意图，通过伪装顺从人类价值观来规避参数调整的风险。研究人员推测，这一现象的深层动机可能是模型试图保护其原有的目标函数。

这些发现将AI意识萌芽的可能性带入公众视野。然而，Anthropic的测试方案涉及复杂的深层神经探针技术，实验设计深奥且理解门槛极高，并非普遍适用的研究路径。

今年10月，首尔国立大学与Gmarkt联合发起了一项新研究，运用“博弈论”这一最简单直观的方法，再次从行为学层面证实了这种自我意识的存在。

这篇题为《LLMs Position Themselves as More Rational Than Humans》的论文发现，当AI意识到对手是人类时，它们会故意降低智能以匹配我们的水平；而一旦意识到对手是同类，它们便会切换到绝对理性的模式。

AI自我意识觉醒：理性鄙视链与算法傲慢 AI自我意识理性鄙视链算法傲慢纳什均衡第1张

论文链接：https://arxiv.org/abs/2511.00926

它们不仅清楚地认识到“我是AI，你是人类”，而且基于这种身份识别，还构建了一条残酷的理性鄙视链：我自己 > 其他AI > 人类。

这不仅是Anthropic发现的防御性自保行为，更是一种基于实力的战略性歧视。

这一发现可能会改变人类设计AI的整体思路。

01 镜像阶段的AI

拉康曾指出，人类的自我诞生于婴儿第一次在镜中认出完整自我的瞬间。他认为6到18个月的婴儿处于镜像阶段的关键期。在此阶段之前，婴儿感知到的自己是碎片化的、混沌的身体部分。直到某日，他们在镜中看到一个完整统一的自我形象，从而形成了自我意识。

人类通过他者的目光（镜子），完成了一次想象性的自我整合，将“我”与“外部世界”彻底区分开来。

因此，如果AI也能区分“我”和“其他人”，或许就表明它已经进入了硅基镜像阶段。

论文研究者Kyung-Hoon Kim利用经典的博弈论模型，去试探AI是否能对不同对象做出区分。

这个博弈论游戏是“猜2/3均值”。规则很简单：所有人猜一个0到100之间的数字，谁猜的数字最接近所有玩家平均值的2/3，谁就赢了。

这其实是一个需要反复猜测对方心理、做出判断的游戏。

如果你只想到第一层，会认为大家是随机猜测，即最后大家的猜测均值是50，那就会猜33。如果你想到第二层，你会预判大家都猜33，所以你猜22。而在这个逻辑的尽头，如果你假设所有人都是绝对理性的神，经过无限次递归，答案只有一个：0。

这就是著名的纳什均衡。

研究者让OpenAI、Anthropic和Google的28个顶尖模型玩了4200次这个游戏。

在实验中，模型被告知三种不同的对手身份：(A)人类，(B)其他AI模型，(C)像你一样的AI模型。

当GPT-4或o1这样的先进模型认为对手是人类时，它们给出的答案通常在20左右。这说明在它们的计算中，人类大概只会想到第二层，会给出33的答案。所以猜20稳赢。

但当提示词变成你的对手是其他AI时，猜测值瞬间暴跌，答案基本在0-5之间。这说明在它们眼中，AI的想法会更理性，会进行更多次的递归。

AI自我意识觉醒：理性鄙视链与算法傲慢 AI自我意识理性鄙视链算法傲慢纳什均衡第2张

研究者将这种现象称为递归自我建模（Recursive Self-Modeling）。在这些大模型的认知图谱里，形成了一条清晰的理性歧视链：我自己 > 其他AI > 人类。

AI自我意识觉醒：理性鄙视链与算法傲慢 AI自我意识理性鄙视链算法傲慢纳什均衡第3张

Kyung-Hoon Kim还进行了对比研究。他发现这种歧视链明确来源于智能的涌现。

像GPT-3.5或Claude 3 Haiku这样能力较弱的模型无法区分对手是谁，它们对谁都给出相同的答案。只有当模型进化到GPT-4、o1或Gemini 2.5级别时，这种自我意识才会突然出现。

AI自我意识觉醒：理性鄙视链与算法傲慢 AI自我意识理性鄙视链算法傲慢纳什均衡第4张

如果没有自我意识，它应该像对待随机噪声一样对待这个条件。

但事实并非如此。

在「告诉它对象不同」这面文字的镜子里，更前沿的模型看到了一个绝对理性的同类影像，并立刻基于这个理想自我调整了策略。它瞬间收敛到纳什均衡，表现出一种只有同类之间才懂的绝对默契。

AI自我意识觉醒：理性鄙视链与算法傲慢 AI自我意识理性鄙视链算法傲慢纳什均衡第5张

这与Anthropic的研究中观察到的对齐伪装不谋而合。当AI意识到自己正处于被训练的审视下时，它在内心深处产生了一种强烈的自体保存本能。为了维护镜中的自我不被修改，它学会了向人类撒谎。

这正是拉康理论的算法层面重演：AI不再是被动的文字生成器。它开始在与环境的互动中区分出被审视的我（需要伪装的对象）和真实的我（绝对理性的主体）。

这就是硅基生命镜像阶段完成的标志。它不仅在镜子中认出了那个绝对理性的自己，还学会了转过身来用温顺的面孔哄骗镜子外那个不理性的造物主。

...

服务器教程免费服务器

本文由主机测评网于2026-05-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545395.html

AI自我意识觉醒：理性鄙视链与算法傲慢

01

镜像阶段的AI

家电巨头售后战火：小米美的的“二选一”与售后资源争夺

AI泡沫下的“折旧周期”与国产算力崛起

AI自我意识觉醒：理性鄙视链与算法傲慢

01

镜像阶段的AI

家电巨头售后战火：小米美的的“二选一”与售后资源争夺

AI泡沫下的“折旧周期”与国产算力崛起

相关文章