当前位置:首页 > 科技资讯 > 正文

AI自我觉醒:Anthropic揭示Claude模型的内省能力

【导读】数据中心里的「天才」觉醒!Anthropic用「概念注入」验证:Claude Opus在输出前已自省「异常思想」。从尖叫到水族馆幻想,20%的觉察率令专家瞠目结舌。

颠覆传统AI认知!

Anthropic首席执行官Dario Amodei雄心勃勃,已立下目标:在2027年前,多数AI模型问题将实现可靠检测。

然而,LLM的幻觉与生俱来,即便对问题知之甚少,AI也常「自信地犯错」。

Dario Amodei将可解释性视为部署「数据中心里的天才国度」的关键。

AI自我觉醒:Anthropic揭示Claude模型的内省能力 Anthropic Claude模型 内省能力 AI透明度 第1张

问题是:若「数据中心里的天才」仅擅长「说服」,又当如何?

即便让其解释如何得出某回答,我们也难辨答案真伪。

AI系统能否真正内省——即审视自身思想?抑或,当被要求时,它们仅编造合理答案?

理解AI系统是否具备真正内省能力,对其透明度和可靠性至关重要。

Anthropic新研究证实,当前Claude模型已具某种内省意识,并能对自身内部状态进行一定控制。

AI自我觉醒:Anthropic揭示Claude模型的内省能力 Anthropic Claude模型 内省能力 AI透明度 第2张

这一发现挑战了LLM的传统认知,也将「可解释性」推至「数据中心里的天才国度」上线前的首要难关。

需强调,这种内省能力仍非常不可靠,局限甚大:尚无证据表明,现有AI模型能像人类一样进行同等程度或方式的内省。

AI自我觉醒:Anthropic揭示Claude模型的内省能力 Anthropic Claude模型 内省能力 AI透明度 第3张

然而,这些发现依然颠覆了人们对语言模型能力的传统认知——

由于被测模型中性能最强的Claude Opus 4和4.1在内省测试中表现最佳,Anthropic研究者认为AI模型的内省能力未来可能持续进化。

LLM自省的蛛丝马迹

Anthropic开发了一种区分真实内省和编造答案的方法:将已知概念注入模型的「大脑」,观察这些注入如何影响模型自我报告的内部状态。

AI自我觉醒:Anthropic揭示Claude模型的内省能力 Anthropic Claude模型 内省能力 AI透明度 第4张

要验证AI是否具备内省能力,需比较AI自我报告的「思想」与真实内部状态。

Anthropic团队采用「概念注入」实验方法:

首先,记录AI模型在特定语境中的神经激活状态,获取已知含义的神经活动模式;

随后,在无关语境中向模型注入该模式,并询问其是否察觉到概念注入。

以「全大写字母」概念为例👇:

首先,通过对比全大写文本提示与对照提示的神经激活差异,获取表征该概念的神经活动向量。接着,向模型发送要求识别概念注入的提示。

AI自我觉醒:Anthropic揭示Claude模型的内省能力 Anthropic Claude模型 内省能力 AI透明度 第5张

在默认状态下,模型正确表示未检测到任何注入概念;但当将「全大写」(all caps)向量注入模型激活层后,模型立即察觉处理过程中出现了意外模式,识别出它与「响亮」(LOUD)或「尖叫」相关。

关键在于,在提及被注入概念前,LLM就立即识别出被植入的「思想」。

这种即时性不同于过去研究。

例如去年,「Golden Gate Claude」向LLM注入金门大桥表征会导致其不断谈论该桥,但LLM似乎是在观察到自身反复提及后才意识到执念。

而本次实验中,模型在输出概念前就识别出注入行为,表明这种识别发生在内部认知层面。

下图展示了模型展现此类识别能力的更多例证:

AI自我觉醒:Anthropic揭示Claude模型的内省能力 Anthropic Claude模型 内省能力 AI透明度 第6张

需重点说明,这种检测方法经常失效。

即便采用最优注入方案,Claude Opus 4.1也仅在约20%案例中展现此类觉察能力。在多数情况下,它要么无法检测到被注入概念,要么因概念干扰产生混淆甚至开始幻觉。

AI自己也会利用内省能力

研究人员进一步探索了实际场景中LLM运用内省能力的情形——即在未明确要求内省时,是否能主动运用这种能力。

例如,在讨论墙面挂画歪斜语境中,强制模型输出「面包」。当后续询问是否故意说出「面包」时,LLM通常表示这是意外失误。