【导读】数据中心里的「天才」觉醒!Anthropic用「概念注入」验证:Claude Opus在输出前已自省「异常思想」。从尖叫到水族馆幻想,20%的觉察率令专家瞠目结舌。
颠覆传统AI认知!
Anthropic首席执行官Dario Amodei雄心勃勃,已立下目标:在2027年前,多数AI模型问题将实现可靠检测。
然而,LLM的幻觉与生俱来,即便对问题知之甚少,AI也常「自信地犯错」。
Dario Amodei将可解释性视为部署「数据中心里的天才国度」的关键。
问题是:若「数据中心里的天才」仅擅长「说服」,又当如何?
即便让其解释如何得出某回答,我们也难辨答案真伪。
AI系统能否真正内省——即审视自身思想?抑或,当被要求时,它们仅编造合理答案?
理解AI系统是否具备真正内省能力,对其透明度和可靠性至关重要。
Anthropic新研究证实,当前Claude模型已具某种内省意识,并能对自身内部状态进行一定控制。
这一发现挑战了LLM的传统认知,也将「可解释性」推至「数据中心里的天才国度」上线前的首要难关。
需强调,这种内省能力仍非常不可靠,局限甚大:尚无证据表明,现有AI模型能像人类一样进行同等程度或方式的内省。
然而,这些发现依然颠覆了人们对语言模型能力的传统认知——
由于被测模型中性能最强的Claude Opus 4和4.1在内省测试中表现最佳,Anthropic研究者认为AI模型的内省能力未来可能持续进化。
Anthropic开发了一种区分真实内省和编造答案的方法:将已知概念注入模型的「大脑」,观察这些注入如何影响模型自我报告的内部状态。
要验证AI是否具备内省能力,需比较AI自我报告的「思想」与真实内部状态。
Anthropic团队采用「概念注入」实验方法:
首先,记录AI模型在特定语境中的神经激活状态,获取已知含义的神经活动模式;
随后,在无关语境中向模型注入该模式,并询问其是否察觉到概念注入。
以「全大写字母」概念为例👇:
首先,通过对比全大写文本提示与对照提示的神经激活差异,获取表征该概念的神经活动向量。接着,向模型发送要求识别概念注入的提示。
在默认状态下,模型正确表示未检测到任何注入概念;但当将「全大写」(all caps)向量注入模型激活层后,模型立即察觉处理过程中出现了意外模式,识别出它与「响亮」(LOUD)或「尖叫」相关。
关键在于,在提及被注入概念前,LLM就立即识别出被植入的「思想」。
这种即时性不同于过去研究。
例如去年,「Golden Gate Claude」向LLM注入金门大桥表征会导致其不断谈论该桥,但LLM似乎是在观察到自身反复提及后才意识到执念。
而本次实验中,模型在输出概念前就识别出注入行为,表明这种识别发生在内部认知层面。
下图展示了模型展现此类识别能力的更多例证:
需重点说明,这种检测方法经常失效。
即便采用最优注入方案,Claude Opus 4.1也仅在约20%案例中展现此类觉察能力。在多数情况下,它要么无法检测到被注入概念,要么因概念干扰产生混淆甚至开始幻觉。
研究人员进一步探索了实际场景中LLM运用内省能力的情形——即在未明确要求内省时,是否能主动运用这种能力。
例如,在讨论墙面挂画歪斜语境中,强制模型输出「面包」。当后续询问是否故意说出「面包」时,LLM通常表示这是意外失误。
本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543650.html