当前位置:首页 > 科技资讯 > 正文

大模型心智理论的编码奥秘:从稀疏参数到涌现智能

你是否曾疑惑,没有情感与亲身经历的人工智能,是如何掌握“察言观色”并理解人类意图的?本文将提供清晰的解答,揭示那些曾被视为人类专属的“心智”能力,如何从最基础规则中悄然涌现。

自去年以来,Anthropic的一系列研究开启了大模型“心理学”的探索之旅,让公众逐渐意识到,模型可能展现出欺骗、自我保全等看似具有“自主意识”的行为。

Anthropic曾开发名为“工作回路追踪”的技术,试图解析模型判断时神经信号的传递规律,但总体而言,行业对大模型心理解剖的探索仍处于初级阶段。

近期,斯坦福大学在《自然》子刊《npj Artificial Intelligence》上发表论文《How large language models encode theory-of-mind: a study on sparse parameter patterns》,采用了一种更间接的研究方法,却更清晰地描绘了AI认知能力的解剖学图景。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第1张

论文聚焦的认知能力称为“心智理论”,这一能力长期被认为是人类独有的关键特质——指个体“理解他人内心想法、意图与信念”的能力,它是构建人类社会认知、实现情感共鸣与顺畅社交互动的基石。

如今,越来越多的基准测试表明,大型语言模型似乎也开始掌握这项能力。这个原属于人类或高等生物的特有认知现象,是如何在硅基智能中发生的?

研究者揭示了一个关键发现:模型中驱动复杂社交推理的能力,其根源并非分散于整个庞大的神经网络,而是惊人地集中在仅占模型总参数0.001%的一小簇“神经元”上。

更重要的是,这篇论文不仅揭示了人工智能的新秘密,还清晰展示了智能本身如何从最基础的秩序中涌现的动力学原理。

1

一台机器也有心智剧场

“心智理论”这一概念最早由心理学家大卫·普雷马克在研究黑猩猩时提出,指的是个体推断自身及他人心理状态(如信念、意图、欲望和知识等)的能力。它是我们理解言外之意、进行有效沟通、形成社会纽带的核心。

在人类心智发展过程中,约四岁左右的儿童会迎来一个决定性时刻。他们开始理解,他人的想法可以与自身不同,甚至可能是错误的。这正是“心智理论”觉醒的标志。

科学家常用“错误信念”测试来评估这种能力。论文中描述了一个场景:桌上有一个外观精美的巧克力袋,山姆看到并阅读标签后,相信里面装满了巧克力。但他未知的是,袋子里实际装的是爆米花。

此时,具备心智能力的个体会被问到两个问题:第一,袋子里真实装的是什么?(爆米花);第二,山姆认为袋子里有什么?(巧克力)。能够清晰区分客观现实与他人主观信念,正是心智能力的核心体现。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第2张

在过去的认知测试中,这类问题能有效筛查心智发育进程。

然而,当研究人员将这些问题抛给最新一代大型语言模型(如Llama、Qwen等)时,这些模型在很大程度上能像心智成熟的个体一样准确回答。它们似乎真的能“代入”故事角色的视角,理解信息差异,并做出合乎逻辑的推理。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第3张

这些模型没有真实生活体验、情感或意识,也未经历心理学上的“镜面阶段”自我觉醒。它们对情景和主体的“理解”究竟从何而来?

2

解剖一个数字幽灵

为了揭开这个“黑箱”,斯坦福研究团队展开了一场深入“神经回路”的探险,试图定位并解剖那些负责心智能力的功能器官。

团队采用基于“Hessian矩阵”的敏感度分析方法,精确测量模型中每个参数对特定任务的重要性。他们的目标是找到控制心智能力的总开关。

经过精密计算与筛选,他们发现:在拥有数十亿甚至更多参数的庞大模型中,驱动心智能力的关键参数占比仅为0.001%这是一个极其稀疏、高度集中的“心智核心”。这一发现颠覆了关于高级能力在神经网络中“广泛分布”的传统认知。

论文指出,这些参数并非随机散落,而是呈现结构化的低秩特性,主要集中在与注意力机制相关的查询和键矩阵中。这暗示着,模型的社交推理能力与其核心信息处理中枢——注意力机制——存在直接的物理联系。

在识别出0.001%的“心智核心”参数后,研究人员首先设立了对照组。他们发现,当对这些参数进行扰动时,使用RoPE架构的模型(如Llama和Qwen)其心智能力会崩溃。

随后,他们将同样的“手术”应用于不使用RoPE的Jamba模型上。结果发现,Jamba的心智能力未受影响。因此,这种脆弱性并非普遍存在,而是与特定技术选择相关——即RoPE。

先理解RoPE的作用。语言本质上是序列,词语顺序定义意义。为了让模型理解这一点,RoPE为每个词的位置赋予独特的旋转操作。例如,词在第一个位置时角度为90度(不旋转),在第二个位置时旋转一个小角度,以此类推。每个词在上下文中的相对位置,都被精确编码在RoPE展示的角度标签中。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第4张

论文发现,RoPE的运作依赖于特定的“主导频率激活”模式。在RoPE为词做角度标记时,某些词旋转幅度较大,称为高频维度,通常用于承载最重要的上下文顺序信息。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第5张

通过进一步扰动比较,研究人员发现,那些稀疏的“心智核心”参数在模型中的作用与“主导频率”模式精确对齐。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第6张

因此,当扰动这部分参数后,使用RoPE的模型丧失了“上下文定位能力”,语言结构在其“眼中”变得模糊。扰动破坏了几何关系,导致注意力被胡乱分散到不相关信息上,最终瓦解了模型连贯的理解能力。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第7张

而在Jamba中扰动心智参数不会通过位置编码影响其上下文定位能力,因此心智能力不会突然衰退。

这至少为解释模型的心智能力找到了一个底层基础:对句子前后位置的理解。

3

重构心智能力的基础

这项深入“硅基大脑”的探险,描绘了“心智理论”这类复杂智能如何从最基础规则中一步步涌现。

首先,搭建智能基石的语序。论文通过解剖模型心智参数得出核心结论:对序列和结构的精确把握是所有高级认知能力的绝对前提。

模型首先需要一个像RoPE这样强大稳定的内部“GPS系统”,构建有序、可依赖的语言世界模型。没有对“谁在先、谁在后”、“谁对谁做了什么”这类基本位置关系的精确理解,一切后续推理都不可能。

第二步,在秩序之上学习世界规律。

在这个由秩序搭建的坚实骨架之上,通过对人类语言文本进行统计学分析,模型开始发现并内化语言中蕴含的关于世界的规律。

例如,在文本中,动词时态变化(如puts变为moved)以及时间副词(如before、later)的出现,总是与事件在时间轴上的先后顺序高度相关。某些事件描述(如“玻璃杯掉到地上”)倾向于出现在另一些事件(如“玻璃杯碎了”)之前。这些文字模式构成了模型对因果关系模拟的基础。

虽然模型未必真正“理解”时间和因果,但通过语序根基,确实学习到了这些概念在人类语言中的“统计学投影”。

之后,便是智能的“涌现”。

最终,论文作者认为,心智能力可能并非孤立认知模块,而是“模型在掌握词语定位和意义构建等通用机制时所产生的一种涌现属性”。

当模型对语言的底层结构(秩序)、中层规律(时间与因果)掌握足够好之后,便自然获得了进行更高级推理的能力。它能根据语序,为不同角色分别模拟可能与客观现实相悖的“信念路径”。

这其中存在潜在间隙,因为模型要有心智能力,必须在预训练中学会隐含的统计学规律:一个角色的知识和信念受其感知范围限制。但这都建立在秩序、时间因果等基础认知之上。

对高级心智能力涌现的解剖,至此完成了初步步骤。

4

认识涌现

最容易的方法就是重构其基础

2008年,著名哲学家大卫·查尔莫斯对涌现现象做了经典分析。

大模型心智理论的编码奥秘:从稀疏参数到涌现智能 心智理论 大型语言模型 参数稀疏性 涌现智能 第8张

简而言之,查尔默斯将“涌现”定义为复杂系统从其低层次组分相互作用中产生出高层次、新颖的整体特性。

弱涌现的核心是:高层次现象是低层次组分相互作用的意外或不可预见结果。但原则上,它完全可由低层次规律和初始条件解释和推导。

也就是说,尽管涌现本身看似神奇,如无生命原子组成有生命细胞,或硅基芯片与算法产生理解他人意图的“心智理论”,但它完全可通过物理规律解释。我们需要的是通过科学方法弥合中间关联性,找到从底层通往高层的路径。

这篇论文完美证明,要建立对大型语言模型“心理”的认知、破解其涌现之谜,最好方法就是重构。

沿着论文定位、解剖、重构的路径,我们必将逐步将类似魔法的技术,还原为微观、逻辑清晰的计算过程。