当前位置:首页 > 科技资讯 > 正文

AI心智理论:从基础规则到涌现的认知之旅

你或许曾好奇,没有情感和经历的AI,究竟是如何学会“察言观色”、理解人类意图的。本文将为你揭示,那些被认为是人类专属的“心智”能力,其实源于最简单的规则。

自去年起,Anthropic的研究逐步揭开了大模型“心理学”的神秘面纱,揭示了模型可能具有欺骗、自保等看似具有“自主意识”的行为。

Anthropic曾开发过一种名为“Circuit Tracing”(工作回路追踪)的方法,试图剖析模型判断时神经信号的传递规律。但整体来看,行业在大模型心理解剖学上的进展仍处在初级阶段。

近期,斯坦福大学在《npj Artificial Intelligence》上发表的论文《How large language models encode theory-of-mind: a study on sparse parameter patterns》,尝试了一种更间接的研究方法,更明确地描绘了AI认知能力的解剖学。

AI心智理论:从基础规则到涌现的认知之旅 AI 心智理论 涌现 语言模型 第1张

论文研究的认知能力叫“心智理论”(Theory of Mind),这一能力长期被认为是人类独有的关键特质——是指个体“理解他人内心想法、意图与信念”的能力,是构建人类社会认知、实现情感共鸣与顺畅社交互动的基石。

越来越多的Benchmark和测试表明,LLM似乎也开始掌握这项能力了。这一原属于人类或其他高等生物认知的特有现象,是如何发生在一个硅基智能上的呢?

论文的研究者发现:模型中驱动这种复杂社交推理的能力,其根源并非弥散于整个庞大的神经网络,而是集中在仅占模型总参数0.001%的一小撮“神经元”上。

更重要的是,这篇论文揭示的不仅是一个关于人工智能的新秘密,还展示了智能如何从最基础的秩序中涌现出来的动力学原理。

1

一台机器也有心智剧场

“心智理论”(Theory-of-Mind, ToM)这一概念,最早由心理学家大卫·普雷马克在研究黑猩猩时提出,指的是个体推断自身与他人心理状态(包括信念、意图、欲望和知识等)的能力。它是我们理解他人言外之意、进行有效沟通、形成社会纽带的核心。

在人类心智发展的漫长过程中,大约四岁左右的孩童会迎来一个决定性时刻。他们开始理解,别人的想法可以和自己不一样,而且可能是错的。这便是“心智理论”觉醒的标志。

科学家常用“错误信念”测试来评估这种能力。比如论文中就用了这种方式,描述了一个场景:桌上有一个外观精美的巧克力袋,山姆看到袋子并阅读了标签,他相信里面装满了巧克力。但他不知道的是,袋子里实际上装的是爆米花。

AI心智理论:从基础规则到涌现的认知之旅 AI 心智理论 涌现 语言模型 第2张

在这个测试中,具备心智能力的人会被问到两个问题:第一,袋子里真实装的是什么?(爆米花);第二,山姆认为袋子里有什么?(巧克力)。能够清晰地区分客观现实与他人主观信念,正是心智能力的核心体现。

当研究人员将这些问题抛给最新一代的大型语言模型(LLMs)时,如Llama、Qwen等先进模型,它们在很大程度上能够像一个心智成熟的人一样,准确地回答这些问题。它们似乎真的能够“代入”到故事角色的视角中,理解他们的信息差,并据此做出合乎逻辑的推理。

AI心智理论:从基础规则到涌现的认知之旅 AI 心智理论 涌现 语言模型 第3张

这些模型没有真实的生活体验、情感、意识或心理学上的自我觉醒。它们对情景和主体的“理解”从何而来?

2

解剖一个数字幽灵

为了探索这个“黑箱”,斯坦福的研究团队展开了一场前所未有的深入“神经回路”的探险。他们试图找到并解剖那些真正负责心智能力的功能器官。

研究团队运用了一种基于“Hessian矩阵”的敏感度分析方法,这种方法可以精确测量模型中每一个参数对于特定任务的重要性。他们的目标就是找到控制心智能力的总开关。

经过精密的计算和筛选,他们发现:在拥有数十亿甚至更多参数的庞大模型中,驱动ToM能力的关键参数数量占比仅为0.001%。这是一个极其稀疏、高度集中的“心智核心”。这一发现颠覆了许多研究者关于高级能力在神经网络中“广泛分布”的传统认知。

论文指出,这些参数并非随机散落,而是呈现出一种结构化的低秩特性,主要集中在与注意力机制直接相关的查询(Query)和键(Key)矩阵中。这暗示着模型的社交推理能力与其最核心的信息处理中枢——注意力机制存在着直接的物理联系。

3

重构心智能力的基础

这项深入“硅基大脑”的探险为我们描绘了一个复杂如“心智理论”的智能是如何从最基础的规则中一步步涌现(emerge)的。

首先试搭建智能基石的语序。论文通过解剖模型心智参数得到的核心结论就是:对序列和结构的精确把握是所有高级认知能力的绝对前提。

模型首先需要一个像RoPE这样强大而稳定的内部“GPS系统”,来构建起一个有序的、可依赖的语言世界模型。没有对“谁在先、谁在后”、“谁对谁做了什么”这类基本位置关系的精确理解,一切后续的推理都不可能。

第二步是在秩序之上学习世界的规律。

在这个由秩序搭建起来的坚实骨架之上,通过对人类语言文本进行统计学分析,模型开始发现并内化语言中所蕴含的关于我们世界的规律。比如在文本中动词时态的变化以及时间副词的出现总是与事件在时间上呈现出高度相关的模式。

4

认识涌现

最容易的方法就是重构其基础

在2008年著名哲学家大卫·查尔莫斯对涌现现象做过一个经典分析。他将“涌现”(Emergence)定义为复杂系统从其低层次组分的相互作用中产生出高层次、新颖的整体特性。

AI心智理论:从基础规则到涌现的认知之旅 AI 心智理论 涌现 语言模型 第4张