当前位置:首页 > 科技资讯 > 正文

AGI定义新突破:基于CHC理论的能力评估与AI发展透视

近期,人工智能领域爆发了一场围绕大语言模型是否能够实现通用人工智能的热烈辩论。

一方是以OpenAI、Google等为代表的企业界,他们坚信当前的模型架构和扩展定律能够引领我们走向人工通用智能;另一方则以强化学习先驱Richard Sutton、纽约大学的Gary Marcus、图灵奖得主Yann LeCun等学术界泰斗为代表,他们对这一路径提出了深刻质疑。

Sutton指出,当前的大语言模型过于依赖人类标注数据,缺乏内在的学习机制;Marcus则多次强调大模型在推理能力上存在本质缺陷,犹如随机鹦鹉;LeCun更是直言,纯语言模型永远无法企及人类智能的高度。双方各执一词,论据充分,使得争论持续发酵。

然而,这场争论之所以难以平息,根源在于一个核心问题:AGI的准确定义究竟是什么?

尽管人们普遍认同AGI应达到人类水平的智能,但对其具体维度、客观评估方法却一直模糊不清。正是这种定义上的含糊,让不同阵营都能找到支持自己观点的依据。

为破解这一困局,10月16日,由图灵奖得主约书亚·本吉奥领衔的国际顶尖研究团队发表了一篇里程碑式论文《A Definition of AGI》,旨在为这一模糊概念提供迄今为止最为清晰的定义。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第1张

发布这篇论文的团队堪称豪华,完全有资格对此问题进行权威定义。文章的27名作者涵盖了人工智能领域,特别是AI安全、伦理方向的全球顶级学者、研究员和行业领袖

具体而言,除了本吉奥,一线核心研究者包括AI安全中心主任Dan Hendrycks、加州大学伯克利分校计算机安全与隐私保护顶尖专家Dawn Song、DDN之父Christian Szegedy等。还有跨领域专家如经济学家、斯坦福HAI主任Erik Brynjolfsson。

此外,还包括非专业AI领域但极具影响力的思想家和批评者:如未来生命研究所创始人Max Tegmark、前述大语言模型批评者之一纽约大学名誉教授Gary Marcus。

行业巨头与资助者也参与其中,如谷歌前CEO Eric Schmidt、Skype联合创始人Jaan Tallinn均位列作者名单。

仅这份作者列表就足以彰显这项研究的重要性。

他们得出的结论,与当前关于LLM能否通向AGI的争论基本一致。在新的AGI定义下,像GPT-5这样的顶尖AI,在AGI应具备的核心维度中约一半表现卓越,但另一半则表现欠佳,少数维度得分近乎为零。而这些短板维度,恰好与LLM批评者所指出的能力缺失完全吻合。

下面,让我们深入探讨他们如何重新定义AGI。

01 源自人类心智蓝图的AGI评估框架

论文开宗明义,为AGI提供了一个清晰直观的定义:AGI是一个在认知通用性和熟练度上,能够达到或超过一个受过良好教育的成年人水平的人工智能

这一定义中,AGI的两个核心特质是:

1. 通用性(广度):强调AGI不能是偏科生。真正的通用智能需要在广泛的认知领域都具备能力,而非仅限于单一或少数任务上的超人表现。

2. 熟练度(深度):在每个认知领域,AGI的能力都需达到一定深度,即受过良好教育的成年人的水准。这排除了那些只能完成表面任务、缺乏深层理解的系统。

通过锚定“受过良好教育的成年人”这一现实世界中唯一的通用智能范例,该定义成功将抽象概念转化为可参考和测试的实体。

有了这一定义,后续逻辑便清晰起来。既然AGI定义为达到人类水平,那么衡量AGI的最佳方式就是使用衡量人类智能的最科学、最全面的蓝图。

幸运的是,这个蓝图已经存在,即Cattell-Horn-Carroll (CHC) 理论。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第2张

CHC理论由雷蒙德·卡特尔首先提出,后经约翰·卡罗尔在1993年系统回顾和重新分析自20世纪30年代以来的460多项认知能力研究,修正整合而成。

因此,它是近一个世纪以来,科学家通过对成千上万人大量认知能力测试数据进行因素分析,最终综合形成的、目前在心理测量学界最受认可、证据最充分的人类智力结构模型。

CHC理论将人类认知能力描绘成一个三层级金字塔结构:

顶层 (Stratum III): 一般智力因素 (g因子),代表普遍的、贯穿所有认知活动的智力能力,可理解为大脑处理器的核心算力。

中层 (Stratum II): 十大广义能力,这是CHC理论的核心,将一般智力分解为约10个相对独立的广义能力,构成智能的主要模块。

底层 (Stratum I): 约80多种狭义能力,作为金字塔基座,每个广义能力由多种更具体的狭义能力构成。例如,晶体智力 (Gc) 可分解为词汇知识、通用信息等;流体智力 (Gf) 可分解为归纳推理、演绎推理等。

这篇重新定义AGI的论文基本上是对这一金字塔结构的改编和操作化。根据CHC的十大广义能力,AGI的能力也被分为十大方向,每个方向平均占AGI满分评分中的10分:

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第3张

通用知识 (K): 对世界常识、科学、历史、文化等事实的理解。

读写能力 (RW): 理解和生成书面语言的熟练度。

数学能力 (M): 涵盖算术、代数、微积分等领域的知识与技能。

即时推理 (R): 在不依赖先验知识的情况下,解决新颖问题的能力,如演绎与归纳。

工作记忆 (WM): 在注意力中主动保持、处理和更新信息的能力(即短期记忆)。

记忆存储 (MS): 从经验中持续学习、巩固和存储新信息的能力。

长期记忆检索 (MR): 精准、流畅地从记忆中提取知识,并避免产生幻觉的能力。

视觉处理 (V): 感知、分析、推理和生成图像、视频等视觉信息的能力。

听觉处理 (A): 识别、区分和处理声音、语音、音乐等听觉刺激的能力。

速度 (S):快速、自动化地执行简单认知任务的能力。

这些方向有的融合了部分CHC广义能力,有的直接一一对应,最终完整覆盖了CHC理论的所有领域。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第4张

与由CHC理论转化出的智商量表一样,该框架不仅全面,而且具备极高的可操作性。论文为每个大项下的诸多分项提供了具体定义、测试样例乃至现有公开数据集参考,使任何研究者都能依此对AI系统进行评估。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第5张

但CHC量表本身复杂,取何值作为AGI 100分的标准呢?

文章给出的结论是,这一标准非常高。它定义了一个理想化的、认知能力全面发展且高度熟练的个体。100%的AGI分数代表一个在所有测试维度上都达到精通水平的、高度熟练的个体。

但精通并非要求将所有受过良好教育者的顶尖技能聚合,不要求AGI同时拥有爱因斯坦的物理学能力、莫扎特的音乐天赋和莎士比亚的文学才华。它衡量的是一个个体可能达到的、在认知上全面且强大的能力水平。

02 犬牙交错的当代AI能力剖面图

那么,用这一新AGI标准衡量当今最先进的AI模型,它们的表现如何?

论文评估结果显示,当代AI的能力发展呈现出一种极不均衡的犬牙交错式认知剖面图。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第6张

根据论文评估,GPT-4的AGI总分为27%,而2025年问世的GPT-5总分可达58%。总分虽翻倍,但进步非常不平均。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第7张

AI的强项在于可从海量数据中直接学习的领域,例如在通用知识(K)、读写能力(RW)和(对于GPT-5而言)数学能力(M)上,模型表现出极高熟练度。这与普遍认知相符:大语言模型是强大的知识库和文本处理工具。

然而,在长期记忆存储(MS)这类能力上,无论是GPT-4还是GPT-5,得分均为刺眼的0%。这意味着当前AI系统患有严重失忆症,无法从持续互动中积累经验、形成个性化记忆或修正错误。每次对话都是冷启动,从根本上限制了它们成为真正的智能伙伴或助手。速度提升上也基本裹足不前。

此外,在即时推理(R)、视觉推理(V)、听觉处理(A)等需要灵活、抽象思考和深度理解物理世界能力的领域,现有模型也存在严重短板,尽管GPT-5在这些方面显示出显著进步,但相较于100%达标,仍很远。

还记得CHC还有一个底层金字塔吗?研究团队也对这十大方向的能力进行了更细致拆分。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第8张

团队用这些细微项考察了GPT-4和GPT-5的得分,从中我们可以更清晰理解即使是最强模型GPT-5依然存在的短板。

AGI定义新突破:基于CHC理论的能力评估与AI发展透视 AGI定义 CHC理论 GPT-5评估 人工智能能力 第9张

除去GPT-4和5都有的长期记忆为0的问题外,我们还能发现当前模型最大短板有三点:不可靠、无主动学习能力、对世界认知浅薄。

不可靠性:在长期记忆检索 (MR) 模块下,有一个名为幻觉的关键分项。GPT-4和GPT-5在这一项上得分同样是 0%。尽管GPT-5号称大幅减少幻觉率,但相较于人类,其幻觉水平依然过高。

这使得AI在不借助外部工具(如搜索引擎)时,成为完全不可靠的信息来源。论文指出,当前业界广泛使用的检索增强生成技术,正是一种掩盖这一核心缺陷的能力扭曲。

认知僵化,无法适应规则变化:在即时推理 (R) 模块中,即使是大幅进步的GPT-5,在名为适应的分项上也得到 0% 分数。

这项能力通过人类智力测试常用的威斯康星卡片分类测验评估,要求智能体在规则被悄悄改变后能够放弃旧规则、适应新规则。AI的失败表明它擅长在固定规则下执行任务,但当环境发生未明确告知的变化时,会表现出极端认知僵化,无法灵活调整策略。

因此,当前AI缺乏一种元认知能力,即意识到自己当前方法不再有效。这种僵化在动态、开放的真实世界中将是致命的,限制了其自主解决复杂问题的能力。这正对应了Sutton的批评。

多模态的浅薄:在视觉处理 (V) 上,GPT-5虽能在感知和生成上得分,但在更高级的视觉推理和空间扫描上得分为 0%。这意味着它能识别图片内容,但无法理解复杂空间关系或进行心理旋转等抽象视觉推理。在听觉处理 (A) 上,GPT-5也能很好地进行语音识别和合成,但在理解语言声音底层结构的音素编码和节奏能力上得分为 0%。

这说明即使GPT-5的多模态能力有较强进展,但它还停留在输入/输出的表层,并未理解物理规律、空间逻辑的世界模型。它打开了连接物理世界的窗户,但还远未理解窗外的风景。而这正是Sutton和Yann LeCun批判的第二点。

从这些更细分评价来看,反LLM联盟的批评确实一针见血。不愧是写出了《The Bitter Lesson》的Sutton老师。

以上是基于论文撰写的深度解析,涵盖了其核心框架、重要发现和深远意义。

03 能力扭曲戳破通用的幻象

通过刚才的AGI建模,我们看到当下模型的诸多短板,但在日常使用中,我们常有一种GPT很懂我、AI无所不知的感觉。

这篇论文也对此作了解释,提出了能力扭曲这一概念。当代AI系统常利用其压倒性优势能力(如巨大的工作记忆和计算速度)来掩盖或绕过基础能力的根本性缺陷,从而制造出一种看似通用的脆弱假象。

文章主要提及两种能力扭曲问题,它们都试图取巧掩盖得分仅0分的长期记忆短板:

其一是用工作记忆(长上下文)伪装长期记忆。模型通过支持越来越长的上下文窗口(可达数百万token)处理海量信息,但这本质是工作记忆的暴力延伸,而非真正的长期记忆存储。用户需将历史信息反复喂给模型,这种方式不仅计算成本极高、效率低下,且当任务时间跨度超过上下文窗口限制时便会彻底失效。

其二是用外部搜索(RAG)伪装内部记忆检索。为解决幻觉问题,模型普遍采用检索增强生成技术,即在回答前先从外部数据库(如互联网)搜索相关信息。论文一针见血指出,这是一种拐杖,掩盖了模型在两个层面的记忆缺陷:一是无法精准、可靠地从自身庞大参数知识中进行检索;二是更关键的,它完全没有一个动态、可更新、用于记录个体经验的私有记忆库。

因此,不能仅因模型在某些任务上表现出色,就误认为它具备底层通用智能。识别并解决这些被掩盖的根本性缺陷,才是通往AGI的正途。

04 定义的意义:让方向从模糊到清晰

这个AGI定义框架最重要价值在于,它将长期模糊的概念转化为具体可测指标。无论是支持还是反对当前AI发展路径的人,都有了共同讨论基础。

当然,该框架也有局限性。研究者承认当前测试主要基于英语和西方文化,权重设置也可能需进一步讨论。但作为首个系统性AGI评估标准,它已为AI发展提供了重要指导方向。

从GPT-4的27%到GPT-5的58%,我们看到AI能力的快速提升。但同时,这些数字清晰告诉我们:真正的AGI之路依然任重道远。重要的是,现在我们有了清晰地图,知道该往哪个方向努力,以及还有多远的路要走。