当前位置:首页 > 科技资讯 > 正文

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能

为通用人工智能设定一个明确的合格标准,GPT-4和GPT-5在评估中竟都被评为不合格?

通用人工智能作为人工智能领域的终极目标,其定义一直存在广泛争议。换句话说,在追求AGI这一圣杯的过程中,我们究竟在追求什么?

最近,图灵奖得主Yoshua Bengio、谷歌前首席执行官埃里克・施密特、纽约大学教授Gary Marcus等多位学界与业界领袖携手合作,终于为这个热门但模糊的概念提出了一个全面且可验证的定义框架。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第1张

  • 论文标题:A Definition of AGI
  • 论文链接:https://www.agidefinition.ai/paper.pdf

该论文提出了一个全面、可量化的框架,旨在消除这些模糊性。框架明确指出:AGI是一种能够在认知多功能性和熟练度上匹配甚至超越受过良好教育的成年人的智能体。

这一定义强调,通用智能不仅需要在特定领域展示专业化能力,还必须具备人类认知技能的广度(多功能性)和深度(熟练度)。

以人类为参照:量化AGI的框架构建

为了将这一定义付诸实践,我们必须关注通用智能的唯一现有范例:人类。人类认知并非单一能力,而是由进化塑造的众多独特能力组成的复杂系统。这些能力赋予了我们卓越的适应性和对世界的深刻理解。

为了系统评估AI系统是否具备这种能力范围,该研究以卡特尔-霍恩-卡罗尔认知能力理论为基础,这是人类智力中最经实证验证的模型。CHC理论主要源于一个多世纪以来对各种认知测试的迭代因子分析综合,提供了人类认知的层次化分类。它将一般智力分解为不同的广义能力和众多狭义能力。

为了确定人工智能是否具备与受过良好教育的成年人相当的认知多样性和熟练度,该研究采用用于测试人类的认知评估系统来测试人工智能。这种方法用具体的测量指标取代模糊的智力概念,从而得出标准化的“通用智力指数”分数(0%到100%),其中100%代表通用智力水平。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第2张

AGI的十大核心认知能力

该框架包含十项核心认知分量,源自CHC理论中的“广义能力”,并等量加权以强调广度并覆盖主要认知领域。

下图展示了这些分量及各自更细分的一些领域方向:

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第3张

值得注意的是,该团队还评估了每个分量下,当前的GPT-4和GPT-5模型的表现。

一般知识:对世界事实性知识的广泛理解,包括常识、文化、科学、社会科学与历史。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第4张

阅读与写作能力:在书面语言上的理解与表达熟练度,从基础解码到复杂的理解、写作与运用。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第5张

数学能力:在算术、代数、几何、概率与微积分等方面的知识与技能深度。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第6张

现场即时推理能力:灵活调控注意力以解决新问题的能力,不仅依赖既有知识结构,通过演绎与归纳测试。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第7张

工作记忆:在文本、听觉与视觉模态下,保持并操作当前信息的能力。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第8张

长期记忆存储:持续学习新信息的能力,包括联想记忆、意义记忆与逐字记忆。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第9张

长期记忆检索:高效而准确地检索已存知识的能力,尤其是避免“虚构”的关键能力。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第10张

视觉处理:感知、分析、推理、生成与扫描视觉信息的能力。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第11张

听觉处理:区分、识别并创造性地处理听觉刺激的能力,包括语音、节奏与音乐。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第12张

速度:快速执行简单认知任务的能力,包括感知速度、反应时间与处理流畅度。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第13张

这一操作化框架可提供多模态的整体性评估,从而作为严格的诊断工具,用以揭示当前AI系统的优势与显著弱点。

而GPT-4和GPT-5在各分量上的表现均未超过10%,甚至在不少具体指标上都是0分表现。因此,可以说当前的前沿大语言模型离AGI还相距甚远。下表总结了这两个模型的整体得分情况:

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第14张

深入讨论

在这篇定义性质的论文中,研究人员还做了进一步的讨论,给出了一些更深度的见解和概念界定。

“锯齿状”AI能力与关键瓶颈

首先,该团队发现,当代AI系统的认知结构呈现出高度不均衡,呈现所谓“锯齿状”特征。

模型在某些依赖大量训练数据的领域表现出极高的熟练度,但同时在基础认知机制上存在严重缺陷。

这种不均衡的发展揭示了通往AGI的特定瓶颈。其中最显著的瓶颈可能是长期记忆存储,当前模型在这一项的得分几乎接近0%。缺乏持续学习的能力使得AI系统呈现“失忆症”式的特征,限制了其实用性。

类似地,在视觉推理方面的缺陷,也阻碍了AI智能体与复杂数字环境进行有效交互的能力。

能力扭曲与“通用性幻觉”

此外,当前AI能力的“锯齿状”分布,常常导致所谓的“能力扭曲”:模型会利用某些领域的强项来弥补其他方面的严重弱点。

这些权宜之计掩盖了底层局限,制造出一种脆弱的“通用智能幻觉”。

比如一种典型的扭曲现象,是依赖巨大的上下文窗口来弥补长期记忆存储的缺失。

实践中,研究者让模型使用超长上下文来维持状态与吸收信息。然而,这种做法效率低、计算成本高,并会使模型的注意机制过载。更关键的是,它无法扩展到需要连续数天甚至数周上下文积累的任务。真正的长期记忆系统可能需要一个独立的模块,通过不断调整模型权重来吸收经验。

另外,在长期记忆提取方面的不精确表现常可通过集成外部搜索工具加以缓解,这种方式被称为检索增强生成。

然而,这种对RAG的依赖本质上也是一种“能力扭曲”,掩盖了AI记忆中的两种深层弱点。

  1. 它弥补了模型无法可靠访问自身庞大但静态的参数化知识的能力缺陷;
  2. 更关键的是,它掩盖了缺乏动态、经验式记忆系统的事实,即一种能长期保存私人交互与持续变化上下文的持久记忆机制。

虽然RAG可以扩展到私密文档,但它的核心功能仍是“数据库检索”。这种依赖可能成为AGI的根本性负担,因为它无法取代真正学习、个性化与长期上下文理解所需的整体记忆整合能力。

误将这些“能力扭曲”视为真正的认知广度,会导致对AGI到来时间的误判。它们还可能让人误以为智能过于“碎片化”而无法被系统性理解。

如果将智能比作引擎

有趣的是,在论文中,研究团队还做了一番类比:将对智能的多维度理解类比为一个高性能引擎。其中,整体智力水平相当于“马力”;人工心智,如同引擎,其性能最终受限于最弱的部件。下图展示了解各能力间的关系。

AGI认知评估新框架揭示GPT-4与GPT-5尚未达到人类水平智能 AGI 认知评估 GPT模型 通用智能 第15张

目前,AI“引擎”的几个关键部件存在严重缺陷。这极大限制了系统的总体“马力”,无论其他部件多么优化。该框架正是用来识别这些缺陷,从而评估我们距离真正AGI还有多远。

社会智能

人际交往技能分布在多个广义认知能力中:例如,认知共情体现在一般知识中的“常识”能力;面部情绪识别是视觉加工中“图像描述”熟练度的前提;而心智理论则在即时推理的测试中体现。

认知能力的相互依赖性

该团队指出,虽然该框架将智能拆分为十个独立的测量维度,但必须认识到这些能力之间高度相互依赖。复杂的认知任务几乎从不依靠单一领域完成。

例如,解决高阶数学问题同时依赖数学能力与即时推理;“心智理论”题目需要即时推理与一般知识;图像识别涉及视觉加工与一般知识;理解一部电影则需整合听觉加工、视觉加工与工作记忆。

因此,不同的测验组合往往共同考察多个能力,反映出通用智能的整体性特征。

“解决数据集”与“解决任务”的区别

须知,在一个数据集上的成功并不意味着在该任务上就是成功的——这些数据集只是必要而非充分条件。

因此,这里基于任务的定义方法可能会更加合理一些。

该团队表示:“由于我们基于任务集合,而非过度依赖特定数据集,评测者可在任何时间使用当时最佳的测试手段来检验AI系统。”

相关概念的定义

在这篇论文中,研究团队还简单界定了其它一些相关概念:

  • 大流行病AI:能设计并制造出新的、具有传染性与高毒性的病原体,可能引发大流行。
  • 网络战AI:能自主规划并执行复杂、多阶段的网络攻击,目标包括能源、金融、防御等关键基础设施。
  • 自我维持AI:能自主长期运行、获取资源并维持自身存在的AI。
  • AGI:认知广度与熟练度能与受过良好教育的成年人相匹敌或超越的AI。
  • 递归型AI:能独立完成整个AI研发生命周期,从而在无人类介入下创造出更高级的AI系统。
  • 超级智能:在几乎所有人类关心的领域都远超人类认知表现的AI。
  • 替代型AI:能更高效、更低成本地完成几乎所有任务,使人类劳动在经济上变得多余的AI。

AGI的障碍

实现AGI需要克服多项重大挑战。例如:

  • 机器学习社区提出的ARC-AGI挑战对应即时推理任务;
  • Meta正尝试构建具备直觉物理理解的世界模型,这在视频异常检测任务中体现;
  • 空间导航记忆的挑战是李飞飞创业公司World-Labs的核心目标;
  • 幻觉问题与持续学习的难题也必须得到解决。

这些重大障碍意味着,在短期内获得100%AGI分数的可能性极低。 

适用范围说明

该团队首先表示:“我们的定义并非一个自动评测系统或固定数据集,而是一组范围明确、覆盖广泛的任务集合,其作用是测试特定的认知能力。”

AI是否能完成这些任务,可以由任何人通过现有的最佳评估手段手动验证。

因此,这一定义比固定的数据集更加开放、稳健。

其次,该AGI定义聚焦于受过良好教育的个体通常具备的能力,而非所有此类个体知识与技能的叠加体。

换言之,该团队定义的AGI是人类水平的AI,而非经济体水平的AI,例如,据报道OpenAI与微软曾将AGI定义为“能创造1000亿美元利润的AI”。也就是说,这是用于衡量认知能力,而非特定的经济价值技能,也不直接预测自动化或经济方面的影响。经济层面的AI评估留待其他研究。

最后,该团队特别强调,这个定义特意聚焦于核心认知能力,而非诸如运动技能或触觉感知等物理能力。“因为我们关心的是心智能力,而非执行器或传感器的质量。”

结语

这篇由多位AI行业领袖参与的论文提出了一个可量化的通用人工智能定义框架:将AGI的智能水平定义为认知广度与熟练度需与受过良好教育的成年人相当。

该定义基于Cattell-Horn-Carroll理论,这是对人类认知最具实证支持的模型。

更具体而言,该框架将通用智能分解为十个核心认知领域,并对已有的人类心理测验体系进行了改编,使其可用于评估AI系统。

通过应用此框架,该团队发现当代模型的认知表现呈现出高度“不均衡”的特征。

虽然在知识密集型领域表现优异,但当前的AI系统在基础认知机制上仍存在显著缺陷,尤其是长期记忆存储方面。

最终的AGI分数提供了一个具体的量化尺度,既展现了AI的迅速进步,也揭示了当前距离真正AGI仍存在巨大差距。