当前位置:首页 > 科技资讯 > 正文

AGI可量化评估框架提出:GPT-5仅得57%

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第1张

通用人工智能(AGI)有望成为人类文明中最重大的技术革命之一,然而,由于AGI概念缺乏清晰界定,当前专用人工智能系统与人类认知水准之间的分界日益模糊。

为解决这一挑战,人工智能安全中心(CAIS)主任Dan Hendrycks与图灵奖得主Yoshua Bengio联合多位行业专家、学者共同推出一个可量化框架,将AGI定义为:

“在认知多样性与熟练度上,媲美或超过受过良好教育的成年人的AI”。

an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.

这一定义突显,通用智能不仅需要在特定领域展现专业水平,还应具备人类认知特有的技能广度(多功能性)和深度(熟练度)。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第2张

论文链接:https://arxiv.org/abs/2510.18212

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第3张

图|GPT-4 和 GPT-5 的 AGI 得分。

研究结果显示,在此框架下,GPT-4的AGI得分仅为27%,而GPT-5的得分也只有57%。这表明,尽管当前AI在复杂基准测试中表现卓越,但仍缺乏许多对人类级别通用智能至关重要的核心认知能力。

更重要的是,该框架提供了一种结构化、可量化且更具鲁棒性的AGI评估方法,超越了传统狭隘的专业化基准测试。

AGI 的 10 个核心能力

为系统检验AI系统的具体认知能力,研究团队基于卡特尔-霍恩-卡罗尔理论(人类智能最经实证验证的模型)构建方法论。该框架将通用智能分解为10个核心认知领域——涵盖推理、记忆与感知等——并采用成熟的人类心理测量测试套件评估AI系统。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第4张

图|所提出 AGI 定义下的 10 个核心组成。

具体内容如下:

1.通用知识

通用知识(General Knowledge),即“大多数受过良好教育的人所熟悉的知识,或重要到大多数成年人都接触过的知识”。在这一维度上,研究团队从常识、科学、社会科学、历史、文化等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为9%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第5张

2.读写能力

读写能力(Reading and Writing Ability),即“在阅读和写作中掌握所有陈述性知识和程序性技能”。在这一维度上,研究团队从常字词识别、阅读理解、写作能力、语法等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为10%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第6张

3.数学能力

数学能力(Mathematical Ability),即“数学知识和技能的深度和广度”。在这一维度上,研究团队从算数、代数、几何、概率、微积分等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为10%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第7张

4.即时推理能力

即时推理能力(On-the-Spot Reasoning),即“审慎且灵活地控制注意力,以解决那些无法仅依靠以往习得的习惯、图式和脚本完成的全新即时的问题”。在这一维度上,研究团队从算演绎、归纳、心智理论、规划、适应等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为7%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第8张

5.工作记忆能力

工作记忆能力(Working Memory),即“在注意力集中状态下保存、处理并更新信息的能力”。在这一维度上,研究团队从听觉、视觉、跨模态模型等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为4%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第9张

6.长期记忆储存能力

长期记忆储存能力(Long-Term Memory Storage),即“稳定地获取、巩固并存储来自近期经验的新信息的能力”。在这一维度上,研究团队从联想记忆、意义记忆、逐字记忆等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率为0%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第10张

7.长期记忆检索能力

长期记忆检索能力(Long-Term Memory Retrieval),即“能够流畅且精确地从长时记忆中检索信息的能力”。在这一维度上,研究团队从提取流畅性、幻觉等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为4%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第11张

8.视觉处理能力

视觉处理能力(Visual Processing),即“分析与生成自然或非自然图像和视频的能力”。在这一维度上,研究团队从感知、生成、推理和空间扫描等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为4%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第12张

9.听觉处理能力

听觉处理能力(Auditory Processing),即“区分、记忆、推理并处理听觉刺激的能力”。在这一维度上,研究团队从语音编码、语音识别、节奏、音色、音准等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为6%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第13张

10.速度

速度(Speed),即“快速完成认知任务的能力”。在这一维度上,研究团队从语搜索、对比、阅读、书写、数字等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为3%。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第14张

更多评估细节详见论文。

局限性与未来挑战

以上结果突显了当前AI与人类水平的通用智能之间的能力鸿沟,具体表现在:

1.关键能力欠缺

尽管当前AI在通用知识、读写能力和数学能力等方面表现出高熟练度,但它们在基础认知机制上依然存在严重缺陷;同时,长期记忆存储是亟需突破的瓶颈,当前AI的得分接近0%;而且,当前AI缺乏持续学习能力,需要在每次交互中重新学习上下文,效率低下;此外,视觉推理能力的欠缺限制了AI Agent与复杂数字环境的交互。

AGI可量化评估框架提出:GPT-5仅得57% AGI  评估框架 GPT-5 认知能力 第15张

图|GPT-4 和 GPT-5 的能力分布。

2.能力扭曲与通用幻觉

AI的“锯齿状”能力常常导致所谓的“能力扭曲”,即AI会利用某些方面的强项来弥补其他方面的弱点,比如依赖庞大的上下文窗口和RAG技术来掩盖长期记忆存储能力的缺乏。这种权宜之计制造出了一种脆弱的“通用智能幻觉”,最终导致对AGI何时到来的不准确评估。

当然,这一「AGI 定义」也存在一些局限性。

首先,这一定义并不全面,他们有意排除了某些类型的能力,如Gardner提出的多元智能理论中的动觉智能等。

再者,研究框架的示例主要基于英语语境,未考虑文化差异。未来研究可将测试扩展至不同语言与文化背景;

另外,研究团队的操作化存在内在限制:通用知识测试是选择性的,无法涵盖所有学科领域。“100%的AGI分数”仅意味着在这些特定维度上表现优异,并不等同于“现实中的高学历或全面教育背景”。

此外,当前方案为每项广泛能力分配相同权重(10%),以突出广度。然而,这种权重配置只是众多可能方案之一。未来可探索更具灵活性的权重方案和任务组合。

最后,AGI总分这种单一数值可能掩盖AI的严重缺陷。例如,一个AGI总分90%,但长期记忆存储为0%,实际上会表现出类似“遗忘症”的功能障碍。

在论文的最后,研究团队表示,实现AGI依然需要解决诸多挑战

机器学习社区旨在测量抽象推理能力的ARC-AGI挑战赛,就体现在及时推理任务中;

Meta试图创建包含直觉物理理解的世界模型,这体现在视频异常检测任务中;

空间导航记忆的挑战反映了李飞飞的初创公司World-Labs的一个核心目标;

幻觉和持续学习方面的挑战,也需要被解决。

因此,“AGI得分在明年内达到100%的可能性不大”