当前位置：首页 > 科技资讯 > 正文

AGI可量化评估框架提出：GPT-5仅得57%

主机测评网
科技资讯
2026-01-17
223

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第1张

通用人工智能（AGI）有望成为人类文明中最重大的技术革命之一，然而，由于AGI概念缺乏清晰界定，当前专用人工智能系统与人类认知水准之间的分界日益模糊。

为解决这一挑战，人工智能安全中心（CAIS）主任Dan Hendrycks与图灵奖得主Yoshua Bengio联合多位行业专家、学者共同推出一个可量化框架，将AGI定义为：

“在认知多样性与熟练度上，媲美或超过受过良好教育的成年人的AI”。

an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.

这一定义突显，通用智能不仅需要在特定领域展现专业水平，还应具备人类认知特有的技能广度（多功能性）和深度（熟练度）。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第2张

论文链接：https://arxiv.org/abs/2510.18212

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第3张

图｜GPT-4 和 GPT-5 的 AGI 得分。

研究结果显示，在此框架下，GPT-4的AGI得分仅为27%，而GPT-5的得分也只有57%。这表明，尽管当前AI在复杂基准测试中表现卓越，但仍缺乏许多对人类级别通用智能至关重要的核心认知能力。

更重要的是，该框架提供了一种结构化、可量化且更具鲁棒性的AGI评估方法，超越了传统狭隘的专业化基准测试。

AGI 的 10 个核心能力

为系统检验AI系统的具体认知能力，研究团队基于卡特尔-霍恩-卡罗尔理论（人类智能最经实证验证的模型）构建方法论。该框架将通用智能分解为10个核心认知领域——涵盖推理、记忆与感知等——并采用成熟的人类心理测量测试套件评估AI系统。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第4张

图｜所提出 AGI 定义下的 10 个核心组成。

具体内容如下：

1.通用知识

通用知识（General Knowledge），即“大多数受过良好教育的人所熟悉的知识，或重要到大多数成年人都接触过的知识”。在这一维度上，研究团队从常识、科学、社会科学、历史、文化等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为9%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第5张

2.读写能力

读写能力（Reading and Writing Ability），即“在阅读和写作中掌握所有陈述性知识和程序性技能”。在这一维度上，研究团队从常字词识别、阅读理解、写作能力、语法等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为10%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第6张

3.数学能力

数学能力（Mathematical Ability），即“数学知识和技能的深度和广度”。在这一维度上，研究团队从算数、代数、几何、概率、微积分等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为10%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第7张

4.即时推理能力

即时推理能力（On-the-Spot Reasoning），即“审慎且灵活地控制注意力，以解决那些无法仅依靠以往习得的习惯、图式和脚本完成的全新即时的问题”。在这一维度上，研究团队从算演绎、归纳、心智理论、规划、适应等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为7%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第8张

5.工作记忆能力

工作记忆能力（Working Memory），即“在注意力集中状态下保存、处理并更新信息的能力”。在这一维度上，研究团队从听觉、视觉、跨模态模型等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为4%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第9张

6.长期记忆储存能力

长期记忆储存能力（Long-Term Memory Storage），即“稳定地获取、巩固并存储来自近期经验的新信息的能力”。在这一维度上，研究团队从联想记忆、意义记忆、逐字记忆等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率为0%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第10张

7.长期记忆检索能力

长期记忆检索能力（Long-Term Memory Retrieval），即“能够流畅且精确地从长时记忆中检索信息的能力”。在这一维度上，研究团队从提取流畅性、幻觉等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为4%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第11张

8.视觉处理能力

视觉处理能力（Visual Processing），即“分析与生成自然或非自然图像和视频的能力”。在这一维度上，研究团队从感知、生成、推理和空间扫描等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为4%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第12张

9.听觉处理能力

听觉处理能力（Auditory Processing），即“区分、记忆、推理并处理听觉刺激的能力”。在这一维度上，研究团队从语音编码、语音识别、节奏、音色、音准等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为6%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第13张

10.速度

速度（Speed），即“快速完成认知任务的能力”。在这一维度上，研究团队从语搜索、对比、阅读、书写、数字等方面对GPT-5、GPT-4进行了评估，结果显示，GPT-5的整体正确率仅为3%。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第14张

更多评估细节详见论文。

局限性与未来挑战

以上结果突显了当前AI与人类水平的通用智能之间的能力鸿沟，具体表现在：

1.关键能力欠缺

尽管当前AI在通用知识、读写能力和数学能力等方面表现出高熟练度，但它们在基础认知机制上依然存在严重缺陷；同时，长期记忆存储是亟需突破的瓶颈，当前AI的得分接近0%；而且，当前AI缺乏持续学习能力，需要在每次交互中重新学习上下文，效率低下；此外，视觉推理能力的欠缺限制了AI Agent与复杂数字环境的交互。

AGI可量化评估框架提出：GPT-5仅得57% AGI 评估框架 GPT-5 认知能力第15张