通用人工智能(AGI)被视作人类历史上可能的最重大技术突破,然而,因缺乏明确界定,其与人类智能的界限变得模糊不清。
为解决此难题,人工智能安全中心(CAIS)主任Dan Hendrycks与图灵奖得主Yoshua Bengio携手多位业界专家,共同提出一个可量化的框架,将AGI定义为:
“在认知多样性和熟练度上,媲美或超越受过良好教育的成年人”。
此定义强调,通用智能不仅要求专业领域的卓越表现,还需具备人类认知特有的技能广度(多功能性)和深度(熟练度)。
论文链接:https://arxiv.org/abs/2510...
研究结果显示,根据此框架,GPT-4的AGI得分仅为27%,而GPT-5的得分也仅为57%。
图|GPT-4和GPT-5的AGI得分。
这表明,尽管当前AI在复杂基准测试中表现不俗,但它们缺乏许多对类人通用智能至关重要的核心认知能力。
更重要的是,此框架提供了一个结构化、可量化、更稳健的方法来评估AGI,超越了狭隘、专业化的基准测试。
为系统检验AI系统的具体认知能力,研究团队基于卡特尔-霍恩-卡罗尔理论(人类智能最经实证验证的模型)构建方法论。该框架将通用智能分解为10个核心认知领域——包括推理、记忆与感知等——并采用成熟的人类心理测量测试套件评估AI系统。
图|在所提出的AGI定义下的10个核心组成。
具体内容如下:
1.通用知识
通用知识(General Knowledge),即“大多数受过良好教育的人所熟悉的知识,或大多数成年人都接触过的知识”。在这一维度上,研究团队从常识、科学、社会科学、历史、文化等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为9%。
2.读写能力
读写能力(Reading and Writing Ability),即“在阅读和写作中掌握所有陈述性知识和程序性技能”。在这一维度上,研究团队从常字词识别、阅读理解、写作能力、语法等方面对GPT-5、GPT-4进行了评估,结果显示,GPT-5的整体正确率仅为10%。
以上结果凸显了当前AI与人类水平的通用智能之间的能力鸿沟,具体表现在:
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543575.html