人工智能被热议多年,但究竟何时才能全面超越人类智能?这已成为科技领域最引人瞩目的核心议题。
实际上,行业内对人工智能的终极目标始终围绕AGI(通用人工智能)展开,简而言之,即创造出具备人类同等智慧水平的AI系统。
若浏览马斯克的社交媒体平台,不难发现他频繁提及AGI,几乎三句话不离这一概念。
同时,OpenAI的首席执行官山姆·奥特曼也多次公开预测,AGI的到来已迫在眉睫,或许就在未来三到五年内成为现实。
然而,如何准确衡量这种智能水平呢?常言道,人与人之间的差异可能比人与动物间的差异更为显著。那么,究竟达到何种标准才算“与人一样聪明”呢?
令人惊讶的是,即便是那些终日为AGI争论不休的行业巨头,也难以清晰界定AGI的具体内涵。
这难道只是空洞的理论交锋吗?
为此,近期一批顶尖学者携手行动,包括图灵奖得主及谷歌前CEO在内的数十位专家联合发表了一篇论文,首次提出了AGI的量化定义框架。
他们利用GPT模型进行测试,结果显示:若将AGI设定为满分100分,GPT-5仅获得58分,处于不及格状态。
这些专家的核心主张是:AGI应定义为一种能够匹配“受过良好教育的成年人”综合能力的人工智能。
他们将心理学中最权威的CHC理论引入AI评估体系。该理论认为,智力并非单一维度可衡量,而需通过多维度综合考察。
这类似于高考制度:单一科目优秀不足为奇,唯有各科全面优异方能证明整体实力。
因此,他们将AI能力划分为10项核心维度,每项占10%权重,具体包括:
(K) 通识知识、(RW) 读写能力、(M) 数学能力、(R) 即时推理、(WM) 工作记忆、(V) 视觉处理、(A) 听觉处理、(S) 反应速度、(MS) 长期记忆存储、 (MR) 长期记忆检索。
其中,工作记忆与长期记忆可能较为抽象。工作记忆即短期记忆,指对近期信息的临时保持能力;而长期记忆则指AI通过交互永久性学习新知识的能力,犹如人类毕业后仍牢记“奇变偶不变”等知识。
针对每项能力,研究者设计了专项测试题。例如在即时推理部分,他们设置了略具挑战性的问题,如:
“大卫认识张先生的朋友杰克,杰克认识大卫的朋友林女士。认识杰克的人均拥有硕士学位,认识林女士的人都是上海人。请问谁同时具备上海人身份和硕士学位?”(此刻正是检验你是否为AI的时机)
他们选取了OpenAI的GPT-4(2023版)和GPT-5(2025版)进行测试。结果显示,GPT-4总分为27分,GPT-5总分为58分,均未达到100分满分。
进一步分析成绩单可见,AI表现严重不均衡,部分能力突出,部分则极为薄弱。
以GPT-5为例,在通识知识、读写能力、数学能力等项目上,得分接近9分或10分,表明这些是AI的优势领域。
然而,在长期记忆存储方面,GPT-5得分竟为零分,另有多项能力仅得3-4分。GPT-4更甚,多项能力得分为零。
长期记忆存储测试考察AI能否持续学习并保留信息。研究发现,当前AI普遍存在健忘问题:今日教授的内容,明日便遗忘殆尽。
测试方法为:首日向AI输入信息,次日开启新会话并要求其回忆。结果毫无悬念,AI完全无法回想,因为新会话窗口会重置记忆,得分为零也就不足为奇。
尽管有人反驳称当前AI已具备永久记忆功能,但论文指出,这种记忆并非真实记忆,而是一种模拟记忆的假象。
作者将此现象称为“能力扭曲”,即利用某些领域的优势掩盖其他领域的严重缺陷,营造出“AI具备全面能力”的错觉。现有AI记忆实则是通过扩展上下文长度或依赖外部知识库实现,本质上是外部辅助,模型自身并无真正记忆能力。
除记忆力外,长期记忆检索能力也同样薄弱,这涉及减少幻觉、避免虚构信息。
此外,视觉处理能力也表现不佳。GPT-4得分为零,GPT-5虽经升级,仅得4分。
此项测试并非简单识别图像内容,而是评估视觉推理能力。这对大模型而言尤为困难。例如题目:
“以下四个2D展开图中,哪一个无法折叠为左侧的立方体?”
此题对人类而言稍加思考即可解答,但AI如Gemini等仍难以应对。
这表明AI的视觉与认知系统尚未协同工作,缺乏人类边观察边推理的解题能力。
当然,这份报告并非完美无缺。除上述十个维度外,人脑还具备联想等难以量化的能力,人类智能的复杂性远非几道测试题所能涵盖。
但其重要价值在于为当前AI提供了全面诊断:AI发展仍不均衡,在一些基础认知能力上存在显著短板。
同时,当前AI厂商常采用技术捷径掩盖这些弱点。因此,该研究也发出警示:依赖此类方法无法实现真正的AGI。
尽管奥特曼近期直播中重申AGI即将到来,但实际进展仍有待观察。
需指出,该标准本身也存在争议。AGI未必需要模仿人类智能,它可能是一种截然不同的智能形式。生搬硬套人类CHC理论或许有刻板之嫌。
此外,标准设定或许过高。事实上,若AI能达到“未受教育儿童”的水平,便已堪称突破。何况部分人类自身也难以通过此类测试。
尽管如此,提出标准本身具有积极意义。它将AGI讨论从玄学层面拉回具体可衡量的领域,促使行业深入反思追求目标与现存差距。
这远比空谈即将实现AGI更为务实。
本文由主机测评网于2026-01-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119691.html