近期,AI界对于LLM能否通向AGI的争论如火如荼。一边是坚信当前模式与扩展定律能实现AGI的企业界,另一边是学术界重量级人物提出的尖锐批评。
Richard Sutton认为LLM过度依赖人类标注数据,缺乏真正的学习机制;Gary Marcus指出大模型的推理能力存在根本缺陷;而Yann LeCun则断言纯语言模型永远无法达到人类水平的智能。争论的核心在于AGI的定义。
尽管大家认同达到人类水平的智能即AGI,但具体维度和评估方式却模糊不清。为解决这一问题,AI三巨头之一图灵奖得主约书亚·本吉奥领衔的研究团队发表了《AGI的定义》,试图清晰定义这一模糊概念。
论文的作者团队囊括了人工智能领域,特别是AI安全、伦理方向的全球顶级学者、研究员和行业领袖。其中,一线核心研究者如Dan Hendrycks、Dawn Song、Christian Szegedy等,跨领域专家如经济学家斯坦福HAI的主任Erik Brynjolfsson。
此外,还有非专业AI领域但在业内影响力极大的思想家和批评者,如未来生命研究所(FLI)的创始人Max Tegmark、纽约大学名誉教授Gary Marcus等。行业巨头与资助者也参与其中,如谷歌的前CEO Eric Schmidt、Skype的联合创始人Jaan Tallinn。
他们得出的结论与当前LLM是否能通向AGI的争论一致。在新的AGI定义下,GPT-5等顶尖AI在核心维度上表现极佳,但在其他维度上表现极差。这些偏科的维度与LLM批评者提及的能力缺失完全相符。
论文为AGI给出了清晰而直观的定义:在认知通用性和熟练度上达到或超过一个受过良好教育的成年人水平的人工智能。核心特质包括通用性和熟练度。
通过锚定受过良好教育的成年人这一范例,定义成功将抽象概念转化为可供参考和测试的实体。衡量AGI的最佳方式是使用衡量人类智能的蓝图——Cattell-Horn-Carroll (CHC)理论。
CHC理论将人类认知能力描绘成三层级的金字塔结构,包括一般智力因素、十大广义能力和约80多种狭义能力。论文对CHC的十大广义能力进行了改编和操作化,分为十个方向,每个方向平均占有AGI满分评分中的10分。
评估结果显示,当代AI的能力发展呈现出犬牙交错的认知剖面图。GPT-4的AGI总分为27%,而GPT-5的总分可达58%。尽管总分翻倍,但进步非常不平均。
AI的强项在于能从海量数据中直接学习的领域,但在长期记忆存储等能力上,无论是GPT-4还是GPT-5,得分均为0%。这意味着当前AI系统患有严重的失忆症。
此外,在即时推理、视觉推理、听觉处理等领域,现有模型也存在严重短板。研究团队对十大方向的能力进行了更细致的拆分,发现当前模型最大的短板有三点:不可靠、无主动学习能力、对世界认知浅薄。
论文还提出了能力扭曲这一概念,解释了为何AI在日常使用中看似无所不知。它提出了两种能力扭曲的问题,都是用取巧的办法掩盖长期记忆短板。一是用工作记忆伪装长期记忆;二是用外部搜索伪装内部记忆检索。
这个AGI定义框架将长期模糊的概念转化为了具体可测的指标,为AI发展提供了重要的指导方向。尽管有局限性,但它为争论提供了共同的讨论基础。
从GPT-4的27%到GPT-5的58%,我们看到了AI能力的快速提升。但真正的AGI之路依然任重道远。重要的是,现在我们有了一张清晰的地图。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542871.html