当前位置：首页 > 科技资讯 > 正文

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代

主机测评网
科技资讯
2026-03-17
896

就在最近，GPT-5.2再次打破记录，创造了一项令人瞩目的新成就！

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第1张

OpenAI的联合创始人Greg Brockman在社交平台上宣布，他们利用GPT-5.2在ARC-AGI-2基准测试中取得了超越人类基准线的成绩。

尽管在基准测试中表现卓越，但在实际应用中却往往“掉链子”，这种大模型所面临的“性能悖论”由OpenAI前首席科学家Ilya Sutskever提出，如今已为大家所熟知。

这也正是AGI评估领域中一个长期悬而未决的难题——怎样区分大模型是具备“真正的推理能力”，还是仅仅擅长“刷题型能力”。

而ARC-AGI-2的诞生恰好为这一难题提供了破解之道。

ARC-AGI-2的全名是“Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2”，它是ARC基准测试系列的最新升级版。

这一基准由François Chollet（Keras的创造者、前Google Brain研究员）及其团队于2025年推出，其设计意图非常明确：

检验AI是否拥有AGI所必需的抽象、归纳及迁移推理能力，而非仅仅依赖记忆或统计模式匹配。

ARC系列与传统NLP或多模态基准最大的区别在于：它没有庞大的训练数据集，每一道题都是全新的任务，从而杜绝了通过“刷数据”来获得高分的可能性。

它要求AI能够像人类那样进行真正的推理和举一反三。

Chollet曾多次公开指出，如果一个系统仅仅在见过的数据分布上表现优异，那么它并不具备AGI所需的能力。

因此，ARC基准测试恰好切中了大模型的“软肋”。

从“及格线”到“优等生”

一次关键性跨越

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第2张

这次新纪录的创造者，并非单一模型，而是一个名为Poetiq（GPT-5.2X-High）的系统。

Poetiq是一家专注于元系统（Meta-System）架构的人工智能公司。

它的核心理念并非训练更大的模型，而是通过软件层面的系统设计，自动构建出“会调用模型的系统”。

Poetiq（GPT-5.2X-High）在ARC-AGI-2数据集上达到了75%的准确率，每个问题的成本不到8美元，比之前的最优水平高出15个百分点。

在Poetiq（GPT-5.2X-High）系统问世之前，GPT-5.2(X-High)就已经非常接近人类平均水平。

ARC-AGI-2的榜单显示，人类的平均准确率约为60%，而GPT-5.2X-High的成绩与之基本持平，这代表了当时AI在该基准上的最强推理能力。

然而，Poetiq的加入使得GPT-5.2(X-High)的得分从60%一跃升至75%，从勉强及格（相当于人类平均水平）迈入了优等生的行列（显著超越人类平均水平）。

在同一份榜单上，我们还能看到Gemini 3 Deep Think（预览版）的身影。

该模型主打“深度思考（Deep Think）”技术，在ARC-AGI-2上的得分约为46%，明显落后于GPT-5.2系列，并且成本也略高于后者。

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第3张

Poetiq表示，整个过程没有对GPT-5.2进行任何训练或特定优化。

这正是Poetiq元系统的初衷，即自动构建完整的系统，通过调用任何现有的前沿模型来解决特定任务。

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第4张

从15%的性能提升来看，Poetiq对基础模型性能的改进效果非常显著。

它的存在证明了无需堆积算力，通过优秀的软件架构也能大幅提升AI性能。

从这个角度来看，它也验证了OpenAI随后提出的一个判断——

当前的大模型，正逐渐进入“能力过剩”阶段。

大模型“能力过剩”时代

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第5张

就在同一天，OpenAI官方也在X平台上发布了对2026年的预测。

在这条推文中，OpenAI明确提及一个关键词：Capability Overhang（能力过剩）。

其核心意思是：

当前模型“能够做到的事情”，与人们“实际使用AI的方式”（产生的效果）之间，存在着巨大的鸿沟。

OpenAI认为，未来AGI的进展将不再仅仅依赖于模型本身的突破，还将取决于：

人们是否懂得如何有效使用AI

AI是否真正融入现实工作与生活

系统是否能将模型能力转化为实际价值

因此，在2026年，OpenAI将继续进行前沿研究，同时重点投入应用层、系统层和人机协同，尤其强调医疗、商业和日常生活场景。

人机协同

AGI的另一块拼图

OpenAI的这篇官方推文涉及人机协同的问题。

实现AGI，需要模型与人协同发挥作用：AGI不仅依赖模型升级，更要“教会人们使用AI”。

通过正确使用AI，充分释放AI的潜能，才能让AI从“炫技”转向“普惠”，真正影响亿万人的生活。

这一观点也引发了社区的强烈反响。

于是，有乐观的网友评论道：“直接把我整个人自动化了吧！”

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第6张

也有网友提到，真正的挑战在于如何将AI融入工作流程：见过太多组织购买了“AI”，却从未改变任何流程。

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第7张

大模型真的“能力过剩”了吗？

那么，是否真的如OpenAI所说，大模型的能力已经过剩了呢？

通过上述Poetiq公布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表现，75%的得分超过人类平均水平（60%）15个百分点。

此前，OpenAI官方在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准，随后被外界引申为“博士级智能”。

这说明GPT-5等大模型在某些专业任务中的表现类似于人类博士的专业水平。

从模型本身来看，也许并未完全过剩，但从“未被充分释放的能力”角度来看，已经严重过剩。

其中，有模型设计方的原因，比如他们没有紧跟用户的使用场景，“不再与用户并肩同行了”。

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第8张

也可能由于前沿模型在推理和创新方面缺乏根本性突破。

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第9张

还有模型本身迭代过快，用户不得不在日常生活中不断弃用已经“成功上手”的模型。

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代 GPT-5.2 ARC-AGI-2 能力过剩人机协同第10张

Poetiq的出现，以及OpenAI对“能力过剩”的判断，共同指向了未来AI领域的一个新方向：

下一阶段的AI竞争，将不再仅仅是模型参数之争，而是系统、流程与人机协同的竞争。

参考资料：

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

免费服务器服务器教程

本文由主机测评网于2026-03-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：http://www.vpshk.cn/20260331897.html

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代

从“及格线”到“优等生”

一次关键性跨越

大模型“能力过剩”时代

人机协同

AGI的另一块拼图

大模型真的“能力过剩”了吗？

前谷歌DeepMind与苹果科学家携手创业，Elorian获5000万美元种子轮融资，聚焦视觉推理

Verge TS Pro电摩：固态电池+无轮毂电机，是技术突破还是资本游戏？

ARC-AGI-2新纪录：GPT-5.2超越人类水平，开启AI“能力过剩”时代

从“及格线”到“优等生”

一次关键性跨越

大模型“能力过剩”时代

人机协同

AGI的另一块拼图

大模型真的“能力过剩”了吗？

前谷歌DeepMind与苹果科学家携手创业，Elorian获5000万美元种子轮融资，聚焦视觉推理

Verge TS Pro电摩：固态电池+无轮毂电机，是技术突破还是资本游戏？

相关文章