就在最近,GPT-5.2再次打破记录,创造了一项令人瞩目的新成就!
OpenAI的联合创始人Greg Brockman在社交平台上宣布,他们利用GPT-5.2在ARC-AGI-2基准测试中取得了超越人类基准线的成绩。
尽管在基准测试中表现卓越,但在实际应用中却往往“掉链子”,这种大模型所面临的“性能悖论”由OpenAI前首席科学家Ilya Sutskever提出,如今已为大家所熟知。
这也正是AGI评估领域中一个长期悬而未决的难题——怎样区分大模型是具备“真正的推理能力”,还是仅仅擅长“刷题型能力”。
而ARC-AGI-2的诞生恰好为这一难题提供了破解之道。
ARC-AGI-2的全名是“Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2”,它是ARC基准测试系列的最新升级版。
这一基准由François Chollet(Keras的创造者、前Google Brain研究员)及其团队于2025年推出,其设计意图非常明确:
检验AI是否拥有AGI所必需的抽象、归纳及迁移推理能力,而非仅仅依赖记忆或统计模式匹配。
ARC系列与传统NLP或多模态基准最大的区别在于:它没有庞大的训练数据集,每一道题都是全新的任务,从而杜绝了通过“刷数据”来获得高分的可能性。
它要求AI能够像人类那样进行真正的推理和举一反三。
Chollet曾多次公开指出,如果一个系统仅仅在见过的数据分布上表现优异,那么它并不具备AGI所需的能力。
因此,ARC基准测试恰好切中了大模型的“软肋”。
这次新纪录的创造者,并非单一模型,而是一个名为Poetiq(GPT-5.2X-High)的系统。
Poetiq是一家专注于元系统(Meta-System)架构的人工智能公司。
它的核心理念并非训练更大的模型,而是通过软件层面的系统设计,自动构建出“会调用模型的系统”。
Poetiq(GPT-5.2X-High)在ARC-AGI-2数据集上达到了75%的准确率,每个问题的成本不到8美元,比之前的最优水平高出15个百分点。
在Poetiq(GPT-5.2X-High)系统问世之前,GPT-5.2(X-High)就已经非常接近人类平均水平。
ARC-AGI-2的榜单显示,人类的平均准确率约为60%,而GPT-5.2X-High的成绩与之基本持平,这代表了当时AI在该基准上的最强推理能力。
然而,Poetiq的加入使得GPT-5.2(X-High)的得分从60%一跃升至75%,从勉强及格(相当于人类平均水平)迈入了优等生的行列(显著超越人类平均水平)。
在同一份榜单上,我们还能看到Gemini 3 Deep Think(预览版)的身影。
该模型主打“深度思考(Deep Think)”技术,在ARC-AGI-2上的得分约为46%,明显落后于GPT-5.2系列,并且成本也略高于后者。
Poetiq表示,整个过程没有对GPT-5.2进行任何训练或特定优化。
这正是Poetiq元系统的初衷,即自动构建完整的系统,通过调用任何现有的前沿模型来解决特定任务。
从15%的性能提升来看,Poetiq对基础模型性能的改进效果非常显著。
它的存在证明了无需堆积算力,通过优秀的软件架构也能大幅提升AI性能。
从这个角度来看,它也验证了OpenAI随后提出的一个判断——
当前的大模型,正逐渐进入“能力过剩”阶段。
就在同一天,OpenAI官方也在X平台上发布了对2026年的预测。
在这条推文中,OpenAI明确提及一个关键词:Capability Overhang(能力过剩)。
其核心意思是:
当前模型“能够做到的事情”,与人们“实际使用AI的方式”(产生的效果)之间,存在着巨大的鸿沟。
OpenAI认为,未来AGI的进展将不再仅仅依赖于模型本身的突破,还将取决于:
人们是否懂得如何有效使用AI
AI是否真正融入现实工作与生活
系统是否能将模型能力转化为实际价值
因此,在2026年,OpenAI将继续进行前沿研究,同时重点投入应用层、系统层和人机协同,尤其强调医疗、商业和日常生活场景。
OpenAI的这篇官方推文涉及人机协同的问题。
实现AGI,需要模型与人协同发挥作用:AGI不仅依赖模型升级,更要“教会人们使用AI”。
通过正确使用AI,充分释放AI的潜能,才能让AI从“炫技”转向“普惠”,真正影响亿万人的生活。
这一观点也引发了社区的强烈反响。
于是,有乐观的网友评论道:“直接把我整个人自动化了吧!”
也有网友提到,真正的挑战在于如何将AI融入工作流程:见过太多组织购买了“AI”,却从未改变任何流程。
那么,是否真的如OpenAI所说,大模型的能力已经过剩了呢?
通过上述Poetiq公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表现,75%的得分超过人类平均水平(60%)15个百分点。
此前,OpenAI官方在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准,随后被外界引申为“博士级智能”。
这说明GPT-5等大模型在某些专业任务中的表现类似于人类博士的专业水平。
从模型本身来看,也许并未完全过剩,但从“未被充分释放的能力”角度来看,已经严重过剩。
其中,有模型设计方的原因,比如他们没有紧跟用户的使用场景,“不再与用户并肩同行了”。
也可能由于前沿模型在推理和创新方面缺乏根本性突破。
还有模型本身迭代过快,用户不得不在日常生活中不断弃用已经“成功上手”的模型。
Poetiq的出现,以及OpenAI对“能力过剩”的判断,共同指向了未来AI领域的一个新方向:
下一阶段的AI竞争,将不再仅仅是模型参数之争,而是系统、流程与人机协同的竞争。
参考资料:
https://x.com/poetiq_ai/status/2003546910427361402
https://x.com/OpenAI/status/2003594025098785145
本文由主机测评网于2026-03-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260331897.html