当前位置:首页 > 科技资讯 > 正文

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15%

令人惊讶的是,决定人工智能能力上限的关键因素已经不再是基础模型本身,而是外部的“推理编排”(Orchestration)。

在大型语言模型(LLM)保持完全不变的情况下,仅通过一套Agentic System,就能使AI的智能水平实现显著跃升。

这一结论源自对专注于“AI推理和自我改进系统”的初创公司Poetiq最新评测结果的分析。

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第1张

上图展示了部分评测结果的截图。

近日,Poetiq宣布其采用ARC-AGI-2测试集,在其自研系统(称为元系统meta-system)上对GPT-5.2 X-High进行了测试。该测试集通常用于评估当前最先进模型在复杂抽象推理任务上的表现。

测试结果显示,在相同的Poetiq测试平台上,GPT‑5.2 X‑High在完整的PUBLIC-EVAL数据集上取得了75%的优异成绩,较之前的最佳水平提升了约15%,且每个问题的处理成本低于8美元。

PUBLIC-EVAL是ARC测试的一个组成部分,前者主要包含基础推理任务及标准的自然语言处理、数学推理测试,适合广泛模型评估,数据集更具公开性和标准化;后者则包含更多复杂且富有挑战性的推理问题,考察模型的抽象推理、常识推理和创新能力等,是针对高水平模型的推理极限测试。

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第2张

下图呈现了各SOTA模型在PUBLIC-EVAL数据集上的成绩分布情况:

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第3张

Poetiq特别指出,他们并未对GPT-5.2进行任何再训练或针对特定模型的优化调整。

在如此短暂的时间内,相较于Poetiq先前在PUBLIC-EVAL数据集上测试的其他模型,GPT-5.2在准确率和成本效益方面实现了显著提升。

Poetiq进一步推测,若在PUBLIC-EVAL测试中表现优异的规律能够延续至ARC Prize官方的SEMI-PRIVATE测试中,那么“GPT-5.2 X-High + Poetiq”的组合将超越以往任何系统配置,表现更为出色。

ARC Prize总裁Greg Kamradt表示,“非常高兴看到Poetiq发布GPT-5.2 X-High的测试结果。如果这一成绩能够保持,他们的系统似乎能够很好地处理模型交换。不过,在OpenAI API的基础设施问题得到解决之前,结果尚未得到完全验证。”

这里提及的模型交换,是指系统通过切换不同模型来应对多样化的任务需求,而无需对系统或模型进行大规模调整或重新训练

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第4张

OpenAI总裁Greg Brockman也转发推文表示:GPT-5.2在ARC-AGI-2上超越了人类基准成绩。

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第5张

针对全新的测试结果,评论区涌现出更多问题,例如“每个任务平均耗时多久”。

Poetiq回应称,“目前我们尚未专门收集这些统计数据,最简单的问题大约在8到10分钟后即可完成,而最复杂的问题则必须在12小时内终止,以确保在时间限制内。因此,未来仍有改进空间。”

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第6张

还有人指出,“大部分性能提升似乎源自测试框架和协调机制,而非任何模型特定的调优。在没有训练变更的情况下,ARC-AGI-2上提升约15%,这表明仅在搜索、路由和终止逻辑方面就存在巨大的优化潜力。”

随之而来的问题是:为何在此设置中,X-High每个任务的成本反而比High更低?是因为它通过更早找到正确解决方案而更快收敛,还是测试框架更积极地修剪了无效推理过程?

对此,Poetiq确认了“X-High仅是比High更快地收敛到正确答案”的观点。

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第7张

仅6人团队缔造的Meta-system系统

Poetiq是一支由6位研究员和工程师组成的小型团队,其中多位核心成员曾任职于Google DeepMind。

Ian Fischer(联合创始人兼联席CEO):曾是Google DeepMind的资深研究员;

Shumeet Baluja(联合创始人兼联席CEO):同样出身于Google/DeepMind的资深专家。

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第8张

Poetiq能够取得上述成就,关键在于其构建的meta-system(元系统)

Meta-system不依赖于特定的大模型,可以与任何前沿模型(如Gemini 3、GPT-5.1、Grok等)协同工作,而非训练或微调模型本身,这意味着它能随着新模型的发布快速适配并提升性能。

Poetiq的meta-system构建了一种迭代式推理过程,与传统的一次性生成答案的方法不同,它包含两个主要机制:

迭代式问题求解循环:系统并非仅向模型提问一次,而是利用大语言模型(LLM)生成一个潜在解决方案,随后接收反馈、分析反馈,并再次调用LLM对方案进行改进。这种多步骤、自我优化的过程,使系统能够逐步构建并不断完善最终答案。

自我审计(Self-Auditing):系统能够自主审计自身运行进度,并自行判断何时已获得足够信息、当前解决方案是否令人满意,从而决定终止整个过程。这种自我监控机制对于避免不必要的计算浪费、有效降低整体成本至关重要。

Poetiq还特别强调,他们所有meta-system的适配工作均在新模型发布前完成,且系统从未直接接触过ARC-AGI任务集,但依然在多个不同模型上取得跨版本、跨模型族的性能提升,这证明了meta-system对推理策略具有良好的泛化能力。

正是这种灵活、强大且具备递归能力的架构,使得Poetiq这样一支小规模团队,能够在极短时间内取得一系列最先进(SOTA)的成果。

对于这个meta-system,有评论称,“太棒了。在模型之上构建智能,而非在模型内部构建,意味着可以在几小时内适配新模型,非常高明。适配开源模型,并成功迁移到新的封闭模型,这表明捕捉到的是推理过程本身的基本规律,而非模型特定的怪癖。”

Poetiq元系统突破AI推理上限,GPT-5.2在ARC-AGI-2测试中提升15% AI推理 元系统 ARC-AGI-2 性能提升 第9张

参考链接:https://poetiq.ai/posts/arcagi_verified/