令人惊讶的发现:驱动 AI 极限的已非单纯底座模型,而是外围的「推理编排」(Orchestration)在发挥作用。
在 LLM 保持不变的前提下,仅凭一套 Agentic System,AI 的智力表现便能实现显著提升。
在深入阅读了「AI 推理和自我改进系统」新兴公司 Poetiq 的最新评测后,有人得出了这样的结论。
部分截图展示
近日,Poetiq 宣布其使用 ARC-AGI-2 测试集,在其 meta-system 上运行了 GPT-5.2 X-High。该测试集通常用于衡量当前最先进模型在复杂抽象推理任务上的表现。
测试结果显示,在相同的 Poetiq 测试平台上,GPT‑5.2 X‑High 在完整的 PUBLIC-EVAL 数据集上的成绩高达 75%,比之前的 SOTA 高出约 15%,且每个问题的成本低于 8 美元。
PUBLIC-EVAL 是 ARC 测试的一部分,前者包含基础推理任务和标准的 NLP、数学推理测试,适合广泛的模型评测,数据集更为公开、标准;后者则包含更多复杂且富有挑战性的推理问题,考察模型的抽象推理、常识推理、创新能力等,是针对高水平模型的推理极限测试。
下图展示了各个 SOTA 模型在 PUBLIC-EVAL 数据集上的成绩分布:
Poetiq 还特别强调,其没有对 GPT-5.2 进行任何再训练或模型特定的优化。
在如此短的时间内,相较于 Poetiq 之前在 PUBLIC-EVAL 数据集上测试的其他模型,GPT-5.2 在准确率和价格方面实现了显著改进。
Poetiq 进一步设想:如果在 PUBLIC-EVAL 测试中的优秀表现能延续到 ARC Prize 官方的 SEMI-PRIVATE 测试中,「GPT-5.2 X-High + Poetiq」将超越以往任何系统配置。
ARC Prize 总裁 Greg Kamradt 表示,「很高兴看到 Poetiq 发布 GPT-5.2 X-High 的结果。如果这一成绩能够保持,「他们的系统似乎能很好地处理模型交换。然而,在 OpenAI API 的基础设施问题解决之前,结果尚未得到完全验证。」
这里的模型交换指的是:系统通过切换不同的模型来应对不同的任务需求,而无需对系统或模型进行大规模的调整或重新训练。
OpenAI 总裁 Greg Brockman 也转推表示:GPT-5.2 在 ARC-AGI-2 上超越人类基准成绩。
针对全新的测试结果,评论区提出了更多问题,例如「每个任务平均需要多长时间」。
Poetiq 回复称,「我们目前没有专门收集这些统计数据,但最简单的问题大概在 8 到 10 分钟后就能完成,而最难的问题必须在 12 小时前终止以保持时间限制。因此,未来肯定还有改进的空间。」
还有人指出,「大部分改进似乎源自测试框架和协调机制,而非任何模型特定的调优。没有训练变更的情况下,ARC-AGI-2 上提高了约 15%,这表明仅在搜索、路由和终止逻辑方面还有巨大提升空间」。
但问题是:为何在这个设置中,X-High 每个任务的成本比 High 还要低?是因为它更早找到正确解决方案而更快收敛,还是因为测试框架更积极地修剪了无效的推理过程?
对于此问题,Poetiq 肯定了「X-High 只是比 High 更快地收敛到正确答案」的观点。
Poetiq 是由六位研究员和工程师组成的团队,其中多位核心成员来自 Google DeepMind 。
Ian Fischer(联合创始人 & 联席 CEO):曾是 Google DeepMind 的资深研究员;
Shumeet Baluja(联合创始人 & 联席 CEO):同样出身于 Google/DeepMind 的资深专家。
Poetiq 能够取得上述成绩的关键在于其构建的 meta-system(元系统)。
Meta-system 不依赖特定的大模型,可与任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是训练或微调模型本身,这意味着它能随着新模型的发布快速适配并提升性能。
Poetiq meta-system 构建了一种迭代式推理过程,与传统一次性生成答案的方法不同,它有两个主要机制:
本文由主机测评网于2026-06-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260646995.html