由六位前DeepMind精英组成的团队,通过元系统重新定义了大模型调用模式。他们开发的Gemini 3 Pro优化方案在ARC-AGI-2评测中以54%的高分登顶,且成本仅为之前最佳方案的一半。
近日,六位曾任职于Google DeepMind的研究员与工程师再次引起业界瞩目。
他们新成立的初创企业Poetiq,并未选择研发更庞大的模型,而是构建了一套元系统,能够使尖端大模型自主生成针对具体任务的解决策略与模型搭配方案。
此举不仅攻克了前沿模型在处理复杂现实问题时孤立无援的难题,还将整体推理开销削减了50%。
12月8日,ARC Prize官方正式确认了该团队的成就。
Poetiq推出的Gemini 3 Pro优化技术在ARC-AGI-2排行榜上刷新了最佳成绩,准确率高达54%,且每个任务的算力消耗仅需31美元。
这一进展显著超越了先前的所有模型表现,在榜单上独占鳌头。
Poetiq创始成员全部出身于Google DeepMind
Poetiq是一支精英荟萃、技术实力雄厚的团队,由六位来自Google DeepMind的研究员和工程师构成。
这支创始团队累计拥有53年的行业经验,他们在Poetiq的使命是“通过更高效的推理,开辟通往安全超级智能的最快捷径”。
12月5日,这家成立不足一年的企业骄傲地宣告:
“Poetiq系统已经将现有方法远远甩在身后,并确立了全新的行业标杆。”
如图所示,Poetiq系统在ARC-AGI-2半私有评估集中刷新了历史记录。
11月20日,Poetiq率先披露了其在ARC-AGI-2上的优异表现,如今ARC Prize对其公布的结果进行了官方核验。
Poetiq研发的一套纯Gemini方案参与了ARC Prize的官方测评。
该系统以每道题30.57美元的开销实现了54%的准确率,刷新了此前Gemini 3 Deep Think保持的每道题77.16美元、45%的最佳纪录。
Poetiq团队称,在ARC-AGI-2公开数据集中,Poetiq系统构筑了全新的帕累托前沿,不仅超越了既往成就,还进一步拓展了成本效益推理的极限。
Poetiq团队将此佳绩归功于其元系统。
Poetiq的核心理念是在任何模型基础上构筑智能。
其元系统旨在借助任何现成的尖端模型,自动生成能应对特定任务的完整体系,既无需自研也无需微调大型前沿模型。
这正是Poetiq能在Gemini 3与GPT-5.1发布后短短数小时内,便迅速集成并取得顶尖表现的原因所在。
如图所示,Poetiq元系统在ARC-AGI-1和ARC-AGI-2上不仅全方位超越了历史成绩,也再度将低成本推理的边界向前推进。
上述方案虽可各自独立运行,但它们共享的底层则是Poetiq灵活的元系统。
该元系统的核心优势之一在于能够自动选择模型组合与策略,甚至能自主判断何时需要编写代码、以及应由哪个模型来承担编码任务。
Poetiq的迭代、自我进化系统完全不依赖特定大模型,在集成最新模型时也能充分发挥其潜力。
为更充分展现Poetiq元系统的能力,研究团队将其应用于多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新型号上。
每一次应用,Poetiq都达成了“更高准确率+更低成本”的完美组合。
上图中展示了12款模型(涵盖ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上经Poetiq处理后的表现。
Poetiq是如何实现这一点的?其核心方法可以概括为一句话:
自顶向下,完全仰仗大语言模型。
Poetiq利用大模型来构建系统、优化系统,并驱动系统自身运转。
正是这种灵活、强大且迭代的系统架构,使Poetiq能够迅速斩获这一系列顶尖成果。
Poetiq公开了部分具体配置,旨在阐释两个核心理念:
提示词仅为交互接口,并非智能本质
系统采用循环式解题流程:它并非仅提问一次,而是先让大模型生成一个候选答案(有时包含代码),随后根据反馈进行分析,并继续借助模型优化答案。
这种多步骤、自我完善的机制,使得系统能够逐步构建并雕琢出最终答案。
自主校验
系统会自动检查自身进展,判断何时信息充足、结果可信,进而自动终止流程。
这种自我监控机制能有效防止算力浪费,从而降低整体开销。
Poetiq认为ARC-AGI是验证其核心理念的理想试验场。
大模型虽蕴含丰富的人类知识,但在复杂推理任务中常表现出不稳定性。
原因之一在于模型表现高度依赖提示词,而提示词的随机性会导致知识提取不够可靠,进而使推理步骤难以预测。
真正的挑战在于:如何找到一种推理策略,既能准确提取所需信息,又能在获取信息后有效整合,并智能决策下一步行动。
Poetiq的核心目标,正是让这一过程实现自动化并持续优化。
Poetiq构建的系统并不预设推理策略,而是让模型自主探索最合适的推理路径,并在现实约束(预算、令牌或算力)下运作。
这将充分释放生成式AI在复杂推理领域的真正潜能。
Poetiq系统能迅速适配任务特性与模型特性,而ARC-AGI评估的正是模型的抽象推理、归纳、逻辑与策略生成能力,这与Poetiq系统的优势高度契合。
为使Poetiq元系统能在每次解决新任务中持续演进,任务的多样性至关重要。
为此,Poetiq团队正致力于让系统挑战更多基准任务,覆盖多种推理与检索需求。
此外,Poetiq系统的一大优势在于擅长与其他系统协同工作。
该系统可用于优化现有大型系统中的AI组件。
若能在不改动模型本身的前提下,借助前沿模型丰富的世界知识解决长时序任务,若能令底层知识提取机制更贴合大模型,或许便无需进行模型微调——这正是Poetiq下一步的研究方向之一。
https://poetiq.ai/posts/arcagi_verified/%20
https://x.com/arcprize/status/1997743855203148038?s=20
本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328762.html