当前位置:首页 > 科技资讯 > 正文

Poetiq元系统重塑大模型:成本减半,效率翻倍

六位前DeepMind成员通过元系统革新大模型调用方式,Gemini 3 Pro优化技术在ARC-AGI-2上取得了54%的优异成绩,且成本仅为之前最优方法的一半。

近期,六名来自Google DeepMind的前研究员和工程师在新技术创业上取得了突破。

他们创立的Poetiq公司并未追求构建更大、更智能的模型,而是开发了一个元系统,该系统能让前沿大模型自动生成解决特定任务的策略和模型组合。

这不仅解决了前沿模型难以单独解决复杂现实世界问题的痛点,还将整体推理成本降低了一半。

12月8日,ARC Prize正式确认了该团队的成果。

Poetiq元系统重塑大模型:成本减半,效率翻倍 Poetiq 元系统 大模型 成本优化 第1张

Poetiq推出的Gemini 3 Pro优化技术,在ARC-AGI-2 leaderboard上取得了新的SOTA,得分高达54%,每个任务的计算成本仅为31美元。

这一突破远超之前模型的最优表现,在leaderboard上独占鳌头。

Poetiq团队揭秘

Poetiq元系统重塑大模型:成本减半,效率翻倍 Poetiq 元系统 大模型 成本优化 第2张

Poetiq的初创团队均来自Google DeepMind。

Poetiq是一个由六名来自Google DeepMind的研究员与工程师组成的精干且高度技术型的团队。

该团队总专业经验达53年,他们的目标是「通过更优的推理,铺就通往安全超级智能的最快路径」。

Poetiq元系统重塑大模型:成本减半,效率翻倍 Poetiq 元系统 大模型 成本优化 第3张

这家成立不到一年的公司在12月5日自豪地宣布:

「Poetiq系统已经大幅超越现有方法,并树立了新的行业最佳表现。」

Poetiq元系统重塑大模型:成本减半,效率翻倍 Poetiq 元系统 大模型 成本优化 第4张

如上图所示,Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。

Poetiq在11月20日公布了其在ARC-AGI-2上的强劲表现,此次ARC Prize对Poetiq的成绩进行了官方验证。

元系统在任意模型上构建智能

Poetiq的方法是在任意模型之上构建智能。

其元系统旨在利用任何现成的前沿模型,自动生成能解决特定任务的完整系统,无需构建甚至无需微调自己的大前沿模型。

  • 相比之下,Gemini 3 Deep Think(预览版)成本更高,准确率却更低。Poetiq(Gemini-3-a、b、c)展示了如何利用多个大语言模型,在任意成本目标下实现最大化性能。
  • Poetiq系统通过多次调用Gemini-3来程序化处理ARC-AGI-1和ARC-AGI-2的问题,从而在广泛的计算区间内实现帕累托最优。
  • Poetiq(Grok-4-Fast)主打极致成本效率,构建于Grok-4-Fast Reasoning模型之上。不仅比原模型便宜、准确率高,还能达到与价格高两个数量级的模型相当的准确度。
  • Poetiq(GPT-OSS-b)基于开源权重模型GPT-OSS-120B,在单题不到1美分的成本下仍取得了非常亮眼的准确率。
  • Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用于展示极限成本条件下的系统表现。

以上方案虽各自独立运行,但共同的底层是Poetiq灵活的元系统。

使用Poetiq元系统强化主流模型

为了进一步展示Poetiq元系统的能力,研究人员将其应用到多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每次,Poetiq都实现了「更高准确率+更低成本」的组合。

为什么选择ARC-AGI?

Poetiq认为ARC-AGI是验证自身核心理念的理想测试场。

大模型蕴含大量人类知识,但在复杂推理任务上常出现不稳定情况。一个原因是模型表现高度依赖提示词,其随机性会让知识提取变得不够可靠,使推理步骤难以预测。

真正的挑战在于发现一种推理策略,既能找出需要的信息,又能在找到信息时顺利组合起来,并智能判断下一步该做什么。

Poetiq的核心目标就是为了让这一过程能够自动化并不断优化。