Poetiq元系统重塑大模型：成本减半，效率翻倍

六位前DeepMind成员通过元系统革新大模型调用方式，Gemini 3 Pro优化技术在ARC-AGI-2上取得了54%的优异成绩，且成本仅为之前最优方法的一半。

近期，六名来自Google DeepMind的前研究员和工程师在新技术创业上取得了突破。

他们创立的Poetiq公司并未追求构建更大、更智能的模型，而是开发了一个元系统，该系统能让前沿大模型自动生成解决特定任务的策略和模型组合。

这不仅解决了前沿模型难以单独解决复杂现实世界问题的痛点，还将整体推理成本降低了一半。

12月8日，ARC Prize正式确认了该团队的成果。

Poetiq元系统重塑大模型：成本减半，效率翻倍 Poetiq 元系统大模型成本优化第1张

Poetiq推出的Gemini 3 Pro优化技术，在ARC-AGI-2 leaderboard上取得了新的SOTA，得分高达54%，每个任务的计算成本仅为31美元。

这一突破远超之前模型的最优表现，在leaderboard上独占鳌头。

Poetiq团队揭秘

Poetiq元系统重塑大模型：成本减半，效率翻倍 Poetiq 元系统大模型成本优化第2张

Poetiq的初创团队均来自Google DeepMind。

Poetiq是一个由六名来自Google DeepMind的研究员与工程师组成的精干且高度技术型的团队。

该团队总专业经验达53年，他们的目标是「通过更优的推理，铺就通往安全超级智能的最快路径」。

Poetiq元系统重塑大模型：成本减半，效率翻倍 Poetiq 元系统大模型成本优化第3张

这家成立不到一年的公司在12月5日自豪地宣布：

「Poetiq系统已经大幅超越现有方法，并树立了新的行业最佳表现。」

Poetiq元系统重塑大模型：成本减半，效率翻倍 Poetiq 元系统大模型成本优化第4张

如上图所示，Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。

Poetiq在11月20日公布了其在ARC-AGI-2上的强劲表现，此次ARC Prize对Poetiq的成绩进行了官方验证。

Poetiq的方法是在任意模型之上构建智能。

其元系统旨在利用任何现成的前沿模型，自动生成能解决特定任务的完整系统，无需构建甚至无需微调自己的大前沿模型。

相比之下，Gemini 3 Deep Think（预览版）成本更高，准确率却更低。Poetiq（Gemini-3-a、b、c）展示了如何利用多个大语言模型，在任意成本目标下实现最大化性能。
Poetiq系统通过多次调用Gemini-3来程序化处理ARC-AGI-1和ARC-AGI-2的问题，从而在广泛的计算区间内实现帕累托最优。
Poetiq（Grok-4-Fast）主打极致成本效率，构建于Grok-4-Fast Reasoning模型之上。不仅比原模型便宜、准确率高，还能达到与价格高两个数量级的模型相当的准确度。
Poetiq（GPT-OSS-b）基于开源权重模型GPT-OSS-120B，在单题不到1美分的成本下仍取得了非常亮眼的准确率。
Poetiq（GPT-OSS-a）基于GPT-OSS-120B的低思考版本，用于展示极限成本条件下的系统表现。

以上方案虽各自独立运行，但共同的底层是Poetiq灵活的元系统。