六位前DeepMind成员通过元系统革新大模型调用方式,Gemini 3 Pro优化技术在ARC-AGI-2上取得了54%的优异成绩,且成本仅为之前最优方法的一半。
近期,六名来自Google DeepMind的前研究员和工程师在新技术创业上取得了突破。
他们创立的Poetiq公司并未追求构建更大、更智能的模型,而是开发了一个元系统,该系统能让前沿大模型自动生成解决特定任务的策略和模型组合。
这不仅解决了前沿模型难以单独解决复杂现实世界问题的痛点,还将整体推理成本降低了一半。
12月8日,ARC Prize正式确认了该团队的成果。
Poetiq推出的Gemini 3 Pro优化技术,在ARC-AGI-2 leaderboard上取得了新的SOTA,得分高达54%,每个任务的计算成本仅为31美元。
这一突破远超之前模型的最优表现,在leaderboard上独占鳌头。
Poetiq的初创团队均来自Google DeepMind。
Poetiq是一个由六名来自Google DeepMind的研究员与工程师组成的精干且高度技术型的团队。
该团队总专业经验达53年,他们的目标是「通过更优的推理,铺就通往安全超级智能的最快路径」。
这家成立不到一年的公司在12月5日自豪地宣布:
「Poetiq系统已经大幅超越现有方法,并树立了新的行业最佳表现。」
如上图所示,Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。
Poetiq在11月20日公布了其在ARC-AGI-2上的强劲表现,此次ARC Prize对Poetiq的成绩进行了官方验证。
Poetiq的方法是在任意模型之上构建智能。
其元系统旨在利用任何现成的前沿模型,自动生成能解决特定任务的完整系统,无需构建甚至无需微调自己的大前沿模型。
以上方案虽各自独立运行,但共同的底层是Poetiq灵活的元系统。
为了进一步展示Poetiq元系统的能力,研究人员将其应用到多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。
每次,Poetiq都实现了「更高准确率+更低成本」的组合。
Poetiq认为ARC-AGI是验证自身核心理念的理想测试场。
大模型蕴含大量人类知识,但在复杂推理任务上常出现不稳定情况。一个原因是模型表现高度依赖提示词,其随机性会让知识提取变得不够可靠,使推理步骤难以预测。
真正的挑战在于发现一种推理策略,既能找出需要的信息,又能在找到信息时顺利组合起来,并智能判断下一步该做什么。
Poetiq的核心目标就是为了让这一过程能够自动化并不断优化。
本文由主机测评网于2026-05-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546253.html