当前位置:首页 > 科技资讯 > 正文

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃

您的 AI 伙伴「游戏陪玩」版已升级!

今日,Google DeepMind 推出了SIMA 2——一款在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。

DeepMind 创始人哈萨比斯称其为迈向通用 AI 的关键步伐

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第1张

去年,谷歌 DeepMind 推出了 SIMA(Scalable Instructable Multiworld Agent),一款能在多种虚拟环境中运作、遵循基本指令的通才 AI,标志着 AI 在 3D 世界中将语言转化为行动的初步探索。

而 SIMA 2 则代表了这一研究的重大突破,是创建通用和有益 AI 智能体研究的下一个里程碑。通过集成 Gemini 模型的先进能力,SIMA 正在从一个被动的、模仿人类操作的指令遵循者进化为一个交互式的游戏伴侣

SIMA 2 不仅遵循人类指令,还在未见过的复杂环境中(如各种开放世界游戏)进行自主规划、解释行动步骤、与用户实时对话(支持文本、语音或图像输入),并通过试错与 Gemini 反馈的闭环机制自我迭代,提升技能。

这对机器人技术和人工智能的未来具有重要意义,因为它正在构建未来物理世界智能体所需的核心「认知构建模块」。

评论区也对其应用进行了大胆设想。

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第2张

所以,是 GTA 6 先发布,还是 AGI 先实现?

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第3张

推理的力量

第一版 SIMA 学会了在各种商业视频游戏中执行超过 600 种语言遵循技能,如「左转」、「爬梯子」和「打开地图」。它像人一样在这些环境中操作,通过「查看」屏幕并使用虚拟键盘和鼠标进行导航,而无需访问底层的游戏机制。

尽管 SIMA 1 是优秀的「技能执行者」,但它缺乏深度规划和意图理解,仅限于被动模仿。

SIMA 2 则标志着从指令跟随到主动认知的跃进。通过嵌入 Gemini 模型作为核心引擎,SIMA 2 不仅响应指令,还能进行多步骤推理:从语言解析意图、制定计划,到执行行动。

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第4张

MineDojo:SIMA 1(左)尝试执行指令时,SIMA 2(右)在未见过的游戏中成功完成任务。

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第5张

ASKA:SIMA 1(左)尝试执行「寻找篝火」指令时,SIMA 2(右)在未见过的游戏中成功完成任务。

SIMA 2 的新架构集成了 Gemini 强大的推理能力,帮助它理解用户的高级别目标,在追求目标过程中执行复杂的推理,并在游戏中熟练执行以目标为导向的行动。它将 SIMA 1 的 语言 -> 行动 模式,升级为了 语言 -> 意图 -> 计划 -> 行动 的多步骤认知链。

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第6张

超越简单的指令跟随:SIMA 2 不仅能回答用户问题,还能对其自身行为及所处环境进行推理。

泛化性能的飞跃

Gemini 的加入也带来了泛化能力和可靠性的提升。SIMA 2 现在能比其前身理解更复杂、更细微的指令,并且在执行这些指令时成功率更高,尤其是在那些它从未训练过的情景或游戏中,例如新的维京生存游戏 ASKA,或 MineDojo(一个流行开放世界沙盒游戏 Minecraft 的研究用实现)。

终极测试:在全新构想的世界中游戏

为了测试 SIMA 2 泛化能力的极限,DeepMind 将其与另一个突破性研究项目 Genie 3 相结合,后者可以从单个图像或文本提示生成新的、实时的 3D 模拟世界。

DeepMind发布SIMA 2:通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界 自我提升 第7张

迈向可扩展、多任务的自我提升

SIMA 2 最令人兴奋的新能力之一是其自我提升的能力。DeepMind 观察发现,在整个训练过程中,SIMA 2 智能体能够执行日益复杂和新颖的任务,这是通过试错法和基于 Gemini 的反馈自举实现的。

展望未来:通往通用具身智能的旅程

虽然 SIMA 2 是迈向通才型、交互式、具身智能的重要一步,但它本质上是一项研究工作。其当前局限突显了未来工作的关键领域。例如,这些智能体在处理需要大量、多步骤推理和目标验证的超长时程复杂任务时仍面临挑战。此外,通过键盘和鼠标界面执行精确的低级别操作以及实现对复杂 3D 场景的稳健视觉理解仍然是整个领域在持续应对的开放性挑战。