当前位置：首页 > 科技资讯 > 正文

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃

主机测评网
科技资讯
2026-05-12
525

您的 AI 伙伴「游戏陪玩」版已升级！

今日，Google DeepMind 推出了SIMA 2——一款在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。

DeepMind 创始人哈萨比斯称其为迈向通用 AI 的关键步伐。

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第1张

去年，谷歌 DeepMind 推出了 SIMA（Scalable Instructable Multiworld Agent），一款能在多种虚拟环境中运作、遵循基本指令的通才 AI，标志着 AI 在 3D 世界中将语言转化为行动的初步探索。

而 SIMA 2 则代表了这一研究的重大突破，是创建通用和有益 AI 智能体研究的下一个里程碑。通过集成 Gemini 模型的先进能力，SIMA 正在从一个被动的、模仿人类操作的指令遵循者进化为一个交互式的游戏伴侣。

SIMA 2 不仅遵循人类指令，还在未见过的复杂环境中（如各种开放世界游戏）进行自主规划、解释行动步骤、与用户实时对话（支持文本、语音或图像输入），并通过试错与 Gemini 反馈的闭环机制自我迭代，提升技能。

这对机器人技术和人工智能的未来具有重要意义，因为它正在构建未来物理世界智能体所需的核心「认知构建模块」。

评论区也对其应用进行了大胆设想。

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第2张

所以，是 GTA 6 先发布，还是 AGI 先实现？

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第3张

推理的力量

第一版 SIMA 学会了在各种商业视频游戏中执行超过 600 种语言遵循技能，如「左转」、「爬梯子」和「打开地图」。它像人一样在这些环境中操作，通过「查看」屏幕并使用虚拟键盘和鼠标进行导航，而无需访问底层的游戏机制。

尽管 SIMA 1 是优秀的「技能执行者」，但它缺乏深度规划和意图理解，仅限于被动模仿。

SIMA 2 则标志着从指令跟随到主动认知的跃进。通过嵌入 Gemini 模型作为核心引擎，SIMA 2 不仅响应指令，还能进行多步骤推理：从语言解析意图、制定计划，到执行行动。

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第4张

MineDojo：SIMA 1（左）尝试执行指令时，SIMA 2（右）在未见过的游戏中成功完成任务。

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第5张

ASKA：SIMA 1（左）尝试执行「寻找篝火」指令时，SIMA 2（右）在未见过的游戏中成功完成任务。

SIMA 2 的新架构集成了 Gemini 强大的推理能力，帮助它理解用户的高级别目标，在追求目标过程中执行复杂的推理，并在游戏中熟练执行以目标为导向的行动。它将 SIMA 1 的语言 -> 行动模式，升级为了语言 -> 意图 -> 计划 -> 行动的多步骤认知链。

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第6张

超越简单的指令跟随：SIMA 2 不仅能回答用户问题，还能对其自身行为及所处环境进行推理。

泛化性能的飞跃

Gemini 的加入也带来了泛化能力和可靠性的提升。SIMA 2 现在能比其前身理解更复杂、更细微的指令，并且在执行这些指令时成功率更高，尤其是在那些它从未训练过的情景或游戏中，例如新的维京生存游戏 ASKA，或 MineDojo（一个流行开放世界沙盒游戏 Minecraft 的研究用实现）。

终极测试：在全新构想的世界中游戏

为了测试 SIMA 2 泛化能力的极限，DeepMind 将其与另一个突破性研究项目 Genie 3 相结合，后者可以从单个图像或文本提示生成新的、实时的 3D 模拟世界。

DeepMind发布SIMA 2：通用AI智能体在虚拟3D世界中的飞跃 SIMA 2 通用AI 虚拟3D世界自我提升第7张

迈向可扩展、多任务的自我提升

SIMA 2 最令人兴奋的新能力之一是其自我提升的能力。DeepMind 观察发现，在整个训练过程中，SIMA 2 智能体能够执行日益复杂和新颖的任务，这是通过试错法和基于 Gemini 的反馈自举实现的。

展望未来：通往通用具身智能的旅程

虽然 SIMA 2 是迈向通才型、交互式、具身智能的重要一步，但它本质上是一项研究工作。其当前局限突显了未来工作的关键领域。例如，这些智能体在处理需要大量、多步骤推理和目标验证的超长时程复杂任务时仍面临挑战。此外，通过键盘和鼠标界面执行精确的低级别操作以及实现对复杂 3D 场景的稳健视觉理解仍然是整个领域在持续应对的开放性挑战。