Genie 3：生成式AI的又一里程碑

如果说过去几年，生成式 AI 的突破让我们学会了和算法对话，让算法帮写文章、画插画、甚至剪视频，那么 DeepMind 推出的 Genie 3，又让生成式 AI 走进了一个全新的维度。

8 月 5 日，DeepMind 在官网公布了 Genie 3，一款被称作「通用世界模型」的新模型。

打开 Genie 3，输入一句 prompt「在一个暴风雨中的中世纪村庄漫步」，几秒钟后，Genie 3 就能生成一片可以探索、可实时交互的 3D 场景。在湿漉漉的村庄里，石板路上反射着雷电的光芒。你可以控制视角，在村庄里自由漫步。走近一间小屋推开门，能看到炉火在风中摇曳的光影变化。

更神奇的是，当你离开小屋再返回，炉火依旧，墙上的涂鸦也没变。此时你在指令框中输入「雨过天晴，屋外有一名骑士骑马而来」，几秒钟后，你就能再次推开门，迎接骑士的光临。

这一刻，你宛若小小世界的造物主。这就是 Genie 3 所呈现的「通用世界模型」的生成能力。而 Genie 3 的强大能力，让谷歌在激烈的 AI 竞争中，又扳回了一分。

01 指尖创造世界

Genie 3 的前身是 2024 年底发布的 Genie 2。虽然那时的模型能生成简单的 3D 环境，但场景只能维持 10 到 20 秒，细节粗糙且经不起考验。视角稍一转头，树木可能漂浮，角色可能凭空消失，物体位置会随机变化。

短短七个月，Genie 3 实现了惊人飞跃。

从 360p 分辨率跃升到了 720p 分辨率、24 帧每秒的画面输出。Genie 3 可以维持连续数分钟的模拟，而不是十几秒的动画片段。

更关键的是，Genie 3 不是像游戏引擎那样靠硬编码物理，而是通过模型预测，保持场景逻辑和物理一致性。简单来说，场景里的树叶会自然晃动而不是乱飞，角色的阴影随位置移动，物体在碰撞后也会给出符合物理规律的反馈。

Genie 3 引入了新的视觉记忆机制，让每一帧都参考前一帧的状态，并持续维护整个环境的布局。这意味着走过的路不会在你回头时凭空消失，树木、岩石、建筑会稳定地保持在原地。

Genie 3：生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练第1张 Genie 3 已经能记住生成的物体｜图片来源：Genie 3

DeepMind 在博客中直言，这类世界模型是通用智能的基石。因为真正的智能不仅需要理解世界，还要能在世界中做决策、采取行动。

Genie 3：生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练第2张生成场景符合物理规律｜图片来源：Genie 3

传统的生成视频模型，比如 Sora，可以把一段文本描述转换成 30 秒的视频。但本质上仍然是「一段封闭的片段」。而 Genie 3 则在交互性上跨出了一大步。

Genie 3：生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练第3张同一场景，无限可能｜图片来源：Genie 3

据 DeepMind 透露，Genie 3 在训练时使用了大量游戏引擎生成的数据集以及视频预测任务。

从最初的文字界面到如今的 3D 和 VR，电子游戏一直是人类探索虚拟空间的先锋。在 Genie 3 的演示中，这一趋势被推向了一个全新高度：只需一句话，就能即时生成一个可探索、可交互的 3D 场景。

Genie 3：生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练第4张是不是非常有「面包房模拟器」游戏画风即视感｜图片来源：Genie 3

影视行业同样如此。导演和美术可以在开拍前实时预览场景风格、调整光影、添加角色。

DeepMind 在博客中直言，世界模型的意义在于它能为智能体提供一个「认知训练场」，让 Agent 在虚拟世界中学习因果关系、空间感知和行动规划。

本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439032.html