当前位置:首页 > 科技资讯 > 正文

Genie 3:生成式AI的又一里程碑

如果说过去几年,生成式 AI 的突破让我们学会了和算法对话,让算法帮写文章、画插画、甚至剪视频,那么 DeepMind 推出的 Genie 3,又让生成式 AI 走进了一个全新的维度。

8 月 5 日,DeepMind 在官网公布了 Genie 3,一款被称作「通用世界模型」的新模型。

打开 Genie 3,输入一句 prompt「在一个暴风雨中的中世纪村庄漫步」,几秒钟后,Genie 3 就能生成一片可以探索、可实时交互的 3D 场景。在湿漉漉的村庄里,石板路上反射着雷电的光芒。你可以控制视角,在村庄里自由漫步。走近一间小屋推开门,能看到炉火在风中摇曳的光影变化。

更神奇的是,当你离开小屋再返回,炉火依旧,墙上的涂鸦也没变。此时你在指令框中输入「雨过天晴,屋外有一名骑士骑马而来」,几秒钟后,你就能再次推开门,迎接骑士的光临。

这一刻,你宛若小小世界的造物主。这就是 Genie 3 所呈现的「通用世界模型」的生成能力。而 Genie 3 的强大能力,让谷歌在激烈的 AI 竞争中,又扳回了一分。

01

指尖创造世界

Genie 3 的前身是 2024 年底发布的 Genie 2。虽然那时的模型能生成简单的 3D 环境,但场景只能维持 10 到 20 秒,细节粗糙且经不起考验。视角稍一转头,树木可能漂浮,角色可能凭空消失,物体位置会随机变化。

短短七个月,Genie 3 实现了惊人飞跃。

从 360p 分辨率跃升到了 720p 分辨率、24 帧每秒的画面输出。Genie 3 可以维持连续数分钟的模拟,而不是十几秒的动画片段。

更关键的是,Genie 3 不是像游戏引擎那样靠硬编码物理,而是通过模型预测,保持场景逻辑和物理一致性。简单来说,场景里的树叶会自然晃动而不是乱飞,角色的阴影随位置移动,物体在碰撞后也会给出符合物理规律的反馈。

Genie 3 引入了新的视觉记忆机制,让每一帧都参考前一帧的状态,并持续维护整个环境的布局。这意味着走过的路不会在你回头时凭空消失,树木、岩石、建筑会稳定地保持在原地。

Genie 3:生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练 第1张Genie 3 已经能记住生成的物体|图片来源:Genie 3

DeepMind 在博客中直言,这类世界模型是通用智能的基石。因为真正的智能不仅需要理解世界,还要能在世界中做决策、采取行动。

Genie 3:生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练 第2张生成场景符合物理规律|图片来源:Genie 3

传统的生成视频模型,比如 Sora,可以把一段文本描述转换成 30 秒的视频。但本质上仍然是「一段封闭的片段」。而 Genie 3 则在交互性上跨出了一大步。

Genie 3:生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练 第3张同一场景,无限可能|图片来源:Genie 3

据 DeepMind 透露,Genie 3 在训练时使用了大量游戏引擎生成的数据集以及视频预测任务。

02

颠覆创意行业

从最初的文字界面到如今的 3D 和 VR,电子游戏一直是人类探索虚拟空间的先锋。在 Genie 3 的演示中,这一趋势被推向了一个全新高度:只需一句话,就能即时生成一个可探索、可交互的 3D 场景。

Genie 3:生成式AI的又一里程碑 3 生成式AI 通用世界模型 AI训练 第4张是不是非常有「面包房模拟器」游戏画风即视感|图片来源:Genie 3

影视行业同样如此。导演和美术可以在开拍前实时预览场景风格、调整光影、添加角色。

03

AI 的「认知训练场」

DeepMind 在博客中直言,世界模型的意义在于它能为智能体提供一个「认知训练场」,让 Agent 在虚拟世界中学习因果关系、空间感知和行动规划。