当前位置:首页 > 科技资讯 > 正文

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验

还记得 DeepMind 的 Genie 3 世界模型吗?它首次向世界展示了模型如何真实模拟现实世界。最近,X 博主 anandmaj 在一个月内复刻了 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,它能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验 TinyWorlds 世界模型 DeepMind Genie 3 第1张

帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。

代码: https://github.com/AlmondGod/tinyworlds

理解世界模型

世界模型是一类神经网络,通过生成视频来模拟物理世界。DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的“涌现能力”。例如:可控性、一致性、质量等。

在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。然而 DeepMind 发现,只要足够规模化地训练原始视频,这些高级行为便会自然涌现。

挑战在于:世界模型的训练通常需要逐帧的动作标签。这意味着我们无法直接利用互联网中庞大的未标注视频。Genie 1 的解决方案是先训练一个动作分词器,自动推断帧间的动作标签。

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验 TinyWorlds 世界模型 DeepMind Genie 3 第2张

这也是 Genie 3 能够扩展至数百万小时 YouTube 视频,并解锁上述涌现能力的关键所在。受此启发,anandmaj 从零实现了一个最小化版本的世界模型:TinyWorlds。

构建数据集

在开始训练 TinyWorlds 前,作者首先要决定模型能够生成怎样的游戏世界。因此,TinyWorlds 的数据集由处理过的 YouTube 游戏视频构成,包括 Pong、Sonic、Zelda、Pole Position 和 Doom。

  • Pong:经典的雅达利双人游戏
  • Sonic:二维横版动作平台
  • Zelda:鸟瞰式冒险
  • Pole Position:3D 像素赛车
  • Doom:3D 第一人称射击

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验 TinyWorlds 世界模型 DeepMind Genie 3 第3张

构建时空变换器

与只需处理一维文本的大语言模型不同,视频理解需要处理三维数据。TinyWorlds 的核心是一个时空变换器,通过三层机制来捕捉视频信息:空间注意力、时间注意力和前馈网络。

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验 TinyWorlds 世界模型 DeepMind Genie 3 第4张

动作如何影响视频生成?作者尝试了两种方式并发现后者效果更好。同时,TinyWorlds 也借鉴了大语言模型的优化技巧。

架构设计与分词策略

在生成方式上,作者比较了扩散模型与自回归模型并选择后者。最终架构由三个模块组成:视频分词器、动作分词器和动力学模型。

  • 视频分词器:将视频压缩为 token
  • 动作分词器:预测两帧之间的动作
  • 动力学模型:结合历史视频和动作,预测未来帧

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验 TinyWorlds 世界模型 DeepMind Genie 3 第5张

视频分词器通过有限标量量化将图像划分为立方体并用这些立方体表示图像块。动作分词器的任务是从原始视频中自动生成帧间动作标签。

训练世界生成器

动力学模型是整个系统的“大脑”,负责结合视频与动作预测未来帧。训练中它通过预测掩码 token 学习时序关系,推理时则根据用户输入动作生成下一帧。

复刻DeepMind的Genie 3:TinyWorlds带来像素风格互动体验 TinyWorlds 世界模型 DeepMind Genie 3 第6张

尽管 TinyWorlds 只有 300 万参数,它依然能够生成可交互的像素风格世界。