当前位置:首页 > 科技资讯 > 正文

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境

你是否还记得DeepMind推出的Genie 3世界模型?它首次实现了对真实世界的高保真模拟,开启了人工智能模拟物理环境的新篇章。

近期,X平台博主anandmaj在短短一个月内,成功复刻了Genie 3的核心思想,打造出名为TinyWorlds的轻量级世界模型。该模型仅包含300万参数,却能实时生成可交互的像素风格游戏环境,覆盖Pong、Sonic、Zelda和Doom等多种经典游戏。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第1张

相关帖子附带了演示视频,生动展示了模型如何通过用户输入实时生成视频帧,实现了动态环境构建。

博主还全面分享了从架构设计到训练细节的完整经验,并开源了代码仓库,为社区提供了宝贵资源。

代码仓库地址: https://github.com/AlmondGod/tinyworlds

理解世界模型

世界模型是一类神经网络,旨在通过生成视频序列来模拟物理世界的动态变化。这些模型能够预测未来帧,从而构建虚拟环境。

DeepMind在Genie 3上充分展示了这一理念的潜力:当世界模型在海量视频数据上训练时,会涌现出类似大语言模型的高级能力。具体表现包括:

可控性:用户按下方向键时,游戏镜头会相应平移,实现直观交互。

一致性:虚拟物体在场景中保持状态稳定,例如离开房间后返回,墙上的新油漆依然存在。

生成质量:细节渲染出色,如水坑中的倒影清晰可见,提升了沉浸感。

在Genie问世前,研究者普遍认为扩展世界模型必须依赖带动作标注或包含三维结构的数据,这限制了数据源的多样性。

然而DeepMind发现,只要对原始视频进行规模化训练,这些高级行为便会自然涌现,正如语言模型无需显式指导就能掌握语法和句法。

关键挑战在于:世界模型的训练通常需要逐帧的动作标签(例如「按下右键 → 镜头右移」),这导致互联网中庞大的未标注视频无法直接利用。

Genie 1提出了创新解决方案:先训练一个动作分词器,自动推断帧间的动作标签。通过这种方式,海量未标注视频被转化为可用的训练资源,突破了数据瓶颈。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第2张

这正是Genie 3能够扩展至数百万小时YouTube视频,并解锁上述涌现能力的核心机制。

受此启发,anandmaj从零开始实现了一个最小化版本的世界模型:TinyWorlds,旨在验证轻量级设计的可行性。

构建数据集

在训练TinyWorlds之前,作者首先定义了模型能够生成的游戏世界范围。模型训练时接触的环境直接决定了其未来的生成能力,因此数据集构建至关重要。

TinyWorlds的数据集由处理过的YouTube游戏视频组成,涵盖了多样化的游戏类型,包括:

  • Pong:经典的雅达利双人乒乓游戏
  • Sonic:二维横版动作平台游戏
  • Zelda:鸟瞰式冒险角色扮演游戏
  • Pole Position:3D像素风格赛车游戏
  • Doom:3D第一人称射击游戏

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第3张

构建时空变换器

与只需处理一维文本序列的大语言模型不同,视频理解需要处理三维数据(高度 × 宽度 × 时间)。TinyWorlds的核心是一个时空变换器(Space-time Transformer),它通过三层机制高效捕捉视频信息:

空间注意力:同一帧内部的token相互关联,学习局部特征。

时间注意力:token关注前几个时间步的信息,捕捉动态变化。

前馈网络:token经过非线性处理以提取更高层次特征,增强表示能力。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第4张

动作如何影响视频生成?作者尝试了两种整合方式:直接将动作与视频表示拼接,或利用动作对表示进行缩放与移位。实验表明后者效果更优,因此被最终采纳。

同时,TinyWorlds借鉴了大语言模型的先进优化技巧:SwiGLU激活函数加速学习,RMSNorm提升训练稳定性,位置编码则用于指示token在图像中的空间位置。

架构设计与分词策略

在生成方式上,作者比较了扩散模型与自回归模型。扩散模型通常生成质量高但推理慢,而自回归模型则更高效。

TinyWorlds最终选择自回归生成方式,因为它推理速度更快,适合实时交互,训练过程也更高效,且实现更为简洁。

最终架构由三个关键模块组成:

  • 视频分词器:将视频帧压缩为离散token,减少数据维度。
  • 动作分词器:预测两帧之间的动作标签,实现无监督学习。
  • 动力学模型:结合历史视频token和动作token,预测未来帧,驱动环境生成。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第5张

视频分词器通过有限标量量化(FSQ)技术,将图像划分为小立方体,并用这些立方体表示图像块。这种方法产生的小token信息密集,显著减轻了动力学模型的预测负担。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第6张

动作分词器的核心任务是从原始视频中自动生成帧间动作标签,使模型能够在未标注数据上训练,从而利用大量网络视频资源。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第7张

在训练初期,动作分词器容易忽略动作信号。为解决这一问题,作者引入了掩码帧技术(迫使模型依赖动作进行预测)和方差损失(鼓励编码器覆盖更多动作可能性)。

在小规模实验中,动作token尚未完全映射到具体操作(如「左」「右」),但通过扩大模型规模或引入少量监督标签,这一问题有望得到改善。

训练世界生成器

动力学模型是整个系统的「大脑」,负责结合历史视频token和动作token来预测未来帧。训练过程中,它通过预测掩码token来学习时序关系;推理时则根据用户输入动作生成下一帧,实现交互式环境构建。最初由于模型规模过小,性能停滞且输出模糊;扩大规模后,生成效果得到显著提升。

TinyWorlds:轻量级世界模型复刻Genie 3,实时生成像素游戏环境 世界模型  TinyWorlds 人工智能 游戏生成 第8张

尽管TinyWorlds只有300万参数,但它已经能够生成可交互的像素风格世界,例如:

  • 驾驶《Pole Position》中的赛车在赛道上飞驰
  • 在《Zelda》的广阔地图上探索冒险
  • 进入《Doom》的3D地牢中进行战斗

虽然生成的画面在细节上仍显模糊、时有不连贯之处,但整体已经具备基本可玩性,展示了轻量级模型的潜力。

作者认为,若将模型扩展至千亿级参数并引入扩散生成方法,生成质量将会有巨大提升。这再次印证了人工智能领域的「苦涩的教训」:规模与数据往往胜过精巧的设计技巧。

参考链接:

https://x.com/Almondgodd/status/1971314283184259336