当前位置:首页 > 科技资讯 > 正文

DeepMind的Genie 3:文本生成逼真3D虚拟世界的革命性突破

DeepMind的Genie 3:文本生成逼真3D虚拟世界的革命性突破 Genie 3 AI技术 虚拟世界生成 机器人训练 第1张

当地时间8月5日,谷歌DeepMind最新研发的AI技术“Genie 3”被誉为一项革命性的突破,它有望彻底改变虚拟世界生成、机器人训练以及娱乐产业的未来。这项新技术能够通过简单的文本提示,在约3秒内生成一个可交互的、逼真的3D虚拟世界,达到720p分辨率,且具备实时交互和环境一致性等特性。Genie 3不仅适用于游戏和虚拟现实(VR)领域,还为机器人和自动驾驶汽车的训练提供了无限可能的模拟环境。

Youtube人气大V蒂姆·斯卡夫(Tim Scarfe)通过独家采访DeepMind研究团队,深入介绍了Genie 3的创新功能、潜在应用以及未来前景。以下是采访摘要:

主持人:大家好,今天带来一项全球独家报道,我认为这是我见过的最令人震撼的技术!上周,我在伦敦谷歌DeepMind的办公室亲眼见证了这一技术的演示。这项技术可能成为下一个价值万亿美元的产业,或是虚拟现实的杀手级应用。谷歌DeepMind近期表现非凡,其成功次数甚至Gemini Deepthink都难以统计。

今天,我们将讨论一类全新的AI模型——生成式交互环境。它们不同于传统游戏引擎、模拟器或生成式视频模型,但融合了三者的特性。本质上,它们是一个可交互的世界模型和视频生成器,你可以连接游戏控制器或其他任何控制器。DeepMind定义“世界模型”为能模拟环境动态的系统,其一致性自然浮现,无需显式编程。

这听起来不可思议:一个随机采样的神经网络如何生成一致的、类似真实世界的地图?记得1996年的Quake引擎吗?它需要显式编程物理规则和交互逻辑。而这一代AI系统直接从视频数据中学习现实世界的动态。

你可以实时控制世界中的代理。生成式世界模型的出现源于手写模拟器的局限性,即便是DeepMind最先进的XLAND平台,专为通用代理训练设计,仍显得卡通化,局限于特定领域的规则。想象一下,如果通过简单的文本提示就能生成任何交互式世界来训练代理,会怎样?

01.从Genie 1到Genie 2的演进

主持人:去年我在国际机器学习大会(ICML)采访了DeepMind团队成员阿什利·爱德华兹(Ashley Edwards)。他介绍了Genie 1,基于3万小时的2D平台游戏录像训练而成。生成下一帧时,远处的物体移动速度比近处物体慢,模拟了深度感。这一能力令人惊讶,模型能如此快速地理解物理世界。

Genie 1的核心创新是时空视频标记器,将原始视频转化为可处理标记;还有一个潜在动作模型,无需标签数据就能发现有意义的控制动作;以及一个自回归动态模型,预测未来状态。潜在动作模型是一种无监督动作学习,Genie 1发现了八种离散动作,这些动作在不同环境中保持一致,仅通过分析帧间变化实现。

这让我震惊!从离线游戏片段中训练怎么可能做到这一点?更令人惊讶的是,它还具备类似2.5D视差的涌现能力。

仅仅10个月后,Genie 2问世,具备3D能力,接近实时性能,视觉保真度大幅提升,模拟了逼真的光照效果,如烟雾、火焰、水流、重力等。它甚至拥有可靠的记忆功能:你看向别处再回头,物体依然在原位。这是谷歌DeepMind开放性团队研究科学家杰克·帕克·霍尔德(Jack Parker Holder)。

霍尔德:这是我们团队在加州某地拍摄的照片。我们将这张照片输入Genie,生成一个可交互的游戏世界。所有后续像素都由生成式AI模型生成。有人在实际操作,按下W键向前移动,从那一刻起,每一帧都由AI生成。

主持人:去年,由施洛米·弗鲁克特(Shlomi Fruchter)领导的DeepMind以色列团队展示了基于扩散模型的Doom引擎模拟,称为“游戏引擎”。虽然偶尔有些小故障,但这简直不可思议!它能在单个TPU上以25帧每秒运行。

02.Genie 3:从文本生成逼真的交互世界

主持人:上周我们在伦敦见证了Genie 3的演示。我简直不敢相信自己的眼睛!分辨率达到720p,足以让人沉浸其中。它是实时的,能模拟逼真的现实世界体验,持续数分钟而不会丢失上下文。他们似乎将Genie架构与VO结合,创造出一种“超级增强版VO”。

与Genie 1和2不同,Genie 3的输入是文本提示,而非图像,这增加了灵活性。一个主要特点是环境的多样性、长时预测能力以及可提示的世界事件。例如,在滑雪坡场景中,你可以输入“一名穿Genie 3 T恤的滑雪者出现”或“一只鹿跑下山坡”,这些事件就会发生。

他们表示这对模拟自动驾驶汽车的罕见事件非常有用。但我在想这是否是“无限乌龟”问题?如何编写一个程序来提示可能无限多的罕见事件?他们展示了一个无人机在湖边飞行的例子令人惊叹。

霍尔德:Genie 3可维持数分钟的连贯交互环境。

03.核心概念:什么是“世界模型”?

主持人:我们先回顾一下Genie 2吧?

霍尔德:Genie 2是我们两年研究的成果。过去的世界模型仅模拟单一环境,Genie 1首次实现通过提示创建全新世界。Genie 2训练于更广泛的3D环境,分辨率从90p提升到360p。我们想验证这种方法的扩展性,Genie 3将其推向新高度:720p,全程实时。

04.生成世界一致性的挑战

主持人:Genie 2已有些物体持续性和一致性,但Genie 3更进一步。如何解释随机神经网络生成一致世界的现象?

霍尔德:类似语言模型需保持某些基本一致性。在Genie生成的世界中,新物体可能有随机性但一旦生成就保持一致。

05.如何衡量世界模型的质量?

弗鲁克特:衡量世界模型质量很困难。我们的目标是让AI智能体在模拟环境中交互。

06.开放性:人类技能与提示创造力

主持人:目前通用提示会得到简单结果而专家用高度具体提示生成新颖内容。现实世界总能产生新奇事件。

霍尔德:人类通过高质量提示创造酷炫世界放大创造力。

07.未来:下一代YouTube或VR?

主持人:社交媒体上提示共享推动了创造性探索。这可能是下一个YouTube或虚拟现实形式。

霍尔德:类似Pickbreeder实验带来意外创意。Genie 3提供了一个新平台可能带来意想不到的创新。

08.下一步:多智能体模拟

主持人:多智能体模拟是个重要方向。人类通过语言和文化实现信息快速传播。

霍尔德:目前由单智能体控制其他智能体行为嵌入模型权重中。