当前位置：首页 > 科技资讯 > 正文

DeepMind的Genie 3：文本生成逼真3D虚拟世界的革命性突破

主机测评网
科技资讯
2026-04-20
176

DeepMind的Genie 3：文本生成逼真3D虚拟世界的革命性突破 Genie 3 AI技术虚拟世界生成机器人训练第1张

当地时间8月5日，谷歌DeepMind最新研发的AI技术“Genie 3”被誉为一项革命性的突破，它有望彻底改变虚拟世界生成、机器人训练以及娱乐产业的未来。这项新技术能够通过简单的文本提示，在约3秒内生成一个可交互的、逼真的3D虚拟世界，达到720p分辨率，且具备实时交互和环境一致性等特性。Genie 3不仅适用于游戏和虚拟现实（VR）领域，还为机器人和自动驾驶汽车的训练提供了无限可能的模拟环境。

Youtube人气大V蒂姆·斯卡夫（Tim Scarfe）通过独家采访DeepMind研究团队，深入介绍了Genie 3的创新功能、潜在应用以及未来前景。以下是采访摘要：

主持人：大家好，今天带来一项全球独家报道，我认为这是我见过的最令人震撼的技术！上周，我在伦敦谷歌DeepMind的办公室亲眼见证了这一技术的演示。这项技术可能成为下一个价值万亿美元的产业，或是虚拟现实的杀手级应用。谷歌DeepMind近期表现非凡，其成功次数甚至Gemini Deepthink都难以统计。

今天，我们将讨论一类全新的AI模型——生成式交互环境。它们不同于传统游戏引擎、模拟器或生成式视频模型，但融合了三者的特性。本质上，它们是一个可交互的世界模型和视频生成器，你可以连接游戏控制器或其他任何控制器。DeepMind定义“世界模型”为能模拟环境动态的系统，其一致性自然浮现，无需显式编程。

这听起来不可思议：一个随机采样的神经网络如何生成一致的、类似真实世界的地图？记得1996年的Quake引擎吗？它需要显式编程物理规则和交互逻辑。而这一代AI系统直接从视频数据中学习现实世界的动态。

你可以实时控制世界中的代理。生成式世界模型的出现源于手写模拟器的局限性，即便是DeepMind最先进的XLAND平台，专为通用代理训练设计，仍显得卡通化，局限于特定领域的规则。想象一下，如果通过简单的文本提示就能生成任何交互式世界来训练代理，会怎样？

01.从Genie 1到Genie 2的演进

主持人：去年我在国际机器学习大会（ICML）采访了DeepMind团队成员阿什利·爱德华兹（Ashley Edwards）。他介绍了Genie 1，基于3万小时的2D平台游戏录像训练而成。生成下一帧时，远处的物体移动速度比近处物体慢，模拟了深度感。这一能力令人惊讶，模型能如此快速地理解物理世界。

Genie 1的核心创新是时空视频标记器，将原始视频转化为可处理标记；还有一个潜在动作模型，无需标签数据就能发现有意义的控制动作；以及一个自回归动态模型，预测未来状态。潜在动作模型是一种无监督动作学习，Genie 1发现了八种离散动作，这些动作在不同环境中保持一致，仅通过分析帧间变化实现。

这让我震惊！从离线游戏片段中训练怎么可能做到这一点？更令人惊讶的是，它还具备类似2.5D视差的涌现能力。

仅仅10个月后，Genie 2问世，具备3D能力，接近实时性能，视觉保真度大幅提升，模拟了逼真的光照效果，如烟雾、火焰、水流、重力等。它甚至拥有可靠的记忆功能：你看向别处再回头，物体依然在原位。这是谷歌DeepMind开放性团队研究科学家杰克·帕克·霍尔德（Jack Parker Holder）。

霍尔德：这是我们团队在加州某地拍摄的照片。我们将这张照片输入Genie，生成一个可交互的游戏世界。所有后续像素都由生成式AI模型生成。有人在实际操作，按下W键向前移动，从那一刻起，每一帧都由AI生成。

主持人：去年，由施洛米·弗鲁克特（Shlomi Fruchter）领导的DeepMind以色列团队展示了基于扩散模型的Doom引擎模拟，称为“游戏引擎”。虽然偶尔有些小故障，但这简直不可思议！它能在单个TPU上以25帧每秒运行。

02.Genie 3：从文本生成逼真的交互世界

主持人：上周我们在伦敦见证了Genie 3的演示。我简直不敢相信自己的眼睛！分辨率达到720p，足以让人沉浸其中。它是实时的，能模拟逼真的现实世界体验，持续数分钟而不会丢失上下文。他们似乎将Genie架构与VO结合，创造出一种“超级增强版VO”。

与Genie 1和2不同，Genie 3的输入是文本提示，而非图像，这增加了灵活性。一个主要特点是环境的多样性、长时预测能力以及可提示的世界事件。例如，在滑雪坡场景中，你可以输入“一名穿Genie 3 T恤的滑雪者出现”或“一只鹿跑下山坡”，这些事件就会发生。

他们表示这对模拟自动驾驶汽车的罕见事件非常有用。但我在想这是否是“无限乌龟”问题？如何编写一个程序来提示可能无限多的罕见事件？他们展示了一个无人机在湖边飞行的例子令人惊叹。

霍尔德：Genie 3可维持数分钟的连贯交互环境。

03.核心概念：什么是“世界模型”？

主持人：我们先回顾一下Genie 2吧？

霍尔德：Genie 2是我们两年研究的成果。过去的世界模型仅模拟单一环境，Genie 1首次实现通过提示创建全新世界。Genie 2训练于更广泛的3D环境，分辨率从90p提升到360p。我们想验证这种方法的扩展性，Genie 3将其推向新高度：720p，全程实时。

04.生成世界一致性的挑战

主持人：Genie 2已有些物体持续性和一致性，但Genie 3更进一步。如何解释随机神经网络生成一致世界的现象？

霍尔德：类似语言模型需保持某些基本一致性。在Genie生成的世界中，新物体可能有随机性但一旦生成就保持一致。

05.如何衡量世界模型的质量？

弗鲁克特：衡量世界模型质量很困难。我们的目标是让AI智能体在模拟环境中交互。

06.开放性：人类技能与提示创造力

主持人：目前通用提示会得到简单结果而专家用高度具体提示生成新颖内容。现实世界总能产生新奇事件。

霍尔德：人类通过高质量提示创造酷炫世界放大创造力。

07.未来：下一代YouTube或VR？

主持人：社交媒体上提示共享推动了创造性探索。这可能是下一个YouTube或虚拟现实形式。

霍尔德：类似Pickbreeder实验带来意外创意。Genie 3提供了一个新平台可能带来意想不到的创新。

08.下一步：多智能体模拟

主持人：多智能体模拟是个重要方向。人类通过语言和文化实现信息快速传播。

霍尔德：目前由单智能体控制其他智能体行为嵌入模型权重中。

性价比服务器免费vps 性价比vps

本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260438995.html

DeepMind的Genie 3：文本生成逼真3D虚拟世界的革命性突破

01.从Genie 1到Genie 2的演进

02.Genie 3：从文本生成逼真的交互世界

03.核心概念：什么是“世界模型”？

04.生成世界一致性的挑战

05.如何衡量世界模型的质量？

06.开放性：人类技能与提示创造力

07.未来：下一代YouTube或VR？

08.下一步：多智能体模拟

AI浪潮重塑全球经济：百度文库领航智能时代

马斯克xAI新宠Grok Imagine：擦边模式引发争议

DeepMind的Genie 3：文本生成逼真3D虚拟世界的革命性突破

01.从Genie 1到Genie 2的演进

02.Genie 3：从文本生成逼真的交互世界

03.核心概念：什么是“世界模型”？

04.生成世界一致性的挑战

05.如何衡量世界模型的质量？

06.开放性：人类技能与提示创造力

07.未来：下一代YouTube或VR？

08.下一步：多智能体模拟

AI浪潮重塑全球经济：百度文库领航智能时代

马斯克xAI新宠Grok Imagine：擦边模式引发争议

相关文章