当前位置:首页 > 科技资讯 > 正文

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染

近日,李飞飞World Labs隆重推出了全新的实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型),这一创新技术引发了业界广泛关注。

RTFM是一款高效能的模型,基于大规模视频数据进行端到端训练,采用自回归扩散Transformer架构,能够实现快速、稳定的世界生成。

仅需单块H100 GPU,RTFM即可在用户交互过程中实时渲染出持久且3D一致的世界,无论是真实场景还是虚构空间,都能流畅呈现。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第1张

其独特设计在于,它无需构建显式的三维表征,而是接收一张或多张二维图像作为输入,直接生成从不同视角观察同一场景的全新二维图像。

简而言之,RTFM可以被视为一个“学会了渲染的人工智能系统”,通过数据驱动的方式模拟视觉世界。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第2张

仅通过训练集中的视频学习,RTFM便能自主建模三维几何、反射、阴影等复杂物理现象;同时,它还能利用少量稀疏拍摄的照片,重建真实世界的具体地点,展现出强大的泛化能力。

RTFM的设计围绕三大核心原则展开:

高效性:仅需单块H100 GPU,RTFM便能以交互式帧率运行实时推理,确保流畅的用户体验。

可扩展性:RTFM的设计使其能够随数据和算力增长而平滑扩展。它不依赖显式3D表示来建模世界,采用通用端到端架构,从大规模视频数据中学习,适应性强。

持久性:用户可以无休止地与RTFM交互,而模拟的世界将永久存在。它构建的是一个持久、稳定的3D世界,不会因视角转移而消失。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第3张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第4张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第5张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第6张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第7张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第8张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第9张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第10张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第11张

RTFM能够基于单张图像生成并渲染3D场景。同一个模型可处理多样化的场景类型、视觉风格和特效,包括反射、光滑表面、阴影和镜头光晕,展现出卓越的适应性。

有网友幽默评论道:“或许我们的现实世界就是在单个H100 GPU上运行的模拟系统。”

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第12张

前谷歌高级工程师指出,RTFM的最新成果真正解决了长期困扰世界模型可扩展性的核心难题,为未来发展铺平了道路。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第13张

目前,RTFM已正式开放,任何人都可以访问并体验其强大功能。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第14张

访问链接:https://rtfm.worldlabs.ai/

世界模型:对计算资源的巨大需求

我们向往这样一个未来:强大的世界模型能够实时重建、生成并模拟持久、可交互且遵循物理规律的世界。这类模型将彻底变革从媒体到机器人等多个行业。

过去一年,生成式视频建模的进步被应用于生成式世界建模,这项新兴技术的发展令人振奋。

随着技术演进,一个事实日益清晰:生成式世界模型对算力的需求将极其庞大,远超当前的大语言模型。

如果简单地将现有视频架构应用于此,要以60fps帧率生成交互式4K视频流,每秒需要生成超过10万个token(大约相当于《弗兰肯斯坦》或第一本《哈利·波特》的长度)。

而要在一小时或更长的交互中维持内容持久性,则需要处理超过1亿token的上下文窗口。

以当今的计算基础设施来看,这既不可行,也不具备经济性。

团队深信“苦涩的教训”:在AI领域,那些能随算力增长而平滑扩展的简单方法往往占据主导,因为它们受益于数十年来驱动技术进步的计算成本指数级下降。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第15张

生成式世界模型恰好能从未来算力成本持续降低的趋势中获益巨大。

这自然引出一个问题:生成式世界模型是否会受限于当前硬件瓶颈?或者说,我们是否有办法在今天提前体验这项技术的未来?

高效性:将未来愿景提前呈现

对此,李飞飞团队设定了一个简单目标:设计一个足够高效、可在当前部署,并能随算力增长持续扩展的生成式世界模型。

更宏大的目标是:构建一个能在单块H100 GPU上部署的模型,既要保持交互式帧率,又要确保世界无论交互多久都能持久存在。

实现这些,将让我们得以将未来愿景呈现在当下,通过今天的体验一窥这类模型未来的巨大潜力。

这一目标影响了从任务设定到模型架构的整个系统设计。

为此,团队精细优化了推理堆栈的每一个环节,应用了架构设计、模型蒸馏和推理优化等领域的最新进展,力求在当今硬件上以最高保真度预览未来模型的样貌。

可扩展性:将世界模型视为“学习型渲染器”

传统的3D图形管线使用显式的3D表征(如三角网格、高斯溅射)来建模世界,再通过渲染生成2D图像。它们依赖于人工设计的算法和数据结构模拟3D几何、材质、光照、阴影、反射等效果。

这些方法作为计算机图形学领域数十年来可靠的支柱,却难以随数据和算力增长而轻松扩展。

相比之下,RTFM则另辟蹊径。

它基于生成式视频建模的最新进展,训练单一神经网络。该网络仅需输入场景的一张或多张2D图像,便能从新视角生成该场景的2D图像,无需构建任何显式3D世界表示。

RTFM的实现是一个在帧序列上运行的自回归扩散Transformer。它通过对大规模视频数据进行端到端训练,学会在给定前序帧的条件下预测下一帧。

RTFM可被视为一个“学习型渲染器”——输入的帧被转换为神经网络的激活值(即KV缓存),从而隐式地表征整个世界;生成新帧时,网络通过注意力机制从这一表征中读取信息,创建出与输入视图一致的世界新视图。

从输入视图到世界表征的转换,再到从表征渲染新帧的整个机制,均通过数据端到端学习,而非人工设计。

RTFM仅通过在训练中观察,便学会了模拟反射、阴影等复杂效果。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第16张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第17张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第18张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第19张

通过将RTFM与Marble相结合,可从单张图像创建3D世界。RTFM能够渲染光照和反射等复杂效果,这些都是端到端从数据中学习得到的。

RTFM打破了重建(在现有视图间插值)与生成(创造输入视图中未见的新内容)之间的界限,而在计算机视觉领域,这两者历来被视为独立问题。

当为RTFM提供大量输入视图时,由于任务约束更强,它更倾向于重建;而当输入视图较少时,它则必须进行外推和想象。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第20张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第21张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第22张

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第23张

可以使用RTFM从短视频中渲染真实世界的场景,展现其强大的重建能力。

持久性:以带位姿的帧作为空间记忆

真实世界的一个关键属性是持久性:当你移开视线时,世界不会消失或彻底改变;无论离开多久,总能回到曾经到过的地方。

这对于自回归帧模型而言一直是个挑战。

由于世界仅通过2D图像帧隐式表征,要实现持久性,模型必须在用户探索世界时对一个不断增长的帧集合进行推理。这意味着生成每个新帧的成本都比前一个更高,因此模型对世界的记忆实际上受限于算力预算。

RTFM通过为每个帧建模一个在3D空间中的位姿(位置和方向)来规避此问题。

团队通过向模型查询待生成帧的位姿来生成新帧。这样,模型对世界的记忆(包含在其帧中)便具有了空间结构;它使用带位姿的帧作为一种空间记忆。

这为模型赋予了一个弱先验——即它所建模的世界是一个三维欧几里得空间——而无需强迫它明确预测该世界中物体的3D几何形状。

李飞飞World Labs发布RTFM实时生成式世界模型,单H100 GPU实现交互式3D渲染 RTFM  生成式世界模型 实时渲染 AI渲染器 第24张

RTFM配合“上下文调度”技术,使其能在大型场景中保持几何形状的持久性,同时维持高效运行。

RTFM的空间记忆实现了无限的持久性。

在生成新帧时,会通过从带位姿帧的空间记忆中检索附近的帧,为模型形成一个自定义的上下文。

团队将这种技术称为“上下文调度”:模型在空间的不同区域生成内容时,会使用不同的上下文帧。

这使得RTFM能够在长时间的交互中保持大型世界的持久性,而无需对一个不断增长的帧集合进行推理。

展望未来

RTFM将未来提前带到眼前,让我们看到了未来世界模型在当今硬件上部署的雏形,并为“将世界模型视为从数据中端到端学习的渲染器”这一理念设定了技术路线。

扩展RTFM有许多激动人心的方向。例如,通过增强使其能够模拟动态世界,并允许用户与生成的世界互动;同样,它也非常适合扩展。

当前的模型目标是在单块H100 GPU上实现实时推理,李飞飞团队期待,面向更大推理预算的更大型号模型将持续带来性能提升。

参考资料:

https://x.com/drfeifei/status/1978840835341914164

https://x.com/theworldlabs/status/1978839175320186988

https://www.worldlabs.ai/blog/rtfm