近日,李飞飞World Labs隆重推出了全新的实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型),这一创新技术引发了业界广泛关注。
RTFM是一款高效能的模型,基于大规模视频数据进行端到端训练,采用自回归扩散Transformer架构,能够实现快速、稳定的世界生成。
仅需单块H100 GPU,RTFM即可在用户交互过程中实时渲染出持久且3D一致的世界,无论是真实场景还是虚构空间,都能流畅呈现。
其独特设计在于,它无需构建显式的三维表征,而是接收一张或多张二维图像作为输入,直接生成从不同视角观察同一场景的全新二维图像。
简而言之,RTFM可以被视为一个“学会了渲染的人工智能系统”,通过数据驱动的方式模拟视觉世界。
仅通过训练集中的视频学习,RTFM便能自主建模三维几何、反射、阴影等复杂物理现象;同时,它还能利用少量稀疏拍摄的照片,重建真实世界的具体地点,展现出强大的泛化能力。
RTFM的设计围绕三大核心原则展开:
高效性:仅需单块H100 GPU,RTFM便能以交互式帧率运行实时推理,确保流畅的用户体验。
可扩展性:RTFM的设计使其能够随数据和算力增长而平滑扩展。它不依赖显式3D表示来建模世界,采用通用端到端架构,从大规模视频数据中学习,适应性强。
持久性:用户可以无休止地与RTFM交互,而模拟的世界将永久存在。它构建的是一个持久、稳定的3D世界,不会因视角转移而消失。
RTFM能够基于单张图像生成并渲染3D场景。同一个模型可处理多样化的场景类型、视觉风格和特效,包括反射、光滑表面、阴影和镜头光晕,展现出卓越的适应性。
有网友幽默评论道:“或许我们的现实世界就是在单个H100 GPU上运行的模拟系统。”
前谷歌高级工程师指出,RTFM的最新成果真正解决了长期困扰世界模型可扩展性的核心难题,为未来发展铺平了道路。
目前,RTFM已正式开放,任何人都可以访问并体验其强大功能。
访问链接:https://rtfm.worldlabs.ai/
我们向往这样一个未来:强大的世界模型能够实时重建、生成并模拟持久、可交互且遵循物理规律的世界。这类模型将彻底变革从媒体到机器人等多个行业。
过去一年,生成式视频建模的进步被应用于生成式世界建模,这项新兴技术的发展令人振奋。
随着技术演进,一个事实日益清晰:生成式世界模型对算力的需求将极其庞大,远超当前的大语言模型。
如果简单地将现有视频架构应用于此,要以60fps帧率生成交互式4K视频流,每秒需要生成超过10万个token(大约相当于《弗兰肯斯坦》或第一本《哈利·波特》的长度)。
而要在一小时或更长的交互中维持内容持久性,则需要处理超过1亿token的上下文窗口。
以当今的计算基础设施来看,这既不可行,也不具备经济性。
团队深信“苦涩的教训”:在AI领域,那些能随算力增长而平滑扩展的简单方法往往占据主导,因为它们受益于数十年来驱动技术进步的计算成本指数级下降。
生成式世界模型恰好能从未来算力成本持续降低的趋势中获益巨大。
这自然引出一个问题:生成式世界模型是否会受限于当前硬件瓶颈?或者说,我们是否有办法在今天提前体验这项技术的未来?
对此,李飞飞团队设定了一个简单目标:设计一个足够高效、可在当前部署,并能随算力增长持续扩展的生成式世界模型。
更宏大的目标是:构建一个能在单块H100 GPU上部署的模型,既要保持交互式帧率,又要确保世界无论交互多久都能持久存在。
实现这些,将让我们得以将未来愿景呈现在当下,通过今天的体验一窥这类模型未来的巨大潜力。
这一目标影响了从任务设定到模型架构的整个系统设计。
为此,团队精细优化了推理堆栈的每一个环节,应用了架构设计、模型蒸馏和推理优化等领域的最新进展,力求在当今硬件上以最高保真度预览未来模型的样貌。
传统的3D图形管线使用显式的3D表征(如三角网格、高斯溅射)来建模世界,再通过渲染生成2D图像。它们依赖于人工设计的算法和数据结构模拟3D几何、材质、光照、阴影、反射等效果。
这些方法作为计算机图形学领域数十年来可靠的支柱,却难以随数据和算力增长而轻松扩展。
相比之下,RTFM则另辟蹊径。
它基于生成式视频建模的最新进展,训练单一神经网络。该网络仅需输入场景的一张或多张2D图像,便能从新视角生成该场景的2D图像,无需构建任何显式3D世界表示。
RTFM的实现是一个在帧序列上运行的自回归扩散Transformer。它通过对大规模视频数据进行端到端训练,学会在给定前序帧的条件下预测下一帧。
RTFM可被视为一个“学习型渲染器”——输入的帧被转换为神经网络的激活值(即KV缓存),从而隐式地表征整个世界;生成新帧时,网络通过注意力机制从这一表征中读取信息,创建出与输入视图一致的世界新视图。
从输入视图到世界表征的转换,再到从表征渲染新帧的整个机制,均通过数据端到端学习,而非人工设计。
RTFM仅通过在训练中观察,便学会了模拟反射、阴影等复杂效果。
通过将RTFM与Marble相结合,可从单张图像创建3D世界。RTFM能够渲染光照和反射等复杂效果,这些都是端到端从数据中学习得到的。
RTFM打破了重建(在现有视图间插值)与生成(创造输入视图中未见的新内容)之间的界限,而在计算机视觉领域,这两者历来被视为独立问题。
当为RTFM提供大量输入视图时,由于任务约束更强,它更倾向于重建;而当输入视图较少时,它则必须进行外推和想象。
可以使用RTFM从短视频中渲染真实世界的场景,展现其强大的重建能力。
真实世界的一个关键属性是持久性:当你移开视线时,世界不会消失或彻底改变;无论离开多久,总能回到曾经到过的地方。
这对于自回归帧模型而言一直是个挑战。
由于世界仅通过2D图像帧隐式表征,要实现持久性,模型必须在用户探索世界时对一个不断增长的帧集合进行推理。这意味着生成每个新帧的成本都比前一个更高,因此模型对世界的记忆实际上受限于算力预算。
RTFM通过为每个帧建模一个在3D空间中的位姿(位置和方向)来规避此问题。
团队通过向模型查询待生成帧的位姿来生成新帧。这样,模型对世界的记忆(包含在其帧中)便具有了空间结构;它使用带位姿的帧作为一种空间记忆。
这为模型赋予了一个弱先验——即它所建模的世界是一个三维欧几里得空间——而无需强迫它明确预测该世界中物体的3D几何形状。
RTFM配合“上下文调度”技术,使其能在大型场景中保持几何形状的持久性,同时维持高效运行。
RTFM的空间记忆实现了无限的持久性。
在生成新帧时,会通过从带位姿帧的空间记忆中检索附近的帧,为模型形成一个自定义的上下文。
团队将这种技术称为“上下文调度”:模型在空间的不同区域生成内容时,会使用不同的上下文帧。
这使得RTFM能够在长时间的交互中保持大型世界的持久性,而无需对一个不断增长的帧集合进行推理。
RTFM将未来提前带到眼前,让我们看到了未来世界模型在当今硬件上部署的雏形,并为“将世界模型视为从数据中端到端学习的渲染器”这一理念设定了技术路线。
扩展RTFM有许多激动人心的方向。例如,通过增强使其能够模拟动态世界,并允许用户与生成的世界互动;同样,它也非常适合扩展。
当前的模型目标是在单块H100 GPU上实现实时推理,李飞飞团队期待,面向更大推理预算的更大型号模型将持续带来性能提升。
参考资料:
https://x.com/drfeifei/status/1978840835341914164
https://x.com/theworldlabs/status/1978839175320186988
https://www.worldlabs.ai/blog/rtfm
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116405.html