就在最近,李飞飞World Labs震撼发布了革命性的实时生成式世界模型——RTFM(Real-Time Frame Model)!
这款模型是一种高效自回归扩散Transformer,专为大型视频数据进行端到端训练而设计,能够在H100 GPU上实现实时渲染,无论是真实场景还是想象空间,都能以持久且3D一致的方式呈现。
RTFM的独特之处在于,它并不构建世界的显式三维表征。相反,它接收一张或多张二维图像作为输入,然后直接从不同视点生成同一场景的全新二维图像。你可以将它看作一个「学会了渲染的AI」。
仅仅通过观察训练集中的视频,RTFM便学会了对三维几何、反射、阴影等复杂物理现象进行建模;而且,还能利用少量稀疏拍摄的照片,重建出真实世界的具体地点。
RTFM的设计围绕三大核心原则:
高效性:仅需单块H100 GPU,RTFM便能以交互式帧率运行实时推理。
可扩展性:RTFM的设计使其能随着数据和算力的增加而扩展。它在建模3D世界时不依赖于显式的3D表示,并采用一种通用的端到端架构,从大规模视频数据中学习。
持久性:可以与RTFM进行无休止的交互,而这个世界将永不消逝。它所模拟的是一个持久的3D世界,不会在您移开视线时消失。
RTFM可渲染由单张图像生成的3D场景。同一个模型能处理多样的场景类型、视觉风格和效果,包括反射、光滑表面、阴影和镜头光晕。
有网友戏言,「我们的世界或许是在单个H100上运行的」。
前谷歌高级工程师表示,RTFM最新成果真正解决了长期困扰世界模型可扩展性的问题。
现在,RTFM正式开放,任何人皆可试玩。
我们憧憬着这样一个未来:强大的世界模型能够实时地重建、生成并模拟一个持久、可交互且遵循物理规律的世界。这类模型将彻底改变从传媒到机器人等众多行业。
过去一年,随着生成式视频建模的进步被应用于生成式世界建模,这项新兴技术的发展令人振奋。
随着技术的发展,有一点日益清晰:生成式世界模型的算力需求将极其庞大,远超当今的大语言模型。
如果我们简单地将现有视频架构应用于此,要以60fps的帧率生成一个交互式的4K视频流,每秒需要生成超过10万个token。而要在一小时或更长的交互中维持这些内容的持久性,则需要处理超过1亿token的上下文窗口。
以当今的计算基础设施而言,这既不可行,也不具备经济效益。
对此,李飞飞团队设定了一个简单的目标:设计一个足够高效、可在当前部署,并能随算力增长而持续扩展的生成式世界模型。
传统的3D图形管线使用显式的3D表征来对世界进行建模,而RTFM则另辟蹊径。它基于生成式视频建模的最新进展,训练一个单一的神经网络。该网络仅需输入场景的一张或多张2D图像,便能从新的视角生成该场景的2D图像,而无需构建任何显式的3D世界表示。
真实世界的一个关键属性是持久性。RTFM通过为每个帧建模一个在 3D 空间中的位姿(位置和方向)来规避实现持久性的挑战。这样,模型对世界的记忆(包含在其帧中)便具有了空间结构;它使用带位姿的帧作为一种空间记忆。
RTFM将未来提前带到眼前,让我们看到了未来世界模型在当今硬件上部署的雏形。扩展RTFM有许多激动人心的方向。比如,通过增强使其能够模拟动态世界,并允许用户与生成的世界互动;同样,它也非常适合扩展。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542840.html