当前位置：首页 > 科技资讯 > 正文

李飞飞World Labs发布RTFM：实时生成3D世界模型

主机测评网
科技资讯
2026-05-05
285

就在最近，李飞飞World Labs震撼发布了革命性的实时生成式世界模型——RTFM（Real-Time Frame Model）！

这款模型是一种高效自回归扩散Transformer，专为大型视频数据进行端到端训练而设计，能够在H100 GPU上实现实时渲染，无论是真实场景还是想象空间，都能以持久且3D一致的方式呈现。

李飞飞World Labs发布RTFM：实时生成3D世界模型 RTFM 实时生成 3D世界模型自回归扩散Transformer 第1张

RTFM的独特之处在于，它并不构建世界的显式三维表征。相反，它接收一张或多张二维图像作为输入，然后直接从不同视点生成同一场景的全新二维图像。你可以将它看作一个「学会了渲染的AI」。

李飞飞World Labs发布RTFM：实时生成3D世界模型 RTFM 实时生成 3D世界模型自回归扩散Transformer 第2张

仅仅通过观察训练集中的视频，RTFM便学会了对三维几何、反射、阴影等复杂物理现象进行建模；而且，还能利用少量稀疏拍摄的照片，重建出真实世界的具体地点。

RTFM的设计围绕三大核心原则：

高效性：仅需单块H100 GPU，RTFM便能以交互式帧率运行实时推理。

可扩展性：RTFM的设计使其能随着数据和算力的增加而扩展。它在建模3D世界时不依赖于显式的3D表示，并采用一种通用的端到端架构，从大规模视频数据中学习。

持久性：可以与RTFM进行无休止的交互，而这个世界将永不消逝。它所模拟的是一个持久的3D世界，不会在您移开视线时消失。

李飞飞World Labs发布RTFM：实时生成3D世界模型 RTFM 实时生成 3D世界模型自回归扩散Transformer 第3张

RTFM可渲染由单张图像生成的3D场景。同一个模型能处理多样的场景类型、视觉风格和效果，包括反射、光滑表面、阴影和镜头光晕。

有网友戏言，「我们的世界或许是在单个H100上运行的」。

李飞飞World Labs发布RTFM：实时生成3D世界模型 RTFM 实时生成 3D世界模型自回归扩散Transformer 第4张

前谷歌高级工程师表示，RTFM最新成果真正解决了长期困扰世界模型可扩展性的问题。

李飞飞World Labs发布RTFM：实时生成3D世界模型 RTFM 实时生成 3D世界模型自回归扩散Transformer 第5张

现在，RTFM正式开放，任何人皆可试玩。

李飞飞World Labs发布RTFM：实时生成3D世界模型 RTFM 实时生成 3D世界模型自回归扩散Transformer 第6张

探索未来：生成式世界模型的挑战与机遇

我们憧憬着这样一个未来：强大的世界模型能够实时地重建、生成并模拟一个持久、可交互且遵循物理规律的世界。这类模型将彻底改变从传媒到机器人等众多行业。

过去一年，随着生成式视频建模的进步被应用于生成式世界建模，这项新兴技术的发展令人振奋。

随着技术的发展，有一点日益清晰：生成式世界模型的算力需求将极其庞大，远超当今的大语言模型。

如果我们简单地将现有视频架构应用于此，要以60fps的帧率生成一个交互式的4K视频流，每秒需要生成超过10万个token。而要在一小时或更长的交互中维持这些内容的持久性，则需要处理超过1亿token的上下文窗口。

以当今的计算基础设施而言，这既不可行，也不具备经济效益。

高效性：将未来提前带到眼前

对此，李飞飞团队设定了一个简单的目标：设计一个足够高效、可在当前部署，并能随算力增长而持续扩展的生成式世界模型。

可扩展性：将世界模型视为「学习型渲染器」

传统的3D图形管线使用显式的3D表征来对世界进行建模，而RTFM则另辟蹊径。它基于生成式视频建模的最新进展，训练一个单一的神经网络。该网络仅需输入场景的一张或多张2D图像，便能从新的视角生成该场景的2D图像，而无需构建任何显式的3D世界表示。

持久性：以带位姿的帧作为空间记忆

真实世界的一个关键属性是持久性。RTFM通过为每个帧建模一个在 3D 空间中的位姿（位置和方向）来规避实现持久性的挑战。这样，模型对世界的记忆（包含在其帧中）便具有了空间结构；它使用带位姿的帧作为一种空间记忆。

展望未来

RTFM将未来提前带到眼前，让我们看到了未来世界模型在当今硬件上部署的雏形。扩展RTFM有许多激动人心的方向。比如，通过增强使其能够模拟动态世界，并允许用户与生成的世界互动；同样，它也非常适合扩展。

免费vps 阿里云服务器

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542840.html

李飞飞World Labs发布RTFM：实时生成3D世界模型

探索未来：生成式世界模型的挑战与机遇

高效性：将未来提前带到眼前

可扩展性：将世界模型视为「学习型渲染器」

持久性：以带位姿的帧作为空间记忆

展望未来

李飞飞团队推出全新RTFM模型，单张GPU即可驱动

OpenAI新飞跃：GPT-5 Pro助力科学探索

李飞飞World Labs发布RTFM：实时生成3D世界模型

探索未来：生成式世界模型的挑战与机遇

高效性：将未来提前带到眼前

可扩展性：将世界模型视为「学习型渲染器」

持久性：以带位姿的帧作为空间记忆

展望未来

李飞飞团队推出全新RTFM模型，单张GPU即可驱动

OpenAI新飞跃：GPT-5 Pro助力科学探索

相关文章