当前位置：首页 > 科技资讯 > 正文

RTFM：单GPU实时生成交互3D世界

主机测评网
科技资讯
2026-05-05
1001

当 OpenAI 的奥特曼还在到处购买显卡和算力，以支撑其 Sora 2 视频生成模型时，李飞飞的实验室 The World Labs，却用一张显卡就能运行一个世界。他们发布了名为 RTFM (Real-Time Frame Model) 的新技术，一个全新的实时世界生成模型。

与九月中旬发布的图生世界 Marble 不同，RTFM 不仅能用一张照片生成一个可以自由漫步、探索的 3D 世界。更重要的是，它被设计为能在单块 H100 GPU 上高效运行，并且实现实时生成。

目前，RTFM 已作为研究预览版正式发布，并提供了 Demo 可以亲自体验。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第1张

RTFM Demo 链接：

意外地发现，这个 Demo 的名字叫做 FRAMEBOY，结合这个网页布局，我很快想到了年代久远的 Game Boy 游戏机。

这样一个拥有逼真光影、反射和阴影的世界，并且这一切还在我们眼前实时发生，某种意义上，何尝不是另一种玩游戏。

不止于生成，更在于实时互动

RTFM 的核心能力，就是能实时生成可供用户交互的视频。它可以从一张静态图片开始，实时渲染出一个可以自由探索的 3D 场景。

与许多世界模型不同，RTFM 能够学习并渲染出极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影，还是透过玻璃看到的景象，RTFM 都能准确模拟。

RTFM 依靠的不是传统的图形学编程，而是让模型通过对海量视频数据的端到端学习，不断进化出来的。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第2张

支撑这项能力的，是设计 RTFM 背后围绕的三项核心原则。

效率 (Efficiency) ，要想把未来拉到眼前，世界模型的计算需求是最大的阻碍。

无论是像 Sora 这样的 AI 生成视频，还是 Google 尚未正式公开上线的 Genie 3，都意味着巨大的计算挑战。

有研究表明，要实时生成 4K 60fps 的交互视频流，AI 模型每秒需要处理的 tokens 数量约等于一本《哈利·波特》的文字量。

而如果要在超过一小时的交互中保持这些生成内容的持续性，需要处理的上下文将超过 100M 个 token。这对于当下的计算基础设施而言，既不现实也难以负担。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第3张

李飞飞团队的目标是「在今天硬件上运行的明天模型，并提供最高保真度的预览。」

他们通过对架构、模型蒸馏和推理过程的极致优化以及整个系统的重新设计。RTFM 成功地实现了仅使用单个 H100 GPU，就可以交互式帧率进行推理，实时生成。

可扩展性 (Scalability) ，从视频模型能直接到世界模型

传统的 3D 引擎用的是三角网格、高斯点云、体素渲染等显式结构，完全依赖于复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元 3D 世界所采用的方法类似，它们主打实现 3D 全管道的生成。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第4张

World Lab 选择的路和混元不同，RTFM 不会构建任何显式的 3D 模型。它使用了类似 Sora 的「自回归扩散 Transformer」，直接从视频帧序列中学习世界规律。

举个例子，模型不再需要知道「这是一堵墙」或「那是一盏灯」，它只通过成千上万段视频的学习，学会了什么是「空间感」，学会从输入的 2D 图像序列中预测出下一个新的视角画面。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第5张

和生成 3D 资产的路线不同，RTFM 能够更好地利用不断增长的数据和算力，从而实现无限扩展。

持久性 (Persistence) ，让世界模型像 nano banana 一样保持一致。

大部分的视频生成模型有一个天生缺陷就是它们没有记忆。即便现在 Sora 能一次性生成 25 秒的震撼画面，但视频生成结束后，世界就结束了，并不能提供持续的交互。

而如果要记住所有场景，计算负担势必又会随着探索的深入而无限累积。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第6张

RTFM 试图解决的，就是让生成的世界具备持续存在的能力。它引入了一个叫「空间记忆」的机制。它为生成的每一帧画面都赋予了在 3D 空间中的精确「姿态」（位置和方向）。

在生成新画面时，模型会采用一种「上下文杂耍」的技术，只调用新画面附近位置的帧作为参考而不是全局内容。

RTFM：单GPU实时生成交互3D世界 RTFM 实时生成 3D世界单GPU 第7张

这使得 RTFM 能够做到让我们反复进入这个世界，离开再回来而不会增加计算负担。

目前 RTFM 的 Demo 体验时间只有 3 分钟。3 分钟后它还是会忘记这个世界。我在那个 Demo 里面拖动左右两个摇杆玩了很久，想到了李飞飞之前说的空间智能才应该是 AGI 的下一个方向。

阿里云服务器免费vps

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542857.html

RTFM：单GPU实时生成交互3D世界

不止于生成，更在于实时互动

英伟达黄仁勋谈AI未来：中国市场波折与全球战略平衡

苹果触变革新：触控屏Mac即将登场

RTFM：单GPU实时生成交互3D世界

不止于生成，更在于实时互动

英伟达黄仁勋谈AI未来：中国市场波折与全球战略平衡

苹果触变革新：触控屏Mac即将登场

相关文章