当前位置：首页 > 科技资讯 > 正文

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成

主机测评网
科技资讯
2026-01-10
443

当OpenAI的Sam Altman正忙于全球采购显卡与算力资源，以支撑其Sora 2视频生成模型的训练与发展时。

李飞飞领导的The World Labs实验室则展示了截然不同的路径：仅用一张显卡即可驱动一个完整世界的运行。今日，他们正式发布了一项名为RTFM（Real-Time Frame Model）的创新技术，这是一种全新的实时世界生成模型。

与九月中旬推出的图生世界模型Marble相比，RTFM不仅能从单张照片生成可自由漫步和探索的3D世界，其最突出之处在于设计为可在单块H100 GPU上高效运行，并实现实时生成能力。

目前，RTFM已作为研究预览版正式发布，并开放了Demo供用户体验。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第1张

RTFM Demo 链接：

有趣的是，该Demo被命名为FRAMEBOY，结合其网页布局，不禁让人联想到经典的Game Boy游戏机。

这样一个具备逼真光影、反射与阴影效果的世界，并能实时呈现在眼前，从某种角度而言，何尝不是一种全新的游戏体验。

超越生成：实现实时交互的核心能力

RTFM的核心优势在于能够实时生成可供用户交互的视频流。它从一张静态图像出发，即可实时渲染出可自由探索的3D场景。

与众多世界模型不同，RTFM能够学习并渲染出极其复杂且真实的视觉特效。无论是光滑大理石地面的清晰倒影、阳光下物体的自然阴影，还是透过玻璃的折射景象，RTFM均能精准模拟。

RTFM并非依赖传统图形学编程，而是通过端到端学习海量视频数据，使模型不断进化而来。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第2张

支撑这一能力的是RTFM设计所围绕的三项核心原则。

效率（Efficiency）：将未来愿景拉近现实，世界模型的计算需求是首要挑战。

无论是类似Sora的AI生成视频，还是Google尚未公开的Genie 3模型，都意味着巨大的计算压力。

相关研究指出，实时生成4K 60fps的交互式视频流，AI模型每秒需处理的token数量约等同于《哈利·波特》全书的文字量。

而若要在超过一小时的交互中保持内容连续性，所需上下文将超过100M token。这对当前计算基础设施而言既不现实也难以承担。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第3张

李飞飞团队的目标是“在今日硬件上运行明日模型，并提供最高保真度的预览”。

通过对架构、模型蒸馏与推理流程的极致优化，以及系统级重新设计，RTFM成功实现了仅用单个H100 GPU即以交互式帧率进行推理和实时生成。

可扩展性（Scalability）：从视频模型直接迈向世界模型

传统3D引擎依赖三角网格、高斯点云、体素渲染等显式结构，完全基于复杂计算机图形学知识。每个物体都需单独建模、贴材质、打光与烘焙阴影。这与之前介绍的混元3D世界方法类似，主打全管道3D生成。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第4张

传统3D方式（左）与RTFM方式（右）

World Lab选择了不同于混元的路径：RTFM不构建任何显式3D模型。它采用类似Sora的“自回归扩散Transformer”，直接从视频帧序列中学习世界规律。

例如，模型无需知晓“这是一堵墙”或“那是一盏灯”，而是通过成千上万段视频的学习，领悟“空间感”的本质，从输入的2D图像序列中预测出新视角画面。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第5张

与生成3D资产的路线相比，RTFM能更有效地利用日益增长的数据与算力，实现无限扩展。

持久性（Persistence）：让世界模型如nano banana般保持一致性

大多数视频生成模型存在天生缺陷：缺乏记忆。即使当前Sora能一次性生成25秒震撼画面，视频结束后世界便终止，无法提供持续交互。

而若试图记忆所有场景，计算负担将随探索深入无限累积。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第6张

RTFM旨在解决此问题，使生成的世界具备持续存在能力。它引入了“空间记忆（spatial memory）”机制，为每一帧生成画面赋予3D空间中的精确“姿态”（位置与方向）。

生成新画面时，模型采用“上下文杂耍（context juggling）”技术，仅调用新画面附近位置的帧作为参考，而非全局内容。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第7张

这使得RTFM能够允许用户反复进入同一世界，离开后返回，而不增加计算负担。

目前RTFM的Demo体验时间仅3分钟，之后世界记忆仍会重置。我在Demo中操控左右摇杆探索许久，联想到李飞飞曾言：空间智能应是AGI的下一个方向。

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成 RTFM 实时渲染世界模型 H100 GPU 第8张

未来是否真能如《头号玩家》般，在现实与虚拟世界间建立明确联系？审视当前世界模型，仍需加载太多内容。

毕竟，单块H100 GPU售价仍高达25000美元以上。但当算力成本下降、算法进一步加速，我们或许将见证真正意义上的世界模型“大更新”——现实被完整生成的那一天。

免费服务器性价比vps 阿里云服务器

本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116445.html

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成

超越生成：实现实时交互的核心能力

黄仁勋谈AI未来与中美政策：伤害中国或更伤美国

苹果颠覆传统：触控屏MacBook Pro预计2026年末问世，搭载OLED屏幕

RTFM技术突破：李飞飞实验室实现单GPU实时3D世界生成

超越生成：实现实时交互的核心能力

黄仁勋谈AI未来与中美政策：伤害中国或更伤美国

苹果颠覆传统：触控屏MacBook Pro预计2026年末问世，搭载OLED屏幕

相关文章