当 OpenAI 的奥特曼还在到处购买显卡和算力,以支撑其 Sora 2 视频生成模型时,李飞飞的实验室 The World Labs,却用一张显卡就能运行一个世界。他们发布了名为 RTFM (Real-Time Frame Model) 的新技术,一个全新的实时世界生成模型。
与九月中旬发布的图生世界 Marble 不同,RTFM 不仅能用一张照片生成一个可以自由漫步、探索的 3D 世界。更重要的是,它被设计为能在单块 H100 GPU 上高效运行,并且实现实时生成。
目前,RTFM 已作为研究预览版正式发布,并提供了 Demo 可以亲自体验。
RTFM Demo 链接:
意外地发现,这个 Demo 的名字叫做 FRAMEBOY,结合这个网页布局,我很快想到了年代久远的 Game Boy 游戏机。
这样一个拥有逼真光影、反射和阴影的世界,并且这一切还在我们眼前实时发生,某种意义上,何尝不是另一种玩游戏。
RTFM 的核心能力,就是能实时生成可供用户交互的视频。它可以从一张静态图片开始,实时渲染出一个可以自由探索的 3D 场景。
与许多世界模型不同,RTFM 能够学习并渲染出极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影,还是透过玻璃看到的景象,RTFM 都能准确模拟。
RTFM 依靠的不是传统的图形学编程,而是让模型通过对海量视频数据的端到端学习,不断进化出来的。
支撑这项能力的,是设计 RTFM 背后围绕的三项核心原则。
效率 (Efficiency) ,要想把未来拉到眼前,世界模型的计算需求是最大的阻碍。
无论是像 Sora 这样的 AI 生成视频,还是 Google 尚未正式公开上线的 Genie 3,都意味着巨大的计算挑战。
有研究表明,要实时生成 4K 60fps 的交互视频流,AI 模型每秒需要处理的 tokens 数量约等于一本《哈利·波特》的文字量。
而如果要在超过一小时的交互中保持这些生成内容的持续性,需要处理的上下文将超过 100M 个 token。这对于当下的计算基础设施而言,既不现实也难以负担。
李飞飞团队的目标是「在今天硬件上运行的明天模型,并提供最高保真度的预览。」
他们通过对架构、模型蒸馏和推理过程的极致优化以及整个系统的重新设计。RTFM 成功地实现了仅使用单个 H100 GPU,就可以交互式帧率进行推理,实时生成。
可扩展性 (Scalability) ,从视频模型能直接到世界模型
传统的 3D 引擎用的是三角网格、高斯点云、体素渲染等显式结构,完全依赖于复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元 3D 世界所采用的方法类似,它们主打实现 3D 全管道的生成。
World Lab 选择的路和混元不同,RTFM 不会构建任何显式的 3D 模型。它使用了类似 Sora 的「自回归扩散 Transformer」,直接从视频帧序列中学习世界规律。
举个例子,模型不再需要知道「这是一堵墙」或「那是一盏灯」,它只通过成千上万段视频的学习,学会了什么是「空间感」,学会从输入的 2D 图像序列中预测出下一个新的视角画面。
和生成 3D 资产的路线不同,RTFM 能够更好地利用不断增长的数据和算力,从而实现无限扩展。
持久性 (Persistence) ,让世界模型像 nano banana 一样保持一致。
大部分的视频生成模型有一个天生缺陷就是它们没有记忆。即便现在 Sora 能一次性生成 25 秒的震撼画面,但视频生成结束后,世界就结束了,并不能提供持续的交互。
而如果要记住所有场景,计算负担势必又会随着探索的深入而无限累积。
RTFM 试图解决的,就是让生成的世界具备持续存在的能力。它引入了一个叫「空间记忆」的机制。它为生成的每一帧画面都赋予了在 3D 空间中的精确「姿态」(位置和方向)。
在生成新画面时,模型会采用一种「上下文杂耍」的技术,只调用新画面附近位置的帧作为参考而不是全局内容。
这使得 RTFM 能够做到让我们反复进入这个世界,离开再回来而不会增加计算负担。
目前 RTFM 的 Demo 体验时间只有 3 分钟。3 分钟后它还是会忘记这个世界。我在那个 Demo 里面拖动左右两个摇杆玩了很久,想到了李飞飞之前说的空间智能才应该是 AGI 的下一个方向。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542857.html