当OpenAI的Sam Altman正忙于全球采购显卡与算力资源,以支撑其Sora 2视频生成模型的训练与发展时。
李飞飞领导的The World Labs实验室则展示了截然不同的路径:仅用一张显卡即可驱动一个完整世界的运行。今日,他们正式发布了一项名为RTFM(Real-Time Frame Model)的创新技术,这是一种全新的实时世界生成模型。
与九月中旬推出的图生世界模型Marble相比,RTFM不仅能从单张照片生成可自由漫步和探索的3D世界,其最突出之处在于设计为可在单块H100 GPU上高效运行,并实现实时生成能力。
目前,RTFM已作为研究预览版正式发布,并开放了Demo供用户体验。
RTFM Demo 链接:
有趣的是,该Demo被命名为FRAMEBOY,结合其网页布局,不禁让人联想到经典的Game Boy游戏机。
这样一个具备逼真光影、反射与阴影效果的世界,并能实时呈现在眼前,从某种角度而言,何尝不是一种全新的游戏体验。
RTFM的核心优势在于能够实时生成可供用户交互的视频流。它从一张静态图像出发,即可实时渲染出可自由探索的3D场景。
与众多世界模型不同,RTFM能够学习并渲染出极其复杂且真实的视觉特效。无论是光滑大理石地面的清晰倒影、阳光下物体的自然阴影,还是透过玻璃的折射景象,RTFM均能精准模拟。
RTFM并非依赖传统图形学编程,而是通过端到端学习海量视频数据,使模型不断进化而来。
支撑这一能力的是RTFM设计所围绕的三项核心原则。
效率(Efficiency):将未来愿景拉近现实,世界模型的计算需求是首要挑战。
无论是类似Sora的AI生成视频,还是Google尚未公开的Genie 3模型,都意味着巨大的计算压力。
相关研究指出,实时生成4K 60fps的交互式视频流,AI模型每秒需处理的token数量约等同于《哈利·波特》全书的文字量。
而若要在超过一小时的交互中保持内容连续性,所需上下文将超过100M token。这对当前计算基础设施而言既不现实也难以承担。
李飞飞团队的目标是“在今日硬件上运行明日模型,并提供最高保真度的预览”。
通过对架构、模型蒸馏与推理流程的极致优化,以及系统级重新设计,RTFM成功实现了仅用单个H100 GPU即以交互式帧率进行推理和实时生成。
可扩展性(Scalability):从视频模型直接迈向世界模型
传统3D引擎依赖三角网格、高斯点云、体素渲染等显式结构,完全基于复杂计算机图形学知识。每个物体都需单独建模、贴材质、打光与烘焙阴影。这与之前介绍的混元3D世界方法类似,主打全管道3D生成。
传统3D方式(左)与RTFM方式(右)
World Lab选择了不同于混元的路径:RTFM不构建任何显式3D模型。它采用类似Sora的“自回归扩散Transformer”,直接从视频帧序列中学习世界规律。
例如,模型无需知晓“这是一堵墙”或“那是一盏灯”,而是通过成千上万段视频的学习,领悟“空间感”的本质,从输入的2D图像序列中预测出新视角画面。
与生成3D资产的路线相比,RTFM能更有效地利用日益增长的数据与算力,实现无限扩展。
持久性(Persistence):让世界模型如nano banana般保持一致性
大多数视频生成模型存在天生缺陷:缺乏记忆。即使当前Sora能一次性生成25秒震撼画面,视频结束后世界便终止,无法提供持续交互。
而若试图记忆所有场景,计算负担将随探索深入无限累积。
RTFM旨在解决此问题,使生成的世界具备持续存在能力。它引入了“空间记忆(spatial memory)”机制,为每一帧生成画面赋予3D空间中的精确“姿态”(位置与方向)。
生成新画面时,模型采用“上下文杂耍(context juggling)”技术,仅调用新画面附近位置的帧作为参考,而非全局内容。
这使得RTFM能够允许用户反复进入同一世界,离开后返回,而不增加计算负担。
目前RTFM的Demo体验时间仅3分钟,之后世界记忆仍会重置。我在Demo中操控左右摇杆探索许久,联想到李飞飞曾言:空间智能应是AGI的下一个方向。
未来是否真能如《头号玩家》般,在现实与虚拟世界间建立明确联系?审视当前世界模型,仍需加载太多内容。
毕竟,单块H100 GPU售价仍高达25000美元以上。但当算力成本下降、算法进一步加速,我们或许将见证真正意义上的世界模型“大更新”——现实被完整生成的那一天。
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116445.html