当前位置：首页 > 科技资讯 > 正文

李飞飞团队推出全新RTFM模型，单张GPU即可驱动

主机测评网
科技资讯
2026-05-05
539

李飞飞团队推出全新RTFM模型，单张GPU即可驱动 RTFM模型单张GPU 生成式世界模型实时运行第1张

李飞飞团队的最新创业成果——世界模型RTFM（A Real-Time Frame Model）即将面世！

李飞飞教授亲自宣布，这款全新模型不仅具备实时运行、持久性和3D一致性，更关键的是，它只需单张H100 GPU就能运行。

RTFM的设计遵循三大核心原则：效率、可扩展性和持久性。仅需单张H100 GPU，RTFM便能以交互级帧率实时完成推理运算。该架构具备随数据量与算力增长而持续扩展的能力，通过海量视频数据自主学习，构建三维世界模型。用户可无限时长与RTFM交互，所有场景将永久留存，系统构建的3D世界不会因视角转换而消失。

生成式世界模型的计算需求

强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界。这类模型将彻底改变各行各业，从媒体到机器人技术。

过去一年，生成式视频建模的进展已成功应用于生成式世界建模领域。随着技术发展，一个事实愈发清晰：生成式世界模型对算力的需求将远超当今的大型语言模型。

若直接套用现有视频架构，生成60帧的4K交互视频流每秒需产生超过10万个token。而要维持一小时以上的持续交互，需处理的上下文token将突破1亿大关。基于当前计算基础设施，这既不可行也不具备经济性。

李飞飞团队深信：“那些能随算力增长优雅扩展的简洁方法终将在AI领域占据主导。”生成式世界模型正处在绝佳位置，必将从持续降低的算力成本中获益。

世界模型作为学习渲染器

传统的3D图形管线采用显式3D表征构建世界模型，再通过渲染生成2D图像。而RTFM则另辟蹊径，通过训练单一神经网络，输入场景的单张或多张2D图像，即可从全新视角生成该场景的2D图像，无需构建任何显式3D表征。

RTFM采用自回归扩散变换器架构，通过海量视频数据进行端到端训练，实现基于历史帧的后续帧预测。它被视为一种可学习的渲染器，将输入的图像帧转换为神经网络中的激活，以隐式方式表示整个世界。

将姿态帧作为空间记忆

现实世界具有持久性：当你移开视线时，世界不会消失或完全改变。这对自回归帧模型来说一直是一个挑战。RTFM通过将每一帧建模为在三维空间中具有一个姿态（位置和方向）来规避这一问题。

模型对世界的记忆（包含在其帧中）具有空间结构。它将带有姿态的帧作为空间记忆使用，为模型提供了一个弱先验——即它所建模的世界是三维欧几里得空间。这使得RTFM能够在长时间交互中保持对大型世界的持久记忆。

最后，该模型即日起以预览版形式开放体验，现在就可以试起来了…试完欢迎回来补个反馈评论哦！

性价比vps 云服务器高防服务器

本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542839.html

上一篇

AI浪潮下，互联网大厂的新战场

下一篇

李飞飞World Labs发布RTFM：实时生成3D世界模型