当前位置:首页 > 科技资讯 > 正文

李飞飞团队推出全新RTFM模型,单张GPU即可驱动

李飞飞团队推出全新RTFM模型,单张GPU即可驱动 RTFM模型 单张GPU 生成式世界模型 实时运行 第1张

李飞飞团队的最新创业成果——世界模型RTFM(A Real-Time Frame Model)即将面世!

李飞飞教授亲自宣布,这款全新模型不仅具备实时运行、持久性和3D一致性,更关键的是,它只需单张H100 GPU就能运行。

RTFM的设计遵循三大核心原则:效率、可扩展性和持久性。仅需单张H100 GPU,RTFM便能以交互级帧率实时完成推理运算。该架构具备随数据量与算力增长而持续扩展的能力,通过海量视频数据自主学习,构建三维世界模型。用户可无限时长与RTFM交互,所有场景将永久留存,系统构建的3D世界不会因视角转换而消失。

生成式世界模型的计算需求

强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界。这类模型将彻底改变各行各业,从媒体到机器人技术。

过去一年,生成式视频建模的进展已成功应用于生成式世界建模领域。随着技术发展,一个事实愈发清晰:生成式世界模型对算力的需求将远超当今的大型语言模型。

若直接套用现有视频架构,生成60帧的4K交互视频流每秒需产生超过10万个token。而要维持一小时以上的持续交互,需处理的上下文token将突破1亿大关。基于当前计算基础设施,这既不可行也不具备经济性。

李飞飞团队深信:“那些能随算力增长优雅扩展的简洁方法终将在AI领域占据主导。”生成式世界模型正处在绝佳位置,必将从持续降低的算力成本中获益。

世界模型作为学习渲染器

传统的3D图形管线采用显式3D表征构建世界模型,再通过渲染生成2D图像。而RTFM则另辟蹊径,通过训练单一神经网络,输入场景的单张或多张2D图像,即可从全新视角生成该场景的2D图像,无需构建任何显式3D表征。

RTFM采用自回归扩散变换器架构,通过海量视频数据进行端到端训练,实现基于历史帧的后续帧预测。它被视为一种可学习的渲染器,将输入的图像帧转换为神经网络中的激活,以隐式方式表示整个世界。

将姿态帧作为空间记忆

现实世界具有持久性:当你移开视线时,世界不会消失或完全改变。这对自回归帧模型来说一直是一个挑战。RTFM通过将每一帧建模为在三维空间中具有一个姿态(位置和方向)来规避这一问题。

模型对世界的记忆(包含在其帧中)具有空间结构。它将带有姿态的帧作为空间记忆使用,为模型提供了一个弱先验——即它所建模的世界是三维欧几里得空间。这使得RTFM能够在长时间交互中保持对大型世界的持久记忆。

最后,该模型即日起以预览版形式开放体验,现在就可以试起来了…试完欢迎回来补个反馈评论哦!