当前位置:首页 > 科技资讯 > 正文

李飞飞:空间智能引领AI新前沿

2月4日,在思科(Cisco)AI峰会上,World Labs创始人李飞飞披露了公司首款空间智能产品Marble的技术细节。

作为生成式AI浪潮的核心奠基者之一,李飞飞并未盲目追逐大语言模型的热潮。她提出鲜明观点:单纯的大语言模型无法通往AGI(通用人工智能)。

在李飞飞看来,语言在生物进化史上只是最近50万年的产物,而视觉与触觉所代表的空间智能,早在5亿年前的寒武纪就开启了神经系统的演化竞赛。如果AI无法理解三维物理世界、无法具备物理直觉,它就只能被永远困在数字的像素中。

基于这样的判断,World Labs试图走通一条不同于OpenAI的路径:通过构建具有物理一致性的世界模型,为AI补上感知的短板。

我们梳理了这场访谈的核心信息,以下是重点内容:

1. AGI路线之争:语言并不是智能的全部。

李飞飞用生物进化的宏观视角重新审视了AI的发展路径:语言在人类进化史上只有约50万年的历史,相比之下,视觉、触觉等感知能力早在5亿年前的寒武纪就开启了演化竞赛。结论是:如果AI只有语言能力,它将被永远困在数字世界中。只有补齐了空间智能,AI才能真正通往AGI。

2. 重新定义世界模型:物理一致性是关键。

李飞飞介绍,Marble能接收多模态输入,并将这些提示词转化为一个完全可导航、可交互且具有永久一致性的3D世界。与强调视觉效果的视频模型不同,Marble生成的环境具有几何结构和物理一致性。

Marble目前已被用于游戏开发、影视特效(VFX)、机器人训练等领域。

3. 合成数据技术成熟,世界模型将迎来爆发时刻。

为什么物理世界的AI发展比语言模型慢?核心在于数据的信噪比。为了解决这一难题,World Labs采取混合数据策略:利用现有文本、图像、视频数据;结合仿真模拟数据;加上真实世界采集的数据。

李飞飞预判,随着合成数据技术的成熟,世界模型领域将迎来类似LLM的Scaling Law爆发时刻。

4. 通用机器人才是AI技术的皇冠。

大众往往认为自动驾驶是AI技术的皇冠,但在李飞飞看来,通用机器人的维度要高得多。自动驾驶是2D逻辑,而通用机器人是3D逻辑。

5. AI技术的终局是成为新的电力。

面对当前关于AI的极化争论,李飞飞表现出科学家的审慎与人文关怀。她将AI比作一百多年前的电力。电力的成功是因为它点亮了学校的灯、驱动了工厂的机器、延长了人类的寿命。同理,AI的成功在于它能否成为一种赋能文明的基础设施。

李飞飞透露,World Labs的目标是让空间智能技术进入医疗健康、农业制造等各个垂直行业。希望在2026年,我们能看到拥有空间智能的AI与物理世界产生美妙的交互。

李飞飞:空间智能引领AI新前沿 空间智能 AGI 物理一致性 World Labs 第1张

以下为李飞飞访谈实录:

1、空间智能是AI的下一个前沿领域

主持人:很高兴见证World Labs在过去一年中的进展。让我们先聊聊你们正在做的事情以及它的重要性。

李飞飞:我每天醒来只思考一件事——空间智能。两年前,我与一群技术专家创立了World Labs。为什么空间智能如此重要?我认为它是AI的下一个前沿领域。从进化的角度看智能发展,历史可以追溯到5亿多年前。感知而非语言是最早开启神经系统演化竞赛的。相比之下,语言是一种非常新颖的智能形式。

“本能”这个词虽然模糊,但正是通过触觉和视觉与物理世界进行身体接触,才开启了神经系统的发育。这使得生物在与环境交互中变得越来越活跃和智能。在真实的3D、4D物理世界中进行理解、推理、交互和导航的能力是基础性的,与语言智能同样重要。这就是空间智能的核心。

主持人:请聊聊Marble,这是你们最近发布的产品。什么是Marble?

李飞飞:Marble是我们第一代空间智能模型。它能接收多模态输入,并将这些提示词转化为一个完全可导航、可交互且具有永久一致性的3D世界。这与视频模型不同,Marble生成的环境具有几何结构。

李飞飞:我们大约两个月前发布了Marble。虽然它还在起步阶段,但作为最先进的3D生成式世界模型,我们对开启这段旅程感到非常激动。

2、AI的社会价值

主持人:你进入AI行业已经很久了。

李飞飞:这是在委婉地讨论我的年龄。

主持人:我指的是你不仅是跟风研究三年的人,而是将毕生精力都奉献给了AI。当你创立World Labs并构建空间智能时,最让你感到惊讶的是什么?

李飞飞:保持求知欲和学习能力是最重要的。我投身AI领域多年,最初是因为好奇心。但过去十年发生了翻天覆地的变化,AI对我而言不仅是个人追求,还上升到了文明层面。这让我作为教育者和企业家多了一层责任感。

3、世界模型与具身智能的技术难点

主持人:接下来谈谈战术层面。Large World Models的计算密集度是否与Language Models相当?

李飞飞:存在不同种类的大型世界模型。我们致力于创建具有显式3D表示的世界模型。目前我们的模型规模并没有那么大。但从宏观视角看,GPT-5的训练量在10的26次方flops左右,而我们的Marble模型在规模上仍要小几个数量级。