当前位置:首页 > 科技资讯 > 正文

李飞飞团队发布世界模型Marble:AI理解世界的新里程碑

在斯坦福大学附近的World Labs实验室里,李飞飞团队带来了一场令人惊叹的展示。“当前AI系统虽能识别图像、生成文本,却对世界的运作机制一无所知,”这位AI领域的领军人物解释道,“若机器人无法预测杯子从桌上掉落的后果,它便无法在真实世界中有效运作。”

李飞飞团队发布世界模型Marble:AI理解世界的新里程碑 世界模型 AI 物理预测 通用人工智能 第1张

11月12日,李飞飞创立的World Labs公司正式推出了其首款商用产品——世界模型Marble,在AI界引起了轰动。这不仅是世界模型竞赛的一次重大加速,也可能是通往更通用人工智能的关键一步。

从识别到理解:为何世界模型成为AI的圣杯?

在世界模型的学术论文中,有一个经典案例:一个孩子看到积木塔被推倒,他不仅能描述眼前发生的现象,还能预测类似情况在其他物体上的结果——比如沙堡被踢倒,多米诺骨牌被推倒。

这种将物理规则抽象化、泛化的能力,正是当前AI系统所缺乏的。

尽管深度学习在过去十年取得了惊人进步,但大多数系统仍停留在‘模式识别’层面,”一位国内AI实验室负责人评价道,“它们可以识别猫、生成图片,但并不真正理解猫有体积、有重量,会受到重力影响。”

世界模型的概念并非新鲜事物。早在2018年,DeepMind就提出了类似构想,将其描述为“一种能够理解环境动态并预测未来的模型”。但直到最近,随着算力增长和理论突破,这一概念才从学术论文走向商业应用。

李飞飞在采访中阐述了她的愿景:“人类通过内心模拟来理解世界。当你看到乌云密布,你会预测可能要下雨;当你看到一个人朝你挥手,你会预测他是在打招呼。这种预测能力是人类智能的核心。”

李飞飞团队发布世界模型Marble:AI理解世界的新里程碑 世界模型 AI 物理预测 通用人工智能 第2张

World Labs的创立正是为了将这一愿景变为现实。据TechCrunch报道,这家由李飞飞联合创立的初创公司已筹集了大量资金,投资者包括硅谷顶级风投和战略技术公司。

Marble亮相:世界模型的首个商业产品有何不同?

Marble作为World Labs的首个商业产品,展示了世界模型技术的成熟度。与传统的AI系统相比,Marble的核心突破在于其能够从有限的视觉输入中预测未来的场景状态

李飞飞团队发布世界模型Marble:AI理解世界的新里程碑 世界模型 AI 物理预测 通用人工智能 第3张

在技术演示中,Marble展示了几种令人印象深刻的能力:

物理预测:给定一个简单场景——如桌面上摆放的积木,Marble能够准确预测如果推动其中一块积木,整个结构将如何反应。更惊人的是,它能够处理训练数据中未见过的新形状物体。

不确定性量化:与给出单一预测的传统模型不同,Marble能够明确表示预测中的不确定性。当场景模糊或结果具有多种可能性时,模型会给出概率分布,而非武断的单一答案。

多时间尺度推理:Marble能够进行从几毫秒到几分钟不同时间跨度的预测,适应不同应用场景的需求。

“Marble不是另一个生成漂亮视频的工具,”World Labs CTO强调,“它是理解世界因果结构的尝试。当我们展示一个球从桌上滚落时,Marble不仅预测球会掉下去,还理解这是因为重力作用,并且能够将这一理解推广到其他类似场景。”

李飞飞团队发布世界模型Marble:AI理解世界的新里程碑 世界模型 AI 物理预测 通用人工智能 第4张

从已公布的技术细节来看,Marble很可能建立在视觉-语言联合表征的基础上。这意味着它不仅仅处理像素数据,还构建了关于物体属性、物理规则和因果关系的内部表示。

全球实验室的世界模型已经开始布局

World Labs并非唯一觊觎世界模型这一圣杯的玩家。在全球范围内,一场无声的竞赛早已展开。

OpenAI早在GPT-4时期就开始探索世界模型的集成。据泄露信息显示,他们正在开发名为“Project Stella”的世界模型项目,旨在为下一代AI系统提供物理推理能力。

DeepMind作为世界模型的早期探索者,其最新产品“Genie”已能够从单张图像生成交互式环境。虽然目前主要应用于游戏领域,但其技术框架具有向通用世界模型扩展的潜力。

Meta则选择了不同的路径——通过超大规模视频训练构建隐式世界模型。Yann LeCun团队一直倡导自监督学习路径,认为通过观察海量视频数据,AI可以自发学习世界运作的基本原理。

在中国,字节跳动阿里巴巴百度等科技巨头也纷纷布局相关研究。字节跳动的AI Lab据传正在开发专注于视频预测的世界模型,而百度则更关注世界模型在自动驾驶领域的应用。蘑菇车联将自己的MogoMind大模型部署在名为“AI网络”的系统中。这个网络并非存在于云端,而是像“神经元”一样分布在城市道路的每一个智能基站、每一辆智能网联汽车之中。MogoMind并非一个静态的“地图”,它是一个活的、会呼吸的“世界模型”。它实时吸收着每一辆车的行驶轨迹、每一条道路的拥堵状况、每一个路口的信号灯状态等信息。

李飞飞团队发布世界模型Marble:AI理解世界的新里程碑 世界模型 AI 物理预测 通用人工智能 第5张