当前位置:首页 > 科技资讯 > 正文

Meta的AI征途:从“世界模型”到具身智能

在人工智能的激烈竞赛中,扎克伯格和他的Meta无疑是其中最为“激进”的玩家。

过去一年,扎克伯格不惜重金,四处招揽人才,试图打造全球顶尖的AI产品团队。他动辄为拥有OpenAI、Anthropic等头部企业工作经验的人才开出1亿美元的“跳槽奖金”。其中,为吸引天才少年汪涛加入Meta,带领人工智能团队,扎克伯格更是豪掷148亿美元收购了汪涛创办的Scale AI,整体打包带走。

此外,扎克伯格还邀请了NFDG的两位合伙人——丹尼尔·格罗斯与前GitHub首席执行官、著名科技播客“Hacker Medley”的主理人纳特·弗里德曼加入Meta,共同组建Meta自成立以来的首只产业基金(CVC)。

更为关键的是,Meta手中还有一张王牌——首席科学家杨立昆(Yann LeCun)

杨立昆是图灵奖得主、AI之父辛顿的亲传弟子,也是OpenAI前首席科学家伊利亚的同门师兄,更是神经网络反向传播学习算法的提出者。在人工智能领域,杨立昆无疑是宗师级人物。

然而,就在Meta准备大展拳脚之际,杨立昆却宣布将于年底离开Meta,成立自己的公司。他认为目前的大语言模型对物理世界的理解能力很差,是一条“死路”。他提出,要做出真正的“通用人工智能(AGI)”,需要探索另一条技术路线——“世界模型”(world models)。

这一消息迅速引爆全球科技圈,“世界模型”成为热门话题。人们纷纷讨论“世界模型”到底是什么,它与大语言模型的差异又在哪里。

在中国,也有一群科学家在思考同样的问题,并尝试给出自己的解决方案。据投中网获悉,近日,由鹏城实验室孵化、专注“物理空间智能模型”研发的「拓元智慧」宣布完成数亿元Pre-A轮系列融资,引入多家战略及产业投资方和重量级国资投资平台。本轮融资将主要用于物理空间智能模型的研发投入、赋能模型的物理推理及跨场景迁移能力、构建具身生态并加速相关产品的商业化落地。

世界模型:超越大语言模型的未来之路

为什么大语言模型是死胡同?研究人类大脑的杨立昆认为,人类能够进行推理和规划,是因为能够记忆事物、拥有直觉和常识。而大语言模型的工作原理是推理下一个最符合逻辑的词元或像素。

这些模型虽然表现出色,但仅局限于“词元”“像素”的维度,并未真正理解三维世界。例如,给定“门宽80cm、桌子50cm、人的肩宽55cm”的描述,当前的语言模型往往会逐项比较数字并认为“都可以通过”,却忽略了组合宽度、旋转投影变化等物理规律。这种错误不仅是知识缺失,更是缺乏真正的物理空间理解能力。

如果更务实地看,大语言模型虽然在文本推理与知识处理上取得突破,但在理解真实物理空间、进行连续动作规划以及与环境实时交互方面仍存在根本性缺陷。这些缺陷不仅让AGI的实现遥遥无期,更直接限制了人工智能技术向具身智能等更实际应用场景的拓展。

例如,由于模型无法准确理解空间结构与几何关系,机器人在执行简单任务时也会出现失败模式。在抓取任务中,机械臂可能因误判目标位置而多次空抓或在移动时与桌角、墙面发生碰撞。在更复杂场景中,模型甚至会生成违反物理规律的行为规划。

总之,想要让人工智能真正具备人类级别的学习能力,就需要帮助大模型真正理解“物理世界”,这就是“世界模型”。杨立昆说:“世界模型是你对世界运行方式的心理模型。你可以想象一系列行动,而你的世界模型将使你能够预测这些行动对世界的影响。”

李飞飞也持相同观点。她认为人工智能下一个十年的主要技术方向是具备空间智能的“世界模型”。而判断标准是能生成符合物理定律且空间一致的世界,处理多模态输入并预测世界的演变与互动。

Meta的AI征途:从“世界模型”到具身智能 Meta AI 世界模型 具身智能 第1张

当然,“路线之争”并非其他大模型开发者不认同“世界模型”的价值,而是存在诸多难点。

从数字世界走向真实世界需要判断在真实世界执行的动作并与真实世界交互。目前主流的大模型架构——视觉—语言—动作模型(VLA)存在两个无法回避的缺陷:即使引入世界模型也难以解决。

第一,VLA通常将视觉输入压缩到语言token空间,这一过程会丢失连续空间中的几何、拓扑与物理量信息;第二,VLA的泛化能力极为有限。真实世界具有高度复杂性与多样性而具身智能对视角变化、环境布局等极度敏感。这些因素使得VLA模型很容易在训练场景中表现良好却无法迁移到新环境中。

这两个瓶颈直接导致AI在物理空间中能力严重不足也让“通往AGI之路”看似无底洞。一个例证是扎克伯格曾公开表示Meta明年支出将超过1000亿美元这一言论引发了人们“大模型烧钱”的焦虑也考验了投资人的耐心。

“VWA”:让世界模型更有可能

那么如何真实高效地开发“世界模型”呢?李飞飞、杨立昆在思考中国科学家也在思考而拓元智慧就是其中之一。

Meta的AI征途:从“世界模型”到具身智能 Meta AI 世界模型 具身智能 第2张

拓元智慧由国内外顶尖AI学者组成其核心创业团队包括王广润博士等。他们提出的答案是“VWA”即Vision-World-Action模型一种区别于VLA模型的全新架构。

拓元团队认为制约当前大模型能力提升的关键瓶颈是目前模型普遍缺乏泛化性。想要打破这个瓶颈就需要将整体能力解耦为“物理建模”与“空间建模”两大模块。通过这种拆分模型能够获得高度通用、跨环境稳定的物理建模能力;而真正影响泛化性的部分仅存在于对具体场景的空间建模上。

VWA正是基于这个思路所设计。与VLA不同VWA模型可以在物理空间进行推理与决策在连续物理空间中进行多步roll-out预测未来状态变换从而在规划、安全评估与稳定控制方面迈出关键一步。

实现VWA架构的核心是拓元开发的物理自回归模型(Physical Autoregressive Model, PAR). PAR模型通过将视频帧与机器人动作共同编码为“物理token”使得模型能够以自回归方式逐步预测下一步视频与动作形成“预测—执行—再预测”的闭环。尤为关键的是PAR模型在无需动作预训练的前提下即可有效学习物理世界的动态规律在机器人操作基准ManiSkill的PushCube任务上实现了100%的成功率并在多项任务中媲美需动作预训练的强基线模型。

拓元还开发了全新的Tweedie Framework和Eon计算机制显著提升动作控制的准确性和模型的运行效率与长序列建模能力为构建更可靠、更智能、更具泛化能力的物理空间智能奠定基础。

在数据层面拓元智慧引入多源且高质量的物理数据包括真实人类抓取及自然场景数据和训练场仿真数据为模型提供可控、可扩展、可重复的训练条件。

依托全新的架构和海量的真实预训练数据模型开发的效率被大大提升适配所需的数据极少甚至只需一条示例数据所涉及的参数规模也极小。更重要的是模型能在新环境中实现在线快速适配以家庭机器人为例:一个家务机器人不再需要漫长的学习和适应步骤只需对新的空间布局进行快速建模就能立即投入使用。

拓元智慧自成立伊始就获得了资本市场的大量关注。自2022年成立至今先后完成了多轮市场化融资投资方涵盖卓源资本、源数资本等市场化机构以及粤科金融集团等国资背景的平台。

本次投资方均在其专注领域拥有深厚的资源背景与战略布局进一步确认了资本市场对拓元智慧技术与发展前景的认可。