当前位置:首页 > 科技资讯 > 正文

世界模型:通向AGI的纷争与梦想

世界模型,已成为探索之路上的迷宫。

OpenAI将Sora视频称作“世界模拟器”,而杨立昆(Yann LeCun)则称Sora为“像素幻觉”,认为真正的世界模型应是“预测未来的抽象大脑”。谷歌DeepMind将Genie3称为“可交互的通用世界模型”,李飞飞则强调“空间智能”才是关键。

现实世界独一无二,但AI圈内却各自构建了专属的“世界模型”。

尽管定义大相径庭,这些行业巨头在一点上达成共识:大语言模型的尽头,通往AGI的桥梁是世界模型。

大语言模型在GPT-3.5后经历了参数膨胀,而世界模型在概念上却先行膨胀。

世界模型:一个包罗万象的概念

“世界模型”的混乱源于其目的的模糊性,旨在让AI理解并预测世界变化,而非具体技术路径。

概念上的混乱首当其冲。

世界模型的思想可追溯到1943年Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型进行预测。尽管该理论在20世纪90年代被引入强化学习,但真正让其在现代AI领域崭露头角的是Jürgen Schmidhuber等人在2018年发表的奠基性论文。

随着大语言模型的爆发,对通用人工智能的渴望让这一概念在近两年的发展如同“线面”般繁殖。

Yann LeCun在2022年提出以世界模型为核心的“自主智能”,并在2023年、2024年先后推出了I-JEPA、V-JEPA预测模型。李飞飞在2024年提出了“空间智能”理念,并发布了Marble。

从技术方向看,当前世界模型主要分为表征派与生成派两大流派。

Yann LeCun是“表征派”的代表,坚持极简主义路线。

类比人脑中的心智模型,我们对世界的预测和行动往往是一种直觉。基于此,LeCun的世界模型是一个深藏在系统后端的“大脑”,它只在表征处理后的潜在空间里运作,预测的是“抽象状态”。

世界模型:通向AGI的纷争与梦想 世界模型 AGI 大语言模型 技术路线 第1张

LeCun提出的世界模型需要同时输入四个变量,对先前世界状态的预估s(t),对当前的观察x(t),当前的动作a(t),一个潜在变量z(t),结合四个变量来预测下一时刻的世界状态s(t+1)。

这个定义强调两点:一是预测下一刻的“状态”而非画面;二是能针对连续的动作交互进行因果推断。

而“生成派”则与Yann LeCun的核心区别在于重建和模拟视觉世界。

这一派常常引用物理学家Richard Feynman的名言:“我若无法创造,便不能理解。”只要模型能生成对的世界,就证明它懂了世界的物理规律。

OpenAI在介绍Sora时称其为“世界模拟器”,认为只要数据量足够大,模型就能通过预测下一帧像素涌现出对物理规律的理解。

李飞飞所主张的“3D空间智能”,以World Labs发布的Marble为最新代表。

如果说前两者在处理视频流,那么Marble则试图从底层构建一个持久的、可下载的3D环境。这条路线的技术底座更接近“3D高斯泼溅”,不依赖传统网格建模,而是通过微粒的聚合渲染出精美的三维画面。

世界模型:通向AGI的纷争与梦想 世界模型 AGI 大语言模型 技术路线 第2张

但无论哪种路线,成果都未达到预期。这些路线的成果互相争吵,也都有一批拥护者,导致“世界模型”的概念外延被无限扩大。

泡沫与野心并存:世界模型的“反LLM中心”叙事

技术路线的不同不足以解释为何“世界模型”会在今年井喷。热潮背后交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。

必须承认这里存在巨大的泡沫成分。

在创投圈,叙事往往比代码更值钱。当“大语言模型”的竞争格局已定,后来者和垂直应用开发者急需一个新故事来打动投资人。

“视频生成模型”听起来是工具软件,但改名为“世界模型”后,瞬间上升到AGI高度。

科研人员大规模下场创办公司,学术与商业发生重叠。

在科研中,所有创新必须建立在严谨的公理之上。但在创业公司中,资源有限,一个定义的差异可能意味着数以亿计的算力投入方向。而当我们抛开定义争夺和炒作,世界模型的兴起也像是一场“反LLM中心主义”的运动。

整个AI行业对大语言模型产生技术焦虑。这种焦虑源于LLM的先天缺陷:它是“离身”的。AI需要从学习“人类说的话”,转向学习“世界发生的事”。

行业正在从单纯的文本处理转向对物理现实的模拟与交互,因为大家都意识到,通往AGI的最后一块拼图不在互联网的文本数据里,而在真实的物理世界中。