当前位置：首页 > 科技资讯 > 正文

世界模型迷思：从概念泛滥到技术路线之争

主机测评网
科技资讯
2026-02-27
637

关于世界模型的定义，如今已如同现实世界般纷繁复杂。

OpenAI宣称其Sora视频生成模型即为“世界模拟器”；杨立昆（Yann LeCun）则反驳Sora不过是像素级的幻觉，认为真正的世界模型应当是“预测未来的抽象思维架构”；谷歌DeepMind宣称Genie3是“可交互的通用世界模型”；而李飞飞则主张“空间智能”才是通往AGI的关键。

尽管现实世界是唯一且客观的，但在人工智能领域，似乎每位研究者都在构建属于自己的“世界模型”。

尽管对世界模型的界定南辕北辙，但这些争论不休的领军人物在一个基本判断上达成了一致：大语言模型的发展已接近天花板，世界模型才是实现通用人工智能（AGI）的必由之路。

自GPT-3.5之后，大语言模型经历了参数的指数级增长，而世界模型在技术路径尚未收敛之前，就已经先经历了概念的急剧膨胀。

世界模型如筐，万物皆可装入

“世界模型”概念的混乱，根源在于它本质上是一个目标——让AI具备理解外部世界规律并预测世界变化的能力，而非一种具体的技术实现方式。

最先陷入混乱的就是概念本身。

世界模型的思想萌芽可追溯至1943年认知科学家Kenneth Craik提出的“心智模型（Mental Model）”，即大脑通过构建外部世界的缩微模型来进行预测。换句话说，我们脑中的心智模型不仅能处理当前感知的信息，还能预判“如果我这样做，世界将如何响应”。

虽然该理论在20世纪90年代就被引入强化学习，但真正让其在现代AI领域占据一席之地的，是Jürgen Schmidhuber等人在2018年发表的奠基性论文《Recurrent World Models Facilitate Policy Evolution》。该文首次系统定义了基于神经网络的世界模型框架，那时它还是一个由视觉组件（VAE）、记忆组件（RNN）和控制器构成的具体架构，并在简陋的赛车游戏和二维射击游戏中训练。

七年后，随着大语言模型的爆发，对通用人工智能的渴望使这一概念在近两年如同“细胞分裂”般快速繁衍。

Yann LeCun在2022年提出了以世界模型为核心的“自主智能”，强调通过模块化设计和自监督学习获取抽象表征，并在2023年和2024年先后推出了I-JEPA、V-JEPA预测模型。

李飞飞在2024年提出了“空间智能”理念，创办World Labs，又新发布了Marble，主张世界模型必须具备生成可交互3D环境的物理一致性能力。“对我来说，空间智能是创造、推理、互动并理解深刻空间世界的能力，无论是二维、三维还是四维，包括动态和所有这些维度。”

甚至连OpenAI前首席科学家Ilya Sutskever提到的“压缩即智能”，本质上也是认为只要能无损地压缩并预测下一个token（无论是文本还是像素），模型内部就能构建出关于世界的映射。

一个抽象的概念，衍生出了更多抽象的分支。

若剥离这些定义上的争论，从技术方向来看，当前世界模型主要分为两大流派，分别对应了两种截然不同的世界观：表征派（Representation）与生成派（Generation）。

Yann LeCun正是“表征派”的代表，这是一条不产生具体画面的极简主义路线。

类比人脑的心智模型，我们对世界的预测和行动往往是一种直觉，而非物理公式或具体画面。基于此，LeCun的世界模型是一个深藏在系统后端的“大脑”，它仅在表征处理后的潜在空间内运作，预测的是“抽象状态”。

世界模型迷思：从概念泛滥到技术路线之争世界模型 AGI 生成派表征派第1张

在这篇推文中，LeCun明确定义了一个世界模型需要同时输入四个变量：对先前世界状态的预估s(t)、对当前的观察x(t)、当前的动作a(t)以及一个潜在变量z(t)，结合这四个变量来预测下一时刻的世界状态s(t+1)。

这个定义有两个关键点：一是世界模型预测下一刻的“状态”而不是画面，二是能针对连续的动作交互进行因果推断。

比如一辆车驶来，它不会在脑海中描绘车牌号和反光，只会计算出“障碍物靠近”这一状态。这种模型不为呈现给人类，只为辅助机器决策，它追求的是逻辑上的因果推演，而非视觉上的逼真。LeCun提出的I-JEPA（联合嵌入预测架构）和V-JEPA，都摒弃了生成式AI“预测每一个像素”的做法，毕竟现实世界充满了不可预测的噪声（如树叶纹理），AI不应浪费算力去生成这些细节。

第二大流派则是目前声量最大的“生成派”，与Yann LeCun最核心的区别在于，它们致力于重建并模拟视觉世界。

这一派常引用物理学家Richard Feynman的名言：“What I cannot create, I do not understand.（我若无法创造，便不能理解。）”也就是说，只要模型能生成正确的世界，就证明它掌握了世界的物理规律。

2024年初，OpenAI在介绍Sora时就将其称为“世界模拟器”。OpenAI认为，只要数据量足够庞大，模型就能通过预测下一帧像素，涌现出对物理规律的理解。通过学习数十亿的视频片段，它记住了“人走路时腿会交替”、“玻璃杯掉落会破碎”的概率分布。

Sora作为世界模型的争议很大，最直接的一点就是它无法回应LeCun对动作与世界状态因果律的要求——如果模型只能像放电影一样生成视频，而不能回答“如果我踢了这个球，它会怎么飞”这样的动作交互，那么它可能只是记住了“球飞行的轨迹概率”，而非理解了“力学定律”。

那么，如果这个视频生成能根据用户的动作输入，实时预测下一帧呢？

于是，生成派衍生出了更进一步的形态：互动式生成视频（Interactive Generative Video），例如Genie3。

与Sora不同，IGV的关键在于实时性和可交互性，即引入了动作（Action）。谷歌DeepMind发布的Genie3，将其明确定位为“通用目的世界模型”。它允许用户进入场景并与之互动，支持生成720p分辨率、24fps帧率的实时画面。用户可以自由导航，比如以第一人称视角驾驶或探索复杂地形。这意味着模型不仅理解画面，还理解了动作与环境变化的因果关系，尽管目前这个动作仅限于方向按键的上下左右。

世界模型迷思：从概念泛滥到技术路线之争世界模型 AGI 生成派表征派第2张

最后，则是李飞飞所主张的“3D空间智能（Spatial Intelligence）”，以World Labs发布的Marble为最新代表。

如果说前两者是在处理视频流，那么Marble则是试图从底层构建一个持久的、可下载的3D环境。

这条路线的技术底座更接近于“3D高斯泼溅（3D Gaussian Splatting）”。它不依赖传统的网格建模，而是将世界表征为成千上万个漂浮在空间中的彩色模糊小斑点（高斯体）。通过这些微粒的聚合，模型能渲染出精美的三维画面，并允许用户通过提示词生成、利用内置编辑器自由改造，支持一键导出到Unity等引擎中。

尽管Marble目前距离李飞飞所设想的空间智能还很遥远，但可以看出她认为达到空间智能的第一步，是先建立一个高精度且物理准确的3D空间。我们可以总结一下：区别于Sora，Marble生成的是一个符合物理规律的3D世界；区别于Genie3，Marble不是实时生成的世界，但其精度和还原度更高。

世界模型迷思：从概念泛滥到技术路线之争世界模型 AGI 生成派表征派第3张

但这些路线的成果，都没有达到各自所期待的世界模型的模样，甚至彼此间争论不休，且都拥有一批拥护者，而这也不断将“世界模型”的概念外延推向无限扩大。

如今，凡是涉及环境理解与模拟的上下游工程，无论是具身智能、自动驾驶、游戏视频等结构化垂直领域，还是生成式视频、多模态模型、视频理解、3D模型等技术，甚至做视觉信息压缩的DeepSeek OCR，全都主动或被动地与“世界模型”挂上了钩。

世界模型越来越像一个筐，什么都往里装。

泡沫与野心并存：世界模型是一种“反LLM中心”叙事

如果仅仅是技术路线的差异，并不足以解释为何“世界模型”会在今年出现井喷。热潮背后，交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。

我们必须承认，其中包含了巨大的泡沫成分。

在创投圈，叙事往往比代码更值钱。当“大语言模型”的竞争格局已定，OpenAI、Google等巨头瓜分了基础模型的市场，后来者和垂直应用开发者急需一个新故事来打动投资人。

“视频生成模型”听起来像一款工具软件，天花板有限；但一旦改名为“世界模型”，瞬间就被拔高到了AGI的层面。

这也是当下AI时代的一个有趣现象：科研人员大规模下场创办公司，学术与商业发生了重叠。

在纯粹的科研世界里，所有的创新都必须建立在严谨的公理之上。如果你要解决一个问题（如实现AGI），你首先必须精准地定义这个问题。然而，当实验室变成了公司，学术大佬们变成了CEO，这种原本局限在期刊里的“定义之争”，就被抛向了商业世界。

在科研中，不同路线可以共存；但在创业公司中，资源是有限的，如果A的定义是正确的，B公司的几十亿投入就可能付诸东流。一个定义的差异，对应的却是数以亿计的算力投入方向、上下游产业链的备货以及投资人的价值重构。

而当我们抛开定义争夺和炒作，世界模型的兴起，更像是一场“反LLM中心主义”的运动。

整个AI行业对大语言模型（LLM）产生了一种集体性的技术焦虑。这种焦虑源于LLM的先天缺陷：它是“离身”（Disembodied）的。LLM是在纯文本的符号系统中训练出来的，它知道“苹果”这个词与“红色”、“甜”经常一起出现，但它从未真正“看见”过苹果，也无法理解苹果落地时的重力加速度，更别提随着数据规模的扩大，AI提升的边际效益正在递减。

无论是Ilya Sutskever在离职OpenAI后强调的“超越大模型”，还是李飞飞提出的“空间智能”，核心都在于一点：AI需要从学习“人类说的话”，转向学习“世界发生的事”。行业正在从单纯的文本处理，转向对物理现实的模拟与交互，因为大家都意识到，通往AGI的最后一块拼图，不在互联网的文本数据里，而在真实的物理世界中。

只是希望在世界模型真正出现之前，这个词不要先被玩坏了。