关于世界模型的定义,如今已如同现实世界般纷繁复杂。
OpenAI宣称其Sora视频生成模型即为“世界模拟器”;杨立昆(Yann LeCun)则反驳Sora不过是像素级的幻觉,认为真正的世界模型应当是“预测未来的抽象思维架构”;谷歌DeepMind宣称Genie3是“可交互的通用世界模型”;而李飞飞则主张“空间智能”才是通往AGI的关键。
尽管现实世界是唯一且客观的,但在人工智能领域,似乎每位研究者都在构建属于自己的“世界模型”。
尽管对世界模型的界定南辕北辙,但这些争论不休的领军人物在一个基本判断上达成了一致:大语言模型的发展已接近天花板,世界模型才是实现通用人工智能(AGI)的必由之路。
自GPT-3.5之后,大语言模型经历了参数的指数级增长,而世界模型在技术路径尚未收敛之前,就已经先经历了概念的急剧膨胀。
“世界模型”概念的混乱,根源在于它本质上是一个目标——让AI具备理解外部世界规律并预测世界变化的能力,而非一种具体的技术实现方式。
最先陷入混乱的就是概念本身。
世界模型的思想萌芽可追溯至1943年认知科学家Kenneth Craik提出的“心智模型(Mental Model)”,即大脑通过构建外部世界的缩微模型来进行预测。换句话说,我们脑中的心智模型不仅能处理当前感知的信息,还能预判“如果我这样做,世界将如何响应”。
虽然该理论在20世纪90年代就被引入强化学习,但真正让其在现代AI领域占据一席之地的,是Jürgen Schmidhuber等人在2018年发表的奠基性论文《Recurrent World Models Facilitate Policy Evolution》。该文首次系统定义了基于神经网络的世界模型框架,那时它还是一个由视觉组件(VAE)、记忆组件(RNN)和控制器构成的具体架构,并在简陋的赛车游戏和二维射击游戏中训练。
七年后,随着大语言模型的爆发,对通用人工智能的渴望使这一概念在近两年如同“细胞分裂”般快速繁衍。
Yann LeCun在2022年提出了以世界模型为核心的“自主智能”,强调通过模块化设计和自监督学习获取抽象表征,并在2023年和2024年先后推出了I-JEPA、V-JEPA预测模型。
李飞飞在2024年提出了“空间智能”理念,创办World Labs,又新发布了Marble,主张世界模型必须具备生成可交互3D环境的物理一致性能力。“对我来说,空间智能是创造、推理、互动并理解深刻空间世界的能力,无论是二维、三维还是四维,包括动态和所有这些维度。”
甚至连OpenAI前首席科学家Ilya Sutskever提到的“压缩即智能”,本质上也是认为只要能无损地压缩并预测下一个token(无论是文本还是像素),模型内部就能构建出关于世界的映射。
一个抽象的概念,衍生出了更多抽象的分支。
若剥离这些定义上的争论,从技术方向来看,当前世界模型主要分为两大流派,分别对应了两种截然不同的世界观:表征派(Representation)与生成派(Generation)。
Yann LeCun正是“表征派”的代表,这是一条不产生具体画面的极简主义路线。
类比人脑的心智模型,我们对世界的预测和行动往往是一种直觉,而非物理公式或具体画面。基于此,LeCun的世界模型是一个深藏在系统后端的“大脑”,它仅在表征处理后的潜在空间内运作,预测的是“抽象状态”。
在这篇推文中,LeCun明确定义了一个世界模型需要同时输入四个变量:对先前世界状态的预估s(t)、对当前的观察x(t)、当前的动作a(t)以及一个潜在变量z(t),结合这四个变量来预测下一时刻的世界状态s(t+1)。
这个定义有两个关键点:一是世界模型预测下一刻的“状态”而不是画面,二是能针对连续的动作交互进行因果推断。
比如一辆车驶来,它不会在脑海中描绘车牌号和反光,只会计算出“障碍物靠近”这一状态。这种模型不为呈现给人类,只为辅助机器决策,它追求的是逻辑上的因果推演,而非视觉上的逼真。LeCun提出的I-JEPA(联合嵌入预测架构)和V-JEPA,都摒弃了生成式AI“预测每一个像素”的做法,毕竟现实世界充满了不可预测的噪声(如树叶纹理),AI不应浪费算力去生成这些细节。
第二大流派则是目前声量最大的“生成派”,与Yann LeCun最核心的区别在于,它们致力于重建并模拟视觉世界。
这一派常引用物理学家Richard Feynman的名言:“What I cannot create, I do not understand.(我若无法创造,便不能理解。)”也就是说,只要模型能生成正确的世界,就证明它掌握了世界的物理规律。
2024年初,OpenAI在介绍Sora时就将其称为“世界模拟器”。OpenAI认为,只要数据量足够庞大,模型就能通过预测下一帧像素,涌现出对物理规律的理解。通过学习数十亿的视频片段,它记住了“人走路时腿会交替”、“玻璃杯掉落会破碎”的概率分布。
Sora作为世界模型的争议很大,最直接的一点就是它无法回应LeCun对动作与世界状态因果律的要求——如果模型只能像放电影一样生成视频,而不能回答“如果我踢了这个球,它会怎么飞”这样的动作交互,那么它可能只是记住了“球飞行的轨迹概率”,而非理解了“力学定律”。
那么,如果这个视频生成能根据用户的动作输入,实时预测下一帧呢?
于是,生成派衍生出了更进一步的形态:互动式生成视频(Interactive Generative Video),例如Genie3。
与Sora不同,IGV的关键在于实时性和可交互性,即引入了动作(Action)。谷歌DeepMind发布的Genie3,将其明确定位为“通用目的世界模型”。它允许用户进入场景并与之互动,支持生成720p分辨率、24fps帧率的实时画面。用户可以自由导航,比如以第一人称视角驾驶或探索复杂地形。这意味着模型不仅理解画面,还理解了动作与环境变化的因果关系,尽管目前这个动作仅限于方向按键的上下左右。
最后,则是李飞飞所主张的“3D空间智能(Spatial Intelligence)”,以World Labs发布的Marble为最新代表。
如果说前两者是在处理视频流,那么Marble则是试图从底层构建一个持久的、可下载的3D环境。
这条路线的技术底座更接近于“3D高斯泼溅(3D Gaussian Splatting)”。它不依赖传统的网格建模,而是将世界表征为成千上万个漂浮在空间中的彩色模糊小斑点(高斯体)。通过这些微粒的聚合,模型能渲染出精美的三维画面,并允许用户通过提示词生成、利用内置编辑器自由改造,支持一键导出到Unity等引擎中。
尽管Marble目前距离李飞飞所设想的空间智能还很遥远,但可以看出她认为达到空间智能的第一步,是先建立一个高精度且物理准确的3D空间。我们可以总结一下:区别于Sora,Marble生成的是一个符合物理规律的3D世界;区别于Genie3,Marble不是实时生成的世界,但其精度和还原度更高。
但这些路线的成果,都没有达到各自所期待的世界模型的模样,甚至彼此间争论不休,且都拥有一批拥护者,而这也不断将“世界模型”的概念外延推向无限扩大。
如今,凡是涉及环境理解与模拟的上下游工程,无论是具身智能、自动驾驶、游戏视频等结构化垂直领域,还是生成式视频、多模态模型、视频理解、3D模型等技术,甚至做视觉信息压缩的DeepSeek OCR,全都主动或被动地与“世界模型”挂上了钩。
世界模型越来越像一个筐,什么都往里装。
如果仅仅是技术路线的差异,并不足以解释为何“世界模型”会在今年出现井喷。热潮背后,交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。
我们必须承认,其中包含了巨大的泡沫成分。
在创投圈,叙事往往比代码更值钱。当“大语言模型”的竞争格局已定,OpenAI、Google等巨头瓜分了基础模型的市场,后来者和垂直应用开发者急需一个新故事来打动投资人。
“视频生成模型”听起来像一款工具软件,天花板有限;但一旦改名为“世界模型”,瞬间就被拔高到了AGI的层面。
这也是当下AI时代的一个有趣现象:科研人员大规模下场创办公司,学术与商业发生了重叠。
在纯粹的科研世界里,所有的创新都必须建立在严谨的公理之上。如果你要解决一个问题(如实现AGI),你首先必须精准地定义这个问题。然而,当实验室变成了公司,学术大佬们变成了CEO,这种原本局限在期刊里的“定义之争”,就被抛向了商业世界。
在科研中,不同路线可以共存;但在创业公司中,资源是有限的,如果A的定义是正确的,B公司的几十亿投入就可能付诸东流。一个定义的差异,对应的却是数以亿计的算力投入方向、上下游产业链的备货以及投资人的价值重构。
而当我们抛开定义争夺和炒作,世界模型的兴起,更像是一场“反LLM中心主义”的运动。
整个AI行业对大语言模型(LLM)产生了一种集体性的技术焦虑。这种焦虑源于LLM的先天缺陷:它是“离身”(Disembodied)的。LLM是在纯文本的符号系统中训练出来的,它知道“苹果”这个词与“红色”、“甜”经常一起出现,但它从未真正“看见”过苹果,也无法理解苹果落地时的重力加速度,更别提随着数据规模的扩大,AI提升的边际效益正在递减。
无论是Ilya Sutskever在离职OpenAI后强调的“超越大模型”,还是李飞飞提出的“空间智能”,核心都在于一点:AI需要从学习“人类说的话”,转向学习“世界发生的事”。行业正在从单纯的文本处理,转向对物理现实的模拟与交互,因为大家都意识到,通往AGI的最后一块拼图,不在互联网的文本数据里,而在真实的物理世界中。
只是希望在世界模型真正出现之前,这个词不要先被玩坏了。
本文由主机测评网于2026-02-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260227566.html