当前位置：首页 > 科技资讯 > 正文

世界模型：通向AGI的纷争与梦想

世界模型，已成为探索之路上的迷宫。

OpenAI将Sora视频称作“世界模拟器”，而杨立昆（Yann LeCun）则称Sora为“像素幻觉”，认为真正的世界模型应是“预测未来的抽象大脑”。谷歌DeepMind将Genie3称为“可交互的通用世界模型”，李飞飞则强调“空间智能”才是关键。

现实世界独一无二，但AI圈内却各自构建了专属的“世界模型”。

尽管定义大相径庭，这些行业巨头在一点上达成共识：大语言模型的尽头，通往AGI的桥梁是世界模型。

大语言模型在GPT-3.5后经历了参数膨胀，而世界模型在概念上却先行膨胀。

世界模型：一个包罗万象的概念

“世界模型”的混乱源于其目的的模糊性，旨在让AI理解并预测世界变化，而非具体技术路径。

概念上的混乱首当其冲。

世界模型的思想可追溯到1943年Kenneth Craik提出的“心智模型”，即大脑通过构建外部世界的微缩模型进行预测。尽管该理论在20世纪90年代被引入强化学习，但真正让其在现代AI领域崭露头角的是Jürgen Schmidhuber等人在2018年发表的奠基性论文。

随着大语言模型的爆发，对通用人工智能的渴望让这一概念在近两年的发展如同“线面”般繁殖。

Yann LeCun在2022年提出以世界模型为核心的“自主智能”，并在2023年、2024年先后推出了I-JEPA、V-JEPA预测模型。李飞飞在2024年提出了“空间智能”理念，并发布了Marble。

从技术方向看，当前世界模型主要分为表征派与生成派两大流派。

Yann LeCun是“表征派”的代表，坚持极简主义路线。

类比人脑中的心智模型，我们对世界的预测和行动往往是一种直觉。基于此，LeCun的世界模型是一个深藏在系统后端的“大脑”，它只在表征处理后的潜在空间里运作，预测的是“抽象状态”。

世界模型：通向AGI的纷争与梦想世界模型 AGI 大语言模型技术路线第1张

LeCun提出的世界模型需要同时输入四个变量，对先前世界状态的预估s(t)，对当前的观察x(t)，当前的动作a(t)，一个潜在变量z(t)，结合四个变量来预测下一时刻的世界状态s(t+1)。

这个定义强调两点：一是预测下一刻的“状态”而非画面；二是能针对连续的动作交互进行因果推断。

而“生成派”则与Yann LeCun的核心区别在于重建和模拟视觉世界。

这一派常常引用物理学家Richard Feynman的名言：“我若无法创造，便不能理解。”只要模型能生成对的世界，就证明它懂了世界的物理规律。

OpenAI在介绍Sora时称其为“世界模拟器”，认为只要数据量足够大，模型就能通过预测下一帧像素涌现出对物理规律的理解。

李飞飞所主张的“3D空间智能”，以World Labs发布的Marble为最新代表。

如果说前两者在处理视频流，那么Marble则试图从底层构建一个持久的、可下载的3D环境。这条路线的技术底座更接近“3D高斯泼溅”，不依赖传统网格建模，而是通过微粒的聚合渲染出精美的三维画面。

世界模型：通向AGI的纷争与梦想世界模型 AGI 大语言模型技术路线第2张

但无论哪种路线，成果都未达到预期。这些路线的成果互相争吵，也都有一批拥护者，导致“世界模型”的概念外延被无限扩大。

技术路线的不同不足以解释为何“世界模型”会在今年井喷。热潮背后交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。

必须承认这里存在巨大的泡沫成分。

在创投圈，叙事往往比代码更值钱。当“大语言模型”的竞争格局已定，后来者和垂直应用开发者急需一个新故事来打动投资人。

“视频生成模型”听起来是工具软件，但改名为“世界模型”后，瞬间上升到AGI高度。

科研人员大规模下场创办公司，学术与商业发生重叠。

在科研中，所有创新必须建立在严谨的公理之上。但在创业公司中，资源有限，一个定义的差异可能意味着数以亿计的算力投入方向。而当我们抛开定义争夺和炒作，世界模型的兴起也像是一场“反LLM中心主义”的运动。

整个AI行业对大语言模型产生技术焦虑。这种焦虑源于LLM的先天缺陷：它是“离身”的。AI需要从学习“人类说的话”，转向学习“世界发生的事”。

行业正在从单纯的文本处理转向对物理现实的模拟与交互，因为大家都意识到，通往AGI的最后一块拼图不在互联网的文本数据里，而在真实的物理世界中。

本文由主机测评网于2026-05-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545653.html