世界模型,已成为探索之路上的迷宫。
OpenAI将Sora视频称作“世界模拟器”,而杨立昆(Yann LeCun)则称Sora为“像素幻觉”,认为真正的世界模型应是“预测未来的抽象大脑”。谷歌DeepMind将Genie3称为“可交互的通用世界模型”,李飞飞则强调“空间智能”才是关键。
现实世界独一无二,但AI圈内却各自构建了专属的“世界模型”。
尽管定义大相径庭,这些行业巨头在一点上达成共识:大语言模型的尽头,通往AGI的桥梁是世界模型。
大语言模型在GPT-3.5后经历了参数膨胀,而世界模型在概念上却先行膨胀。
“世界模型”的混乱源于其目的的模糊性,旨在让AI理解并预测世界变化,而非具体技术路径。
概念上的混乱首当其冲。
世界模型的思想可追溯到1943年Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型进行预测。尽管该理论在20世纪90年代被引入强化学习,但真正让其在现代AI领域崭露头角的是Jürgen Schmidhuber等人在2018年发表的奠基性论文。
随着大语言模型的爆发,对通用人工智能的渴望让这一概念在近两年的发展如同“线面”般繁殖。
Yann LeCun在2022年提出以世界模型为核心的“自主智能”,并在2023年、2024年先后推出了I-JEPA、V-JEPA预测模型。李飞飞在2024年提出了“空间智能”理念,并发布了Marble。
从技术方向看,当前世界模型主要分为表征派与生成派两大流派。
Yann LeCun是“表征派”的代表,坚持极简主义路线。
类比人脑中的心智模型,我们对世界的预测和行动往往是一种直觉。基于此,LeCun的世界模型是一个深藏在系统后端的“大脑”,它只在表征处理后的潜在空间里运作,预测的是“抽象状态”。
LeCun提出的世界模型需要同时输入四个变量,对先前世界状态的预估s(t),对当前的观察x(t),当前的动作a(t),一个潜在变量z(t),结合四个变量来预测下一时刻的世界状态s(t+1)。
这个定义强调两点:一是预测下一刻的“状态”而非画面;二是能针对连续的动作交互进行因果推断。
而“生成派”则与Yann LeCun的核心区别在于重建和模拟视觉世界。
这一派常常引用物理学家Richard Feynman的名言:“我若无法创造,便不能理解。”只要模型能生成对的世界,就证明它懂了世界的物理规律。
OpenAI在介绍Sora时称其为“世界模拟器”,认为只要数据量足够大,模型就能通过预测下一帧像素涌现出对物理规律的理解。
李飞飞所主张的“3D空间智能”,以World Labs发布的Marble为最新代表。
如果说前两者在处理视频流,那么Marble则试图从底层构建一个持久的、可下载的3D环境。这条路线的技术底座更接近“3D高斯泼溅”,不依赖传统网格建模,而是通过微粒的聚合渲染出精美的三维画面。
但无论哪种路线,成果都未达到预期。这些路线的成果互相争吵,也都有一批拥护者,导致“世界模型”的概念外延被无限扩大。
技术路线的不同不足以解释为何“世界模型”会在今年井喷。热潮背后交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。
必须承认这里存在巨大的泡沫成分。
在创投圈,叙事往往比代码更值钱。当“大语言模型”的竞争格局已定,后来者和垂直应用开发者急需一个新故事来打动投资人。
“视频生成模型”听起来是工具软件,但改名为“世界模型”后,瞬间上升到AGI高度。
科研人员大规模下场创办公司,学术与商业发生重叠。
在科研中,所有创新必须建立在严谨的公理之上。但在创业公司中,资源有限,一个定义的差异可能意味着数以亿计的算力投入方向。而当我们抛开定义争夺和炒作,世界模型的兴起也像是一场“反LLM中心主义”的运动。
整个AI行业对大语言模型产生技术焦虑。这种焦虑源于LLM的先天缺陷:它是“离身”的。AI需要从学习“人类说的话”,转向学习“世界发生的事”。
行业正在从单纯的文本处理转向对物理现实的模拟与交互,因为大家都意识到,通往AGI的最后一块拼图不在互联网的文本数据里,而在真实的物理世界中。
本文由主机测评网于2026-05-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545653.html