当前位置:首页 > 科技资讯 > 正文

AI未来:世界模型 vs 大语言模型的路线分歧

在探索人类大脑未被破译的进化密码时,AI的未来或许正系于此。

近日,图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun)宣布离职创业,以“世界模型”(World Models)为技术核心,延续其深耕多年的探索方向,这一动作迅速引发全球AI圈的关注。

“AI教母”李飞飞在社交平台发布万字长文,指出大语言模型(LLM)的算力穹顶与认知局限。她认为,AI的未来不在于模型参数的无限扩容,而在于植入“空间智能”(Spatial Intelligence)——这种人类先天具备、婴儿阶段即觉醒的基础认知能力,才是通往通用人工智能(AGI)的必经之路。

与此同时,李飞飞创立的World Labs于11月13日推出首款产品Marble,以多模态世界模型为核心引擎,从单张图像、视频片段或文本描述中生成具备持久性的三维数字孪生空间,为空间智能搭建起关键的三维认知基座。

当AI从虚拟语境切入物理现实维度,现实世界的复杂约束与动态交互正呼唤一套颠覆性的认知模型。

AI未来:世界模型 vs 大语言模型的路线分歧 世界模型 大语言模型 AI进化 认知局限 第1张

一场关于AI本质的路线分歧

Yann LeCun在Meta任职12年,其技术愿景与扎克伯格主导的大语言模型路径存在分歧已非秘密。

他曾公开表示:“大语言模型永远无法实现人类推理能力。”这句话直指AI发展的核心矛盾:究竟该用文本数据训练出更会聊天的机器,还是让AI像婴儿一样通过视觉观察学习物理规律?

大语言模型受制于数据质量和规模,其认知边界被训练数据的“无形围墙”所束缚。数据偏见会固化模型的认知偏差,噪声数据稀释推理精度,而时效性滞后让模型困于“信息时差”,难以捕捉现实世界的动态演进。

更核心的桎梏在于,大语言模型的认知局限于文本符号的线性关联,缺乏对物理世界的三维空间建模能力与动态因果推理能力。它无法精准映射现实世界的空间拓扑、物体属性与运动规律,也难以理解“行动-反馈”的实时交互逻辑。

Yann LeCun无法通过文本描述精准还原立体场景,亦不能基于现实约束做出符合物理常识的决策。

这种依赖文本数据喂养的模式,终究难以突破“符号牢笼”,无法复刻人类从具象体验中提炼抽象知识的认知路径。

当AI从虚拟交互走向物理世界的实际应用,从单一任务响应升级为复杂场景的自主决策,纯文本驱动的模型架构已难以承载通用人工智能的进化需求。唯有跳出数据规模竞赛,转向对世界本质的结构化理解,才能开启下一段技术跃迁。

“世界模型派”普遍认为,大语言模型存在根本局限。李飞飞强调,语言是人类为交流创造的抽象信号,自然界本无文字。AI若仅依赖文本,无法真正理解物理世界规律,易沦为“黑暗中的文字大师”。

Yann LeCun多次批评大语言模型仅为强大文本数据库,缺乏对现实世界的理解能力。世界模型则致力于通过高维感知数据直接建模,绕开语言转换,在潜空间内推演物理规律,并输出行动指令,实现对环境的内在理解与主动推理。

就像人类婴儿不需要阅读百科全书就能理解重力——他们通过眼睛观察杯子坠落、用手触摸桌面来建立物理世界的认知。这正是LeCun推崇世界模型的关键:动态视频数据包含的时空信息远比抽象文本更接近智能的本质。

例如球撞倒积木的瞬间,既包含材质硬度信息也隐藏着力学规律。而大语言模型从维基百科学到的“牛顿定律”,不过是符号的统计关联。MIT的研究更证明大脑处理空间认知时会激活特定神经网络——这种生物本能正是当前纯文本AI缺失的底层能力。

“Word Models”一词最早出现在2018年Jurgen在机器学习顶会NeurPS上发表的一篇名为《Recurrent World Models Facilitate Policy Evolution》的文章中。文章以认知科学中人脑的心智模型来类比世界模型认为心智模型参与了人类的认知、推理、决策过程其核心能力在于反事实推理。

该模型使AI具备预测与规划能力如理解物体破碎原理、预判车辆转向轨迹为具身智能、自动驾驶及人机协作机器人提供基础支撑。李飞飞将其概括为让“看见”升级为“推理”、“感知”转化为“行动”、“想象”落地为“创造”。

AI未来:世界模型 vs 大语言模型的路线分歧 世界模型 大语言模型 AI进化 认知局限 第2张

近年来随着深度学习技术的不断发展和计算资源的增加世界模型的研究取得了显著进展。

例如2019年DeepMind发表的MuZero算法、2022年Yann LeCun提出的JEPA表征模型、2024年的视频生成模型Sora和城市环境生成模型UrbanWord等推动了世界模型在不同领域的应用探索。

AI未来:世界模型 vs 大语言模型的路线分歧 世界模型 大语言模型 AI进化 认知局限 第3张

整体来看世界模型是一种能够对现实世界环境进行仿真并基于文本、图像、视频和运动等输入数据来生成视频、预测未来状态的生成式Al模型。它整合了多种语义信息如视觉、听觉、语言等通过机器学习、深度学习和其他数学模型来理解和预测现实世界中的现象、行为和因果关系。

简单来说世界模型就像是A1系统对现实世界的“内在理解”和“心理模拟”。它不仅能够处理输入的数据还能估计未直接感知的状态并预测未来状态的变化。

这种模型使AI具备了类似人类的认知和推理能力能够在一个虚拟的“脑海”中进行模拟和规划从而更好地应对现实世界的复杂性。

AI下一轮飞跃的引爆点

过去十年AI的每一次跃迁都源自输入方式的变革:文字带来了语言智能图像催生了视觉智能。而如今世界模型正在让AI理解现实世界一个有时间、有空间、有因果的动态系统。

不仅人工智能的先驱们几乎一致认为世界模型对打造下一代人工智能至关重要科技巨头们也将世界模型视为人工智能发展节点上的关键。

近几个月多家科技公司相继发布了在世界模型领域的进展凸显了这一赛道的升温。

谷歌DeepMind的Genie系列模型在一年半内从2D升级至Genie 3该模型可实时生成交互式3D环境。输入一句话即可在720P分辨率下创建用户可自由探索的动态世界场景细节能在长达一分钟的记忆中保持连贯。Genie 3项目联席负责人Shlomi Fruchter表示通过构建模拟真实世界的环境可以用更具扩展性的方式训练AI且“无需承担在现实世界中犯错的后果”。