当前位置:首页 > 科技资讯 > 正文

世界模型技术路线之争:从3D渲染到认知框架的演进

通往通用人工智能(AGI)的道路,如今已汇聚于世界模型这一关键战场。

李飞飞领导的团队,推出了其首款商用世界模型Marble

几乎同一时间,LeCun离开Meta,计划创立自己的世界模型企业

在此之前,谷歌DeepMind的世界模型Genie 3,也曾引发行业广泛关注。

AI领域的三股重要力量,虽同样进军世界模型,却代表着三种截然不同的技术路线赌注——

世界模型的技术分野

李飞飞刚发布关于空间智能的万字长文,其创业公司World Labs便迅速推出了首款商用世界模型Marble

世界模型技术路线之争:从3D渲染到认知框架的演进 世界模型 AGI 3D生成 机器人训练 第1张

业界普遍看好Marble的商业化前景,主要因它能生成持久、可下载的3D环境。

团队指出,这种方法能有效减少场景变形和细节不一致问题,并支持将生成的世界导出为高斯斑点、Mesh网格或直接视频格式。

此外,Marble还内置了原生AI世界编辑器Chisel,用户仅需一句提示,即可按个人意愿自由改造世界。

世界模型技术路线之争:从3D渲染到认知框架的演进 世界模型 AGI 3D生成 机器人训练 第2张

对VR或游戏开发者而言,「一句提示→直接生成3D世界→一键导出到Unity」的流程,极具实用价值。

然而,Hacker News上一位机器学习工程师提出,相较于真正的世界模型,Marble更近似于一个纯粹的3D渲染模型

这难道不是高斯Splat模型吗?我在AI行业工作多年,至今仍不清楚「世界模型」中「世界」的具体含义。

Reddit网友的评论更为直接:

使用高斯散射、深度和图像修复技术将图片转化为3D环境,确实令人印象深刻,但这只是一套3D高斯生成流程,并非机器人的大脑。

这里的高斯泼溅,指近年来3D建模中热门的新技术。

它将场景表示为成千上万个漂浮在空间中的彩色模糊小斑点(即高斯),再将这些斑点「泼溅」到屏幕上,自然融合成图像。

可以这样理解:高斯如同漂浮在三维空间中、半透明、带光晕、边缘柔软的小气泡。

单个气泡虽无法成形,但成千上万个气泡聚集并从不同角度渲染,就能组合出精细的三维画面。

这种方法无需传统摄影测量的复杂建模流程,虽牺牲部分精度,但速度极快且操作简便。

Marble正是采用这一路径。

然而,这也意味着Marble可能并非大众期待中可直接用于机器人训练的「世界模型」。

Marble确实构建了完整世界,但我们看到的仅是能被渲染器直接转换为像素的视图。

换言之,它捕捉的是「表面外观」,而未内置「世界运作规律」的物理法则。

这对人类已足够,但对机器人而言,关键并非视觉信息,而是背后的因果结构——

例如,斜坡上的球会滚落,人类一眼即懂;

但机器人需基于质量、摩擦、速度等信息判断,这些在Marble中并不存在。

或许正因如此,Marble的博客中虽多次提及「世界模型」与「导出高斯散射体、网格和视频」,却几乎未涉及机器人。

在商业化层面,Marble显然更具优势。

相比AI圈热议的、可孕育具身智能的世界模型,Marble已非遥远概念,而是能即刻融入游戏开发者工作流程的实用工具。

但这也不禁令人疑惑:那条通往AGI的「世界模型」之路,是否仅为噱头?

答案当然是否定的。

确实存在能与机器人真实互动的世界模型,例如——LeCun的JEPA

LeCun所理解的「世界模型」,根基不在3D图形学,而在控制理论与认知科学。

它无需输出精美画面,因这种世界模型根本「不可见」。

此类模型的任务非渲染像素,而是让机器人能提前规划,学会在行动前预测世界变化。

JEPA正循此路——

LeCun认为,对AI而言,仅中间抽象表征重要,模型不必浪费算力生成像素,而应专注捕捉用于AI决策的世界状态。

因此,这类模型虽无法如Marble般生成精致3D图像,看似不够「惊艳」,却更贴近训练机器人的「大脑」。

其优势在于对世界本质的理解,故更适合作为机器人的训练场。

对比之下,李飞飞与LeCun在「世界模型」上的路线几乎背道而驰——

前者打造前端资产生成器;后者构建后端预测系统。

而在二者之间,科技巨头谷歌占据一席之地。

今年8月,谷歌DeepMind推出新版世界模型Genie 3。

仅需一句提示,模型即可生成可交互的视频环境,用户能在其中自由探索数分钟。

世界模型技术路线之争:从3D渲染到认知框架的演进 世界模型 AGI 3D生成 机器人训练 第3张

最引人注目的是,Genie 3首次在该类模型中解决长时一致性问题——不再出现「转身后建筑消失」的状况。

同时,它还支持触发世界事件,如「开始下雨」「夜幕降临」等,整个过程宛如由模型驱动(非传统引擎)的电子游戏。

不过,Genie 3更近似「世界模型式视频生成器」。

尽管Genie 3让「世界动态化」,其核心仍是视频逻辑,而非JEPA那种基于物理因果的逻辑。

也就是说,它虽能生成动态画面,但未完全「理解」画面背后的物理规律。

它仍可用于机器人训练,但不如JEPA般直击本质。

同时,画面质量与分辨率有限,难与Marble的高精度、可导出3D资产媲美。

综上,三种「世界模型」虽皆描绘「世界」,但理解路径迥异,各具特色——

Marble渲染「世界外观」,Genie 3展示「世界动态」,JEPA探究「世界结构」。

市面几乎所有「世界模型」,大致可归入这三种范式:

世界模型的三层金字塔

第一种:世界模型即界面

以Marble为代表,它使人们能从文字或二维素材,直接生成可编辑、可共享的三维环境。

在此模式下,「世界」是呈现于VR头显、显示器或屏幕上的、可供人观看与探索的空间。

第二种:世界模型即模拟器:

以Genie 3为代表,这类模型能生成连续、可控的视频式世界,让智能体在其中反复尝试与学习。

如SIMA 2等智能体,可将此类世界作为「虚拟训练场」。

第三种:世界模型即认知框架

以JEPA为代表,这是一种高度抽象形式,无前两种可供人欣赏的画面。

此处关注点不在渲染,「世界」以潜在变量和状态转移函数呈现,堪称机器人的理想训练基地。

世界模型技术路线之争:从3D渲染到认知框架的演进 世界模型 AGI 3D生成 机器人训练 第4张

在智源学者赵昊看来,三者可整合为「世界模型金字塔」——

自下而上依次对应李飞飞、Genie 3、LeCun的路线。

从基础视角仰望这座金字塔:

越往上,模型越抽象、越贴近AI思维方式,因而更适合机器人训练与推理;

越往下,模型在外观、交互与可视化上对人类更真实,但却更难被机器人理解。

参考链接:

[1]https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/

[2]https://mp.weixin.qq.com/s/D7G3S_AIfzQfITgqXIKQAg