世界模型技术路线之争：从3D渲染到认知框架的演进

主机测评网
科技资讯
2026-01-24
940

通往通用人工智能（AGI）的道路，如今已汇聚于世界模型这一关键战场。

李飞飞领导的团队，推出了其首款商用世界模型Marble；

几乎同一时间，LeCun离开Meta，计划创立自己的世界模型企业；

在此之前，谷歌DeepMind的世界模型Genie 3，也曾引发行业广泛关注。

AI领域的三股重要力量，虽同样进军世界模型，却代表着三种截然不同的技术路线赌注——

世界模型的技术分野

李飞飞刚发布关于空间智能的万字长文，其创业公司World Labs便迅速推出了首款商用世界模型Marble。

世界模型技术路线之争：从3D渲染到认知框架的演进世界模型 AGI 3D生成机器人训练第1张

业界普遍看好Marble的商业化前景，主要因它能生成持久、可下载的3D环境。

团队指出，这种方法能有效减少场景变形和细节不一致问题，并支持将生成的世界导出为高斯斑点、Mesh网格或直接视频格式。

此外，Marble还内置了原生AI世界编辑器Chisel，用户仅需一句提示，即可按个人意愿自由改造世界。

世界模型技术路线之争：从3D渲染到认知框架的演进世界模型 AGI 3D生成机器人训练第2张

对VR或游戏开发者而言，「一句提示→直接生成3D世界→一键导出到Unity」的流程，极具实用价值。

然而，Hacker News上一位机器学习工程师提出，相较于真正的世界模型，Marble更近似于一个纯粹的3D渲染模型。

这难道不是高斯Splat模型吗？我在AI行业工作多年，至今仍不清楚「世界模型」中「世界」的具体含义。

Reddit网友的评论更为直接：

使用高斯散射、深度和图像修复技术将图片转化为3D环境，确实令人印象深刻，但这只是一套3D高斯生成流程，并非机器人的大脑。

这里的高斯泼溅，指近年来3D建模中热门的新技术。

它将场景表示为成千上万个漂浮在空间中的彩色模糊小斑点（即高斯），再将这些斑点「泼溅」到屏幕上，自然融合成图像。

可以这样理解：高斯如同漂浮在三维空间中、半透明、带光晕、边缘柔软的小气泡。

单个气泡虽无法成形，但成千上万个气泡聚集并从不同角度渲染，就能组合出精细的三维画面。

这种方法无需传统摄影测量的复杂建模流程，虽牺牲部分精度，但速度极快且操作简便。

Marble正是采用这一路径。

然而，这也意味着Marble可能并非大众期待中可直接用于机器人训练的「世界模型」。

Marble确实构建了完整世界，但我们看到的仅是能被渲染器直接转换为像素的视图。

换言之，它捕捉的是「表面外观」，而未内置「世界运作规律」的物理法则。

这对人类已足够，但对机器人而言，关键并非视觉信息，而是背后的因果结构——

例如，斜坡上的球会滚落，人类一眼即懂；

但机器人需基于质量、摩擦、速度等信息判断，这些在Marble中并不存在。

或许正因如此，Marble的博客中虽多次提及「世界模型」与「导出高斯散射体、网格和视频」，却几乎未涉及机器人。

在商业化层面，Marble显然更具优势。

相比AI圈热议的、可孕育具身智能的世界模型，Marble已非遥远概念，而是能即刻融入游戏开发者工作流程的实用工具。

但这也不禁令人疑惑：那条通往AGI的「世界模型」之路，是否仅为噱头？

答案当然是否定的。

确实存在能与机器人真实互动的世界模型，例如——LeCun的JEPA。

LeCun所理解的「世界模型」，根基不在3D图形学，而在控制理论与认知科学。

它无需输出精美画面，因这种世界模型根本「不可见」。

此类模型的任务非渲染像素，而是让机器人能提前规划，学会在行动前预测世界变化。

JEPA正循此路——

LeCun认为，对AI而言，仅中间抽象表征重要，模型不必浪费算力生成像素，而应专注捕捉用于AI决策的世界状态。

因此，这类模型虽无法如Marble般生成精致3D图像，看似不够「惊艳」，却更贴近训练机器人的「大脑」。

其优势在于对世界本质的理解，故更适合作为机器人的训练场。

对比之下，李飞飞与LeCun在「世界模型」上的路线几乎背道而驰——

前者打造前端资产生成器；后者构建后端预测系统。

而在二者之间，科技巨头谷歌占据一席之地。

今年8月，谷歌DeepMind推出新版世界模型Genie 3。

仅需一句提示，模型即可生成可交互的视频环境，用户能在其中自由探索数分钟。

世界模型技术路线之争：从3D渲染到认知框架的演进世界模型 AGI 3D生成机器人训练第3张

最引人注目的是，Genie 3首次在该类模型中解决长时一致性问题——不再出现「转身后建筑消失」的状况。

同时，它还支持触发世界事件，如「开始下雨」「夜幕降临」等，整个过程宛如由模型驱动（非传统引擎）的电子游戏。

不过，Genie 3更近似「世界模型式视频生成器」。

尽管Genie 3让「世界动态化」，其核心仍是视频逻辑，而非JEPA那种基于物理因果的逻辑。

也就是说，它虽能生成动态画面，但未完全「理解」画面背后的物理规律。

它仍可用于机器人训练，但不如JEPA般直击本质。

同时，画面质量与分辨率有限，难与Marble的高精度、可导出3D资产媲美。

综上，三种「世界模型」虽皆描绘「世界」，但理解路径迥异，各具特色——

Marble渲染「世界外观」，Genie 3展示「世界动态」，JEPA探究「世界结构」。

市面几乎所有「世界模型」，大致可归入这三种范式：

世界模型的三层金字塔

第一种：世界模型即界面

以Marble为代表，它使人们能从文字或二维素材，直接生成可编辑、可共享的三维环境。

在此模式下，「世界」是呈现于VR头显、显示器或屏幕上的、可供人观看与探索的空间。

第二种：世界模型即模拟器：

以Genie 3为代表，这类模型能生成连续、可控的视频式世界，让智能体在其中反复尝试与学习。

如SIMA 2等智能体，可将此类世界作为「虚拟训练场」。

第三种：世界模型即认知框架

以JEPA为代表，这是一种高度抽象形式，无前两种可供人欣赏的画面。

此处关注点不在渲染，「世界」以潜在变量和状态转移函数呈现，堪称机器人的理想训练基地。

世界模型技术路线之争：从3D渲染到认知框架的演进世界模型 AGI 3D生成机器人训练第4张

在智源学者赵昊看来，三者可整合为「世界模型金字塔」——

自下而上依次对应李飞飞、Genie 3、LeCun的路线。

从基础视角仰望这座金字塔：

越往上，模型越抽象、越贴近AI思维方式，因而更适合机器人训练与推理；

越往下，模型在外观、交互与可视化上对人类更真实，但却更难被机器人理解。

参考链接：

[1]https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/

[2]https://mp.weixin.qq.com/s/D7G3S_AIfzQfITgqXIKQAg

服务器教程性价比服务器免费服务器

本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260120201.html

世界模型技术路线之争：从3D渲染到认知框架的演进

世界模型的技术分野