通往通用人工智能(AGI)的道路,如今已汇聚于世界模型这一关键战场。
李飞飞领导的团队,推出了其首款商用世界模型Marble;
几乎同一时间,LeCun离开Meta,计划创立自己的世界模型企业;
在此之前,谷歌DeepMind的世界模型Genie 3,也曾引发行业广泛关注。
AI领域的三股重要力量,虽同样进军世界模型,却代表着三种截然不同的技术路线赌注——
李飞飞刚发布关于空间智能的万字长文,其创业公司World Labs便迅速推出了首款商用世界模型Marble。
业界普遍看好Marble的商业化前景,主要因它能生成持久、可下载的3D环境。
团队指出,这种方法能有效减少场景变形和细节不一致问题,并支持将生成的世界导出为高斯斑点、Mesh网格或直接视频格式。
此外,Marble还内置了原生AI世界编辑器Chisel,用户仅需一句提示,即可按个人意愿自由改造世界。
对VR或游戏开发者而言,「一句提示→直接生成3D世界→一键导出到Unity」的流程,极具实用价值。
然而,Hacker News上一位机器学习工程师提出,相较于真正的世界模型,Marble更近似于一个纯粹的3D渲染模型。
这难道不是高斯Splat模型吗?我在AI行业工作多年,至今仍不清楚「世界模型」中「世界」的具体含义。
Reddit网友的评论更为直接:
使用高斯散射、深度和图像修复技术将图片转化为3D环境,确实令人印象深刻,但这只是一套3D高斯生成流程,并非机器人的大脑。
这里的高斯泼溅,指近年来3D建模中热门的新技术。
它将场景表示为成千上万个漂浮在空间中的彩色模糊小斑点(即高斯),再将这些斑点「泼溅」到屏幕上,自然融合成图像。
可以这样理解:高斯如同漂浮在三维空间中、半透明、带光晕、边缘柔软的小气泡。
单个气泡虽无法成形,但成千上万个气泡聚集并从不同角度渲染,就能组合出精细的三维画面。
这种方法无需传统摄影测量的复杂建模流程,虽牺牲部分精度,但速度极快且操作简便。
Marble正是采用这一路径。
然而,这也意味着Marble可能并非大众期待中可直接用于机器人训练的「世界模型」。
Marble确实构建了完整世界,但我们看到的仅是能被渲染器直接转换为像素的视图。
换言之,它捕捉的是「表面外观」,而未内置「世界运作规律」的物理法则。
这对人类已足够,但对机器人而言,关键并非视觉信息,而是背后的因果结构——
例如,斜坡上的球会滚落,人类一眼即懂;
但机器人需基于质量、摩擦、速度等信息判断,这些在Marble中并不存在。
或许正因如此,Marble的博客中虽多次提及「世界模型」与「导出高斯散射体、网格和视频」,却几乎未涉及机器人。
在商业化层面,Marble显然更具优势。
相比AI圈热议的、可孕育具身智能的世界模型,Marble已非遥远概念,而是能即刻融入游戏开发者工作流程的实用工具。
但这也不禁令人疑惑:那条通往AGI的「世界模型」之路,是否仅为噱头?
答案当然是否定的。
确实存在能与机器人真实互动的世界模型,例如——LeCun的JEPA。
LeCun所理解的「世界模型」,根基不在3D图形学,而在控制理论与认知科学。
它无需输出精美画面,因这种世界模型根本「不可见」。
此类模型的任务非渲染像素,而是让机器人能提前规划,学会在行动前预测世界变化。
JEPA正循此路——
LeCun认为,对AI而言,仅中间抽象表征重要,模型不必浪费算力生成像素,而应专注捕捉用于AI决策的世界状态。
因此,这类模型虽无法如Marble般生成精致3D图像,看似不够「惊艳」,却更贴近训练机器人的「大脑」。
其优势在于对世界本质的理解,故更适合作为机器人的训练场。
对比之下,李飞飞与LeCun在「世界模型」上的路线几乎背道而驰——
前者打造前端资产生成器;后者构建后端预测系统。
而在二者之间,科技巨头谷歌占据一席之地。
今年8月,谷歌DeepMind推出新版世界模型Genie 3。
仅需一句提示,模型即可生成可交互的视频环境,用户能在其中自由探索数分钟。
最引人注目的是,Genie 3首次在该类模型中解决长时一致性问题——不再出现「转身后建筑消失」的状况。
同时,它还支持触发世界事件,如「开始下雨」「夜幕降临」等,整个过程宛如由模型驱动(非传统引擎)的电子游戏。
不过,Genie 3更近似「世界模型式视频生成器」。
尽管Genie 3让「世界动态化」,其核心仍是视频逻辑,而非JEPA那种基于物理因果的逻辑。
也就是说,它虽能生成动态画面,但未完全「理解」画面背后的物理规律。
它仍可用于机器人训练,但不如JEPA般直击本质。
同时,画面质量与分辨率有限,难与Marble的高精度、可导出3D资产媲美。
综上,三种「世界模型」虽皆描绘「世界」,但理解路径迥异,各具特色——
Marble渲染「世界外观」,Genie 3展示「世界动态」,JEPA探究「世界结构」。
市面几乎所有「世界模型」,大致可归入这三种范式:
以Marble为代表,它使人们能从文字或二维素材,直接生成可编辑、可共享的三维环境。
在此模式下,「世界」是呈现于VR头显、显示器或屏幕上的、可供人观看与探索的空间。
以Genie 3为代表,这类模型能生成连续、可控的视频式世界,让智能体在其中反复尝试与学习。
如SIMA 2等智能体,可将此类世界作为「虚拟训练场」。
以JEPA为代表,这是一种高度抽象形式,无前两种可供人欣赏的画面。
此处关注点不在渲染,「世界」以潜在变量和状态转移函数呈现,堪称机器人的理想训练基地。
在智源学者赵昊看来,三者可整合为「世界模型金字塔」——
自下而上依次对应李飞飞、Genie 3、LeCun的路线。
从基础视角仰望这座金字塔:
越往上,模型越抽象、越贴近AI思维方式,因而更适合机器人训练与推理;
越往下,模型在外观、交互与可视化上对人类更真实,但却更难被机器人理解。
参考链接:
[1]https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/
[2]https://mp.weixin.qq.com/s/D7G3S_AIfzQfITgqXIKQAg
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120201.html