世界模型的浪潮正式来袭!
今日凌晨,被誉为“AI教母”的斯坦福大学教授李飞飞宣布,其创立的World Labs公司正式发布了首款产品Marble。这标志着世界模型首次以实用产品的姿态亮相公众视野。
Marble的核心功能可归纳为三大亮点:
首先,它具备多模态生成能力。无论是单张图片、一段视频,还是一句文字提示,Marble都能重建出结构完整、细节丰富的3D世界。
其次,它拥有AI原生的世界编辑功能。用户可像调整真实场景一样,对生成的世界进行局部替换、材质变更、光照调节或布局重构。
第三,它提供了真正可落地的制作流程。Marble支持将生成的世界导出为高斯溅射、三角网格或视频格式,可直接接入Unreal、Unity、Blender等常见创作工具,无缝融入游戏、影视等行业的工作流。
李飞飞强调,Marble的意义远不止于“简化3D创作”。正如其在《从语言到世界:空间智能是AI的下一个前沿》长文中所阐述,Marble仅是构建真正具有空间智能的世界模型的第一步。
从这个角度看,Marble不仅是首次以“可用产品”形式将世界模型呈现给公众,更象征着空间智能时代的正式启幕:
从最初为创作者提供3D世界构建工具,到未来助力机器人理解现实环境,再到在科学研究中用于虚拟实验、提前预测结果。
更重要的是,它让外界首次清晰感受到:
AI正从理解图像和语言,迈向理解并操控一个由结构、物理与动态规律构成的完整世界。
目前,Marble已正式开放使用,地址如下:https://marble.worldlabs.ai/
Marble最令人惊叹之处,可概括为一句话:
无论输入什么——一句话、一张图、几段视频,甚至由简单立方体搭成的草稿,它都能转化为一个完整的3D世界。
这听起来或许夸张,但让我们从最简单的输入方式开始探索。
先看文本生成。假设向Marble输入如下提示词:
“一个融合世纪中期餐厅美学与轨道技术的开放式厨房,以方格地板和不锈钢配件为特色,并配以柔和的浅蓝色灯光。”
看似冗长,但Marble会自动提取关键元素——方格地板、不锈钢、浅蓝灯光、开放式厨房,并在几秒内生成一个“可沉浸式漫游”的三维空间。
效果如下所示:
除了文本,Marble还支持更复杂的创作方式:
单图生成:提供一张照片,Marble能生成一个可漫游的3D世界;
例如,给Marble一张照片,它能基于照片的透视关系、光线方向和物体摆放,自动补全为可漫游的3D世界。
结果大致如下:
更进一步,若提供多视角图片或视频,Marble也能捕捉关键元素,还原出更完整、精准的三维空间。
▲第一张为正面,第二张为侧面
例如,向Marble提供两张照片:一张正面、一张侧面。系统将整合两张图的信息,还原为一个更加立体、连贯的空间,效果如下:
除了文字、图片和视频,对于专业创作者,Marble还提供了Chisel工具。
这是Marble面向进阶用户推出的一种实验性编辑方式。使用Chisel时,创作者可先在三维空间中搭建一个粗略框架。
这个框架可简单到仅由几个盒子、平面或墙体组成,也可复杂到包含多个房间、走廊或多层结构。此外,用户还能导入已有的3D资源,将其作为场景的一部分嵌入。
当“骨架”搭好后,AI进入第二阶段。创作者仅需用一句话描述期望风格——无论是现代艺术博物馆、北欧风民宿,还是科幻实验舱,系统便会在现有结构上补全材质、灯光和细节,让整个世界呈现统一的视觉语言。
例如,基于3D几何原图,配合文字提示:“一座美丽的现代艺术博物馆,铺着木地板,里面摆满了色彩缤纷的绘画和曲线优美的雕塑”,将得到如下效果:
这种方式的关键在于,它将空间逻辑与视觉风格明确分离。粗略的三维布局决定场景基本结构,而文本提示控制最终风格与氛围。两者可自由组合,使同一框架衍生出截然不同的世界。
生成仅是起点。Marble的另一重大突破,是将“世界编辑”变为AI的原生能力。
它允许用户像处理真实场景一样调整生成的三维世界:删除物体、替换材质、改变光线、扩展区域,甚至重构整个空间布局。
以下是Marble的演示案例:
这种“可编辑性”让三维生成首次摆脱“一次性出图”限制,转向持续打磨的创作过程,更贴近真实的三维制作工作流。
不仅如此,Marble还为世界的“扩展”提供了新方法。
在传统3D创作中,场景越大表达力越强,但扩展往往意味更高成本。Marble在此赋予创作者极大自由度。
当初始世界生成后,用户可对其任意区域进行扩展。只需选定区域,系统便基于现有场景逻辑推演新环境,补全原本模糊或未展开的部分。
例如,一个房间边角可能在首版生成中不够细致,或家具背面信息不全,通过扩展,这些薄弱处得以加强,变得更统一完整。
更大区域可延展为庭院、街道,甚至整片景观,让最初小场景自然发展为沉浸式空间。
以下是Marble的演示案例:
除向单个世界内部延伸外,Marble还提供了构建大型场景的另一方式:通过“组合模式”,将多个独立生成的世界组合在一起。
“组合模式”允许创作者像拼接地图一样安排不同世界关系,无论是并列、连接还是嵌套,都可自由布局。
这意味着,用户可先生成若干风格各异的空间,再通过组合构成规模庞大、层次丰富的虚拟环境。
这两种方式使Marble不再是一次性生成工具,而更像一个可持续扩展的世界构建平台。
世界生成后,如何将其带入真实制作流程,是三维创作工具发挥价值的关键。
Marble在此做得相当充分,它允许用户将场景导出为多种格式,以便在游戏开发、影视制作、建筑可视化或机器人模拟中继续使用。
一种导出方式是高斯粒子渲染。高斯粒子可理解为“由无数微小点组成的三维画面”。Marble生成世界时,将场景拆分为成千上万个带颜色、透明度和深度信息的小粒子,再叠加形成逼真三维图像。
此方式特别适合表现柔和光影、复杂材质和细腻空间层次,因此用于展示Marble世界的最高精度效果。
为让这些粒子世界能直接在网页查看,Marble还推出了开源渲染器Spark。它基于常见THREE.js(一个帮助在网页显示3D内容的工具库),让用户直接在浏览器中加载和展示高斯粒子世界。
若需更传统三维资产,Marble也支持将世界导出为“三角网格”。这是游戏、影视和设计行业的通用格式,几乎所有专业软件都能直接打开。
Marble提供两种精度网格:
一种是“碰撞网格”,结构较粗糙,用于物理模拟,如角色碰撞检测、机器人路径规划等。
另一种是“高质量网格”,尽可能保留原始世界细节和光影,适合正式用于游戏关卡、动画镜头或建筑展示。
导出网格后,这些场景可无缝进入Blender、Maya、Unity、Unreal等主流制作工具,完全融入现有创作管线,无需额外转换。这意味着,Marble生成的素材,有机会直接用于游戏、影视等行业工作流。
当然,若目标仅为展示,Marble也支持将整个世界直接渲染为视频。官方示例视频几乎都用Marble直接生成。
此外,Marble还支持对导出视频进行增强处理。它会自动补充更细腻细节,消除画面不自然处,甚至加入动态效果,如火焰跳动、烟雾飘散或水流波动。整个增强过程仍基于原始三维结构,因此镜头、光影和透视都能保持一致。
通过这些导出方式,Marble不再只是“能生成世界的AI”,而是真正能融入各行业工作流的三维创作平台。
目睹Marble这些能力后,一个问题自然浮现:
当AI真正开始“生成世界”,这预示着什么?
其实,在Marble发布前,李飞飞发表了《从语言到世界:空间智能是AI的下一个前沿》长文,近乎为Marble这类世界模型提供理论铺垫。
文章探讨了更底层问题:空间智能与世界模型的关系,以及为何它们会成为下一代AI关键。
李飞飞认为,空间智能决定了人类如何与物理世界互动,是几乎所有认知能力的脚手架。从纺纱机改进,到DNA双螺旋发现,文明突破多源于对“空间问题”的理解,而这些问题无法单靠语言描述解决。
因此,若AI想真正理解世界、进入现实场景、与物理环境交互,就必须拥有这种“面向空间的智能”,而这又离不开更基础能力:世界模型。
在李飞飞看来,成熟世界模型至少需具备三种核心能力:
第一,生成性。它能创造结构完整、物理合理的三维世界,不仅是生成一张图,而是一个能“运行”的世界,且不同输入方式(文字、图像、结构)都能生成连续、连贯场景。
第二,多模态性。它能从各种感官输入推断世界状态——图片、视频、文本、动作甚至手势——这让人类和智能体都能在同一世界里交流。
第三,交互性。当你向前走一步、推开门或移动物体,世界模型必须能预测世界下一帧,并保持内部逻辑一致。
实现这些能力,世界模型需跨越的技术门槛远高于语言模型:
缺少像“预测下一个词”那样统一的训练任务。世界模型的输入远比文本复杂。
需要巨量且高度复杂的数据,不仅是视频,还包括深度、光照、材质、物理行为等信息。
需要全新模型架构来表示3D/4D空间,而非像LLM一样将所有信息“扁平化”。
Marble的发布,是世界模型的首次“产品化亮相”,其基于多模态输入生成一致3D环境的能力,也仅是世界模型基础能力之一。
未来,当这类模型真正掌握“看、想、动”完整链条时,机器人将成为最直接应用方向,而更深层科学应用,如自动化实验、材料设计、仿真研究,或需更长时间才能成熟。
但Marble的出现说明,这条道路已开始清晰:
从语言智能,走向空间智能;从文本世界,走向三维世界。
本文由主机测评网于2026-01-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119936.html