
由人工智能先驱李飞飞教授联合创办的 World Labs 官方宣布,其核心技术平台 World API 正式上线。这一里程碑式的进展预示着 AI 正在从单纯的二维视频生成,进化到具备物理逻辑与交互能力的“空间智能”阶段。借助最前沿的多模态理解技术,该平台能将文字、图片乃至全景影像精准还原为具备深度、几何结构及物理规则的 3D 数字空间,为自动驾驶机器人、次世代游戏开发及沉浸式虚拟现实(VR)提供了全新的基石级工具。与仅供观看的视频模型不同,World API 的核心使命是赋予机器“走进去”并与物理世界进行真实互动的能力。
何为真正的“世界模型”?在李飞飞的定义中,答案很简单:AI 不应仅仅作为旁观者去“看”,而应具备作为参与者“走进去”的能力。
2026 年 1 月 21 日,World Labs 旗下的开放平台 World API 正式揭开面纱。用户只需输入单张照片、一段简短描述或一段视频,系统便能瞬间构建出一个可自由探索的 3D 虚拟环境。这里的 AI 不再被困在固定视角中,它们可以在生成的空间内自由移动、探测障碍。更重要的是,开发者可以将这些模型无缝导出至 Unity 等游戏引擎或高级机器人仿真系统。
但在李飞飞的宏大愿景中,World API 的定位远非一个简单的生成式辅助工具。
1 月 28 日,她在知名播客《Rethink Reality》中深度阐述道:
“世界既可以是宏观的物理存在,也可以是微观的抽象概念。它可以延伸至浩瀚星辰,也能浓缩于一粒尘埃。我们不仅是在打磨一个算法模型,更是在重新定义‘世界’的数字边界。”
技术实力也赢得了资本市场的疯狂追捧。据彭博社消息,World Labs 目前正处于新一轮融资谈判中,其估值已飙升至 50 亿美元,相较于半年前的首轮融资翻了五倍之多。
要洞察 World API 的颠覆性,必须厘清它与当前主流生成式 AI 的本质区别。
Sora 或即梦等模型生成的本质上是“像素流”,即一组固定视角下的连续画面。即便画面再真实,你也无法绕到物体的背后去观察,因为它们是为人类视觉消费而设计的“内容”。
而 World Labs 创造的是“空间数据”。它包含完整的几何拓扑、物理属性和多维度的深度信息。在这里,你可以自由穿梭,可以从任意角度审视细节。这并非简单的视觉盛宴,而是专为机器决策与行动设计的“生存环境”。
这种本质上的差异决定了:视频模型解决的是“视觉表达”,而世界模型解决的是“空间认知”。游戏中的动态关卡、机器人训练所需的复杂仿真、VR 带来的深度沉浸感,都需要这种具备物理逻辑的空间结构。
为此,AI 必须理解物体的“功能性”。
椅子不只是像素点组成的形状,而是“可承重的支撑物”;门不只是色彩块,而是“连接两个空间的动态入口”。只有理解了这些深层逻辑,AI 才能在虚拟世界中做出有意义的决策。
因此,世界的关键不在于尺度,而在于它是否拥有严谨的空间关系、统一的物理法则以及实时的可交互性。AI 的输出,正在从“给人看的内容”进化为“给机器用的环境”。
这一数字世界的构建依靠的是 World API 内部的两大核心底层能力,这也是李飞飞对空间智能技术趋势的精准判断:
1、多模态融合输入:多维信息的空间重构
World API 展现了极强的包容性,支持文本描述、静态图片、动态视频以及 360 度全景图。AI 会像拼图一样,从散碎的视觉和语义信息中还原出一个逻辑自洽的 3D 场所。
这种多模态策略是为了弥补单一媒介的缺陷:纯语言描述太笼统,静态图缺乏深度,视频则受限于镜头移动。通过融合这些维度,World API 能提取出语义、几何与物理的综合特征,打造出完整的空间闭环。
2、语义化实时编辑:打破技术壁垒的“自然语言建模”
当你对 API 说“在房间中央加一张沉重的皮沙发”时,AI 能够理解“中央”所代表的空间坐标,以及“沉重”背后可能蕴含的摩擦力和物理形变。这些模糊的日常词汇在模型内部被转化为物理规律的约束。
这意味着,创作者无需精通复杂的建模代码,只需通过自然语言描述,配合 World Labs 提供的图形化工具“Chisel(凿子)”,就能像雕刻一样塑造场景。用户放置基础几何体,AI 则负责填充真实感十足的纹理与细节。
这标志着 World API 已成为一种开放的“空间基础设施”,任何需要 3D 环境的系统都可以随时按需调用。
当“造世界”变得如此简单,哪些行业将率先迎来变革?
1、三大爆发式应用场景
游戏产业:传统的场景建模往往需要数月时间。现在,World API 能在数分钟内产出基础关卡,让设计师能将精力集中在核心玩法的打磨上。
具身智能训练:机器人学习如何走路或搬运物体需要极其真实的仿真环境。World API 能将现实中的视频快速转化为可训练的虚拟场域,极大地加速了机器人从实验室到工厂的进程。
XR 内容生态:对于大多数不懂 3D 软件的普通用户而言,World API 降低了创作门槛,让室内设计、展览模拟等应用场景变得触手可及。
2、独特的生态位:基础设施 vs. 应用工具
与 OpenAI 专注于对话 Agent、Google 探索特定游戏生成不同,World Labs 致力于做“可编程空间的操作系统”。它不参与终端应用竞争,而是为所有 3D 应用提供底层数据流。这种基础设施的定位,正是其估值能够在短时间内实现五倍增长的核心原因。
3、技术伦理与阴暗面
在技术爆发的同时,李飞飞并未忽视潜在风险。她坦言,空间重建技术若被滥用,可能导致更深层次的隐私监控或虚假现实的制造。虽然她呼吁依靠社会治理与人类善意来应对,但这依然是整个行业需要面对的长期课题。
如果说 OpenAI 开启了 AI 与人类语言交流的大门,那么李飞飞则正带领 AI 跨入真实存在的空间。对话框生成的是结果,而 World API 生成的是充满可能性的起点。
模型取名为 Marble(大理石),工具名为 Chisel(凿子),寓意深刻:数字世界已如磐石般稳固,而雕刻未来的工具已经交到了每一位开发者手中。
World API 已经就绪,属于空间智能的篇章才刚刚翻开。
参考资料:
https://www.worldlabs.ai/blog/announcing-the-world-api
https://www.bloomberg.com/news/articles/2026-01-23/fei-fei-li-s-ai-startup-world-labs-in-funding-talks-at-5-billion-valuation
来源:官方媒体/网络新闻
本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260434128.html