当前位置：首页 > 科技资讯 > 正文

李飞飞World Labs发布World API：开启空间智能时代，从“看视频”到“造世界”的底层进化

主机测评网
科技资讯
2026-04-04
268

李飞飞World Labs发布World API：开启空间智能时代，从“看视频”到“造世界”的底层进化李飞飞 World API 空间智能 3D世界模型第1张

由人工智能先驱李飞飞教授联合创办的 World Labs 官方宣布，其核心技术平台 World API 正式上线。这一里程碑式的进展预示着 AI 正在从单纯的二维视频生成，进化到具备物理逻辑与交互能力的“空间智能”阶段。借助最前沿的多模态理解技术，该平台能将文字、图片乃至全景影像精准还原为具备深度、几何结构及物理规则的 3D 数字空间，为自动驾驶机器人、次世代游戏开发及沉浸式虚拟现实（VR）提供了全新的基石级工具。与仅供观看的视频模型不同，World API 的核心使命是赋予机器“走进去”并与物理世界进行真实互动的能力。

何为真正的“世界模型”？在李飞飞的定义中，答案很简单：AI 不应仅仅作为旁观者去“看”，而应具备作为参与者“走进去”的能力。

2026 年 1 月 21 日，World Labs 旗下的开放平台 World API 正式揭开面纱。用户只需输入单张照片、一段简短描述或一段视频，系统便能瞬间构建出一个可自由探索的 3D 虚拟环境。这里的 AI 不再被困在固定视角中，它们可以在生成的空间内自由移动、探测障碍。更重要的是，开发者可以将这些模型无缝导出至 Unity 等游戏引擎或高级机器人仿真系统。

但在李飞飞的宏大愿景中，World API 的定位远非一个简单的生成式辅助工具。

1 月 28 日，她在知名播客《Rethink Reality》中深度阐述道：

“世界既可以是宏观的物理存在，也可以是微观的抽象概念。它可以延伸至浩瀚星辰，也能浓缩于一粒尘埃。我们不仅是在打磨一个算法模型，更是在重新定义‘世界’的数字边界。”

技术实力也赢得了资本市场的疯狂追捧。据彭博社消息，World Labs 目前正处于新一轮融资谈判中，其估值已飙升至 50 亿美元，相较于半年前的首轮融资翻了五倍之多。

第一节｜范式转移：从连续图像到可交互空间

要洞察 World API 的颠覆性，必须厘清它与当前主流生成式 AI 的本质区别。

Sora 或即梦等模型生成的本质上是“像素流”，即一组固定视角下的连续画面。即便画面再真实，你也无法绕到物体的背后去观察，因为它们是为人类视觉消费而设计的“内容”。

而 World Labs 创造的是“空间数据”。它包含完整的几何拓扑、物理属性和多维度的深度信息。在这里，你可以自由穿梭，可以从任意角度审视细节。这并非简单的视觉盛宴，而是专为机器决策与行动设计的“生存环境”。

这种本质上的差异决定了：视频模型解决的是“视觉表达”，而世界模型解决的是“空间认知”。游戏中的动态关卡、机器人训练所需的复杂仿真、VR 带来的深度沉浸感，都需要这种具备物理逻辑的空间结构。

为此，AI 必须理解物体的“功能性”。

椅子不只是像素点组成的形状，而是“可承重的支撑物”；门不只是色彩块，而是“连接两个空间的动态入口”。只有理解了这些深层逻辑，AI 才能在虚拟世界中做出有意义的决策。

因此，世界的关键不在于尺度，而在于它是否拥有严谨的空间关系、统一的物理法则以及实时的可交互性。AI 的输出，正在从“给人看的内容”进化为“给机器用的环境”。

第二节｜解构 World API：空间智能的核心驱动力

这一数字世界的构建依靠的是 World API 内部的两大核心底层能力，这也是李飞飞对空间智能技术趋势的精准判断：

1、多模态融合输入：多维信息的空间重构

World API 展现了极强的包容性，支持文本描述、静态图片、动态视频以及 360 度全景图。AI 会像拼图一样，从散碎的视觉和语义信息中还原出一个逻辑自洽的 3D 场所。

这种多模态策略是为了弥补单一媒介的缺陷：纯语言描述太笼统，静态图缺乏深度，视频则受限于镜头移动。通过融合这些维度，World API 能提取出语义、几何与物理的综合特征，打造出完整的空间闭环。

2、语义化实时编辑：打破技术壁垒的“自然语言建模”

当你对 API 说“在房间中央加一张沉重的皮沙发”时，AI 能够理解“中央”所代表的空间坐标，以及“沉重”背后可能蕴含的摩擦力和物理形变。这些模糊的日常词汇在模型内部被转化为物理规律的约束。

这意味着，创作者无需精通复杂的建模代码，只需通过自然语言描述，配合 World Labs 提供的图形化工具“Chisel（凿子）”，就能像雕刻一样塑造场景。用户放置基础几何体，AI 则负责填充真实感十足的纹理与细节。

这标志着 World API 已成为一种开放的“空间基础设施”，任何需要 3D 环境的系统都可以随时按需调用。

第三节｜应用版图与技术边界

当“造世界”变得如此简单，哪些行业将率先迎来变革？

1、三大爆发式应用场景

游戏产业：传统的场景建模往往需要数月时间。现在，World API 能在数分钟内产出基础关卡，让设计师能将精力集中在核心玩法的打磨上。

具身智能训练：机器人学习如何走路或搬运物体需要极其真实的仿真环境。World API 能将现实中的视频快速转化为可训练的虚拟场域，极大地加速了机器人从实验室到工厂的进程。

XR 内容生态：对于大多数不懂 3D 软件的普通用户而言，World API 降低了创作门槛，让室内设计、展览模拟等应用场景变得触手可及。

2、独特的生态位：基础设施 vs. 应用工具

与 OpenAI 专注于对话 Agent、Google 探索特定游戏生成不同，World Labs 致力于做“可编程空间的操作系统”。它不参与终端应用竞争，而是为所有 3D 应用提供底层数据流。这种基础设施的定位，正是其估值能够在短时间内实现五倍增长的核心原因。

3、技术伦理与阴暗面

在技术爆发的同时，李飞飞并未忽视潜在风险。她坦言，空间重建技术若被滥用，可能导致更深层次的隐私监控或虚假现实的制造。虽然她呼吁依靠社会治理与人类善意来应对，但这依然是整个行业需要面对的长期课题。

结语｜从对话框到三维世界的跨越

如果说 OpenAI 开启了 AI 与人类语言交流的大门，那么李飞飞则正带领 AI 跨入真实存在的空间。对话框生成的是结果，而 World API 生成的是充满可能性的起点。

模型取名为 Marble（大理石），工具名为 Chisel（凿子），寓意深刻：数字世界已如磐石般稳固，而雕刻未来的工具已经交到了每一位开发者手中。

World API 已经就绪，属于空间智能的篇章才刚刚翻开。

参考资料：

https://www.worldlabs.ai/blog/announcing-the-world-api

https://www.bloomberg.com/news/articles/2026-01-23/fei-fei-li-s-ai-startup-world-labs-in-funding-talks-at-5-billion-valuation

来源：官方媒体/网络新闻

性价比vps 云服务器

本文由主机测评网于2026-04-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260434128.html

李飞飞World Labs发布World API：开启空间智能时代，从“看视频”到“造世界”的底层进化

第一节｜范式转移：从连续图像到可交互空间

第二节｜解构 World API：空间智能的核心驱动力

第三节｜应用版图与技术边界

结语｜从对话框到三维世界的跨越

Linux Docker 实战教程（于Linux系统内探索容器化的奇妙航行）

Dify 本地部署全攻略：Ubuntu 环境下零基础安装配置及连接 MySQL 数据库教程 (从入门到精通)

李飞飞World Labs发布World API：开启空间智能时代，从“看视频”到“造世界”的底层进化

第一节｜范式转移：从连续图像到可交互空间

第二节｜解构 World API：空间智能的核心驱动力

第三节｜应用版图与技术边界

结语｜从对话框到三维世界的跨越

Linux Docker 实战教程（于Linux系统内探索容器化的奇妙航行）

Dify 本地部署全攻略：Ubuntu 环境下零基础安装配置及连接 MySQL 数据库教程 (从入门到精通)

相关文章