当前位置:首页 > 科技资讯 > 正文

Sora 2:从视频生成到世界模拟的AI革命

深入剖析OpenAI的Sora 2,揭示其从视频生成工具转型为“世界模拟器”的核心策略。本文探讨了Sora 2如何利用Diffusion Transformer(Dit)和“时空块”等技术,使模型能够理解和模拟物理世界的规律,展现出Agent(智能体)的初期特征,例如物体持久性和对动作逻辑的合理判断。同时,还介绍了其关键功能Cameo如何通过用户参与构建社交驱动的生成网络,并展望了Sora 2作为未来“数字克隆”和“多重宇宙操作系统”的潜力。

最近,OpenAI宣布Sora 2进一步开放使用权限,无需邀请码。

这不仅是权限的放宽,更是技术路径的重大转变。

Sora 2:从视频生成到世界模拟的AI革命 2 世界模拟器 Diffusion Transformer Agent涌现 第1张

无需拍摄、剪辑、导出。只需输入几句话,AI就能根据逐秒脚本生成一段完整视频。这不是通过剪辑拼接画面,而是逐步模拟世界的运行。

如果说Sora 1是图像增强器,那么Sora 2则是世界模拟器的雏形。

在11月5日的访谈中,产品研究负责人Bill Peebles明确判断:

Sora是一个世界模拟器(World Simulator),而非单纯的生成器。

本文旨在还原Sora团队的核心思路:

他们如何让视频模型从生成画面转向理解世界运行的规律?这条技术路径又是如何将AI视频推向Agent涌现的临界点?

第一节|技术底层:视频生成,为何变成世界模拟

OpenAI的Bill Peebles是Diffusion Transformer(Dit)的提出者,这项技术让Sora从图像增强走向世界建构。

Dit不同于语言模型逐个生成token的方式,它是一堆噪声中还原出完整视频的过程。过去的视频生成系统容易在时间轴上断裂。第一秒动作合理,第四秒突然手臂消失、第七秒背景塌陷。

为什么?

因为大多数模型无法同时处理时间+空间的复杂关系,画面之间没有记忆,更没有物理逻辑。

Sora改变了思路。

它不再逐帧处理,而是将视频切成一个个小立方体,每个立方体同时包含位置、画面和时间信息。

Peebles称这为“时空块”(space-time patch)或“时空标记”(space-time token)。想象一下一个小长方体,它包含X和Y的空间维度,也包含一个时间局部性。这个结构是视觉生成模型的最小单位。也就是说,Sora不是在画一张张图,而是在理解和组织一个三维时序结构。

Thomas Dimson补充说:注意力机制在这里变成了一种全局共享记忆,它让模型可以把前几秒钟的信息带进后面的帧里。

因此,才有了物体持久性这种过去AI视频模型几乎不可能实现的能力。

Sora 2能让角色从头到尾穿着同一件衣服,手中的物体不会神秘消失,甚至在复杂的动作场景中,镜头移动后仍能保持角色的方向一致。这些不是靠“贴标签”或加规则实现的,而是模型自然理解了这是一段连续世界的演化过程。

Peebles强调:Sora的视频模型在每个时间点都拥有整个画面的全局上下文,这让它能够保留真实世界里的延续性。

对非技术用户来说,这意味着:你无需提供时间线、镜头顺序或角色逻辑,Sora就能推断出这段视频里谁在做什么、做了多久、应该怎么结束。

它从根本上重构了AI视频的生成方式。

  • 不是合成片段,而是模拟世界。
  • 不是按帧渲染,而是按规则演化。
  • 不是模型越来越会画画,而是越来越懂场景。

这不只是画面更真实了,而是Sora学会了推演一个符合物理规律的世界。

...(中间部分省略)...

结语|这不是短视频,是现实的试运行环境

Sora 2的真正意义不在于画面多清晰或能生成多少秒,而在于它让我们首次看到:AI不再只是讲故事的工具,而是在自己理解一个世界的运行方式。

它能失败、能判断前因后果、能在场景中保留角色、物体和行为的连续性。这不是剪辑优化,而是行为模拟。

从技术角度看,它靠时空结构的重构;

从产品角度看,它靠人与人之间的生成关系;

从未来角度看,它打开的不是一个视频工具市场,而是一个新现实的原型空间。

未来不会以产品形式先到,而是以世界结构的方式悄悄发生。

如果它能模拟你的一天,它也终将参与你的决策。

真正的问题不是视频有多真,而是当模拟与现实的边界逐渐模糊时,我们如何定义真实本身。