当前位置:首页 > 科技资讯 > 正文

AI生成世界:从内容到空间的革命

在AI的助力下,我们的想象力正被逐步释放。

从文本生成到工具调用,再到自然语言驱动的小程序构建,人类与AI的交互形式持续扩展。而近期,这一趋势正指向一个更具冲击力的方向——通过自然语言直接生成一个可供进入、探索与改变的世界。

北京时间1月30日凌晨,Google DeepMind向外界开放了Project Genie。这是其世界模型(World Model)研究体系中,首次以可交互形态对公众开放的实验性原型,也被视为Genie系列的阶段性成果。

AI生成世界:从内容到空间的革命 AI生成 世界模型 视频空间 教育参与 第1张

如果说过去的生成式AI主要解决的是「内容如何被生成」,那么世界模型开始触及的,是一个更底层的问题:当视频不再只是内容,而成为空间,我们该如何重新理解「媒介」本身?

行业前瞻:视频从「观看」变为「进入」的空间

在Andreessen Horowitz(a16z)发布的2026年前瞻观点中,视频被反复提及。但这里的「视频」,已经超越了传统短视频或长视频的概念,成为一种可被进入、可被操控、可持续演化的空间媒介。

a16z合伙人Yoko Li表示,「到2026年,视频将不再只是被动观看的内容,而会变成一个我们可以真正‘进入’的空间。视频模型终于能够理解时间、记住已经呈现的内容、对我们的行为作出反应,并以接近物理世界的方式保持连贯性。」

这一变化的本质,并不在于「画面是否更逼真」,而在于视频第一次具备了环境属性。它不再只是讲述一段故事,而是承载规则、因果与反馈;不再是被消费的对象,而是可以被反复进入、持续演化的空间。视频成为一个空间,一种可以被构建的媒介,一个「活的环境」。例如,机器人可以在其中训练,游戏可以持续演化,设计师可以进行原型设计,智能体可以通过实践学习。我们第一次真正感到,自己可以栖居于所生成的视频之中。

技术实测:从文字到可交互世界的「生成魔法」

如果将Project Genie放在更现实的技术坐标中,其真正重要的,并不是「又能生成一类新内容」,而是它改变了生成对象的层级。

传统视频生成模型,本质上解决的是一个时间序列预测问题:在已知前若干帧的情况下,预测下一帧最可能出现的画面。无论模型规模多大,其核心目标始终是「画面连续」,而非「世界自洽」。这也是为什么,大多数生成视频在短时间内看似合理,但一旦拉长时间或引入交互,逻辑就会迅速崩塌。

而以Google DeepMind的Genie为代表的世界模型,尝试解决的是另一个问题:如果把生成对象理解为一个「环境」,而非一段「片段」,模型是否能够维持状态、规则与因果关系?

与传统视频生成模型相比,Genie的突破不在于画质,而在于三点:第一,场景具备基本的时间连续性,不会在每一次交互中完全重置;第二,用户行为会改变后续状态,形成简单因果链;第三,世界的生成逻辑不再是「逐帧预测」,而更接近「状态更新」。

教育空间:从「内容理解」到「情境参与」

将视角拉回教育领域,世界模型最具吸引力的价值,并不在于让教学内容变得更生动,而在于它触及了教育中一个长期存在、却始终难以规模化解决的问题:高质量学习情境的构建成本过高。而这一成本,直接决定了体验式学习能否真正成立。

在现实教学中,真正有效的学习往往依赖具体情境。历史理解需要置身于社会结构与权力关系之中,科学学习依赖对变量变化与因果反馈的反复试探,职业技能训练更是高度依赖接近真实的操作环境。但这些情境要么依赖昂贵的实验条件,要么依赖经验丰富的教师引导,难以被稳定复制。

正是在这一层意义上,世界模型被寄予厚望。在理想状态下,它可以显著降低情境构建的门槛。历史不再只是被讲述的事件,而是可以被进入、被观察的社会结构;科学不再局限于既定实验步骤,而是一个可被反复推演的规则系统;职业教育也不再完全依赖真实场景,而是先在高度仿真的环境中完成训练与试错。

路径初现:想象正在扩展,现实仍需克制

因此,与其将世界模型视为教育行业的短期变量,不如将其理解为一次媒介边界的前移。它所带来的,并不是立刻可被转化为产品或收入的确定性机会,而是一种对「教育如何被呈现与参与」的底层假设的松动。

对教育行业而言,真正值得关注的,并不是「什么时候能大规模应用Genie」,而是一个更底层的问题:当视频不再只是内容,而成为空间时,教育是否也需要重新定义自己的表达方式?