Genie 3：AI世界模型的革命性突破

Genie 3，作为目前最先进的世界模型之一，通过文本就能实时生成完全互动且高度一致的世界。

它不仅代表了DeepMind研究的结晶，更是通往AGI（通用人工智能）和具身智能体的关键一步。

那么，Genie 3是如何构建的呢？未来的世界模型又将如何发展？

最近，谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter在a16z的访谈中分享了他们的见解。

Genie 3：AI世界模型的革命性突破 3 世界模型 AGI 具身智能体第1张

此次对话为我们提供了关于Genie 3的第一手洞察。

主持人Justine Moore在推特上表示：“Genie 3在网络上引起了巨大反响”。

Genie 3：AI世界模型的革命性突破 3 世界模型 AGI 具身智能体第2张

她总结了访谈的要点：

Genie 3是由两个DeepMind项目（Veo 2和Genie 2）合作完成的成果。

实时、互动的世界模型具有广泛的应用潜力。

但应用并不是推动研究的主要动力——它们是从用户使用模型的过程中自然涌现出来的。

Genie 3可以保留长达一分钟的空间记忆。

物理规律是模型的“自然产物”，并会随着训练数据的规模和深度而不断提升。

目前尚未有一个“终极模型”能够同时具备Veo 3和Genie 3的所有能力。

如果说LLM（大型语言模型）的原生图像编辑功能是“动动嘴PS”，那么Genie 3的新特性又该如何描述呢？

只需输入文本提示，Genie 3就能生成动态世界。用户可以进行实时探索，每秒高达24帧，分辨率为720p。

多年来，谷歌DeepMind一直致力于模拟环境的研究。

Genie 3是他们最新且最强的“世界模型”，是通往AGI的关键一步，因为它能让AI智能体在无限丰富的模拟环境中进行训练。

去年，他们推出了首批基础世界模型Genie 1和Genie 2，它们能为智能体生成全新的环境。此外，他们还通过Veo 2和Veo 3等视频生成模型，不断提升对直观物理的理解能力。

这些模型在不同方面都取得了进展。Genie 3是谷歌首个支持实时交互的世界模型，同时提升了世界的一致性和真实感。

Genie 3：AI世界模型的革命性突破 3 世界模型 AGI 具身智能体第3张

在生成视频时长、世界一致性、内容多样性、特殊记忆等方面，Genie 3都取得了突破。

它甚至可以让个人创造自己的游戏世界、训练强化学习的智能体、进行机器人研究等。

所有这些应用都源于一个核心能力：仅用几句话就能生成一个完整的世界。

最关键的新特性是：特殊记忆。

例如：一个角色拿着刷子在墙上刷漆，然后他移动到墙的另一边去刷，接着又回到原来的位置，之前刷的痕迹还在。

特殊记忆是DeepMind团队有意设计的目标，但效果出乎意料地好。

即使是参与Genie 3的内部成员，第一次看到刷墙的示例时也不敢相信，需要反复观看、逐帧检查才确定这是模型生成的。

Genie 3：AI世界模型的革命性突破 3 世界模型 AGI 具身智能体第4张

Genie 3的一致性非常高：建筑物左侧的树木在整个交互过程中始终保持一致，即使它们时而进入视野时而消失。

和许多生成式模型一样，随着扩展，效果确实会提升，这已经不是秘密了。

尽管不如语言模型在推理能力上的涌现表现，但Genie 3依然涌现出一些令人惊讶的行为。例如，如果一个角色靠近一扇门，模型可能会“推测”角色应该打开门；这些符合人类直觉的行为，现在模型能在一定程度上表现出来。

但总的来说，Genie 3团队最关注的是让模型本身变得尽可能强大，产生更广泛的影响，然后把创造应用的机会交给其他团队。

他们表示最终会开放Genie 3模型。

未来确实让人特别兴奋，但也必须承认，世界模型距离真正“准确模拟现实世界”还有很大差距。

例如，把一个人放进生成的世界里，让他随心所欲地做任何事情，我们还远远做不到。

本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439635.html