当前位置：首页 > 科技资讯 > 正文

谷歌DeepMind发布Project Genie：从生成内容到构建世界，迈向AGI的‘数字沙盒’

主机测评网
科技资讯
2026-04-07
236

谷歌DeepMind发布Project Genie：从生成内容到构建世界，迈向AGI的‘数字沙盒’ Project Genie 世界模型谷歌DeepMind 具身智能第1张

该原型目前已面向美国Google AI Ultra订阅群体开启首批试用。

如果说人工智能的演进史是一场波澜壮阔的交响乐，那么前奏的主题始终围绕着“生成”——从文本到图像，再到音视频的跃迁。然而，在2026年的开端，一段更为深邃的旋律响彻科技界：AI不再仅仅是描绘者，它开始成为“构建者”。

北京时间1月30日，谷歌DeepMind正式对外展示了Project Genie。作为世界模型Genie 3的实验性研究原型，它被视为当前全球最前沿的世界模型之一。这也是交互式世界模型首次以可操作的形态向公众揭开神秘面纱。

“Genie”一词源于神话中的“精灵”或“灯神”，寓意着能够实现召唤者的愿望。谷歌DeepMind以此命名，意在展示该模型的惊人能力：它能将用户的一句文字描述（召唤者的愿望），瞬间转化为一个可进入、可交互的虚拟维度。

当人工智能不仅能织就梦境，还能推开梦境的大门邀请人类漫步其中时，我们对于“虚实边界”的认知正面临前所未有的重构。

目前，年满18岁的美国Google AI Ultra（订阅费用为3个月125美元）用户可率先体验这一前沿原型。

Project Genie：从“视频生成”到“宇宙构建”

Project Genie的核心驱动力是Genie 3世界模型。它与OpenAI的Sora等纯生成类大模型有着本质区别：Sora侧重于多模态内容的视觉呈现（基于现有素材进行像素级的创作），而Genie则是构建一个逻辑完整的空间，实现真正的“凭空造世”：

用户只需输入一段描述或上传一张静态图，例如“一座漂浮在云端、由机械齿轮驱动的蒸汽朋克城堡”，一个实时的、支持交互的3D虚拟世界便会在数秒内生成。

使用者可以像操控电子游戏角色一样，在其中自由探索、飞行或驱动机械，亲历这个由想象力催生的世界。

更为震撼的是，其环境是根据动作动态、连续生成的。这并非调用预设好的游戏引擎数据，而是模型对物理规律与空间逻辑的即时演算。当角色移动时，前方的路径与景观会实时“生长”出来。

从技术底层逻辑来看，世界模型的核心竞争力在于模拟环境的动态演化，并精准预测行为对环境产生的反作用。

尽管谷歌DeepMind在棋类等封闭环境的AI研发上功勋卓著，但要触达通用人工智能（AGI），系统必须具备理解真实世界无限复杂性的能力。

Genie 3正是这一愿景的关键突破。它提供了一种史无前例的模拟维度，能生成任何现实或虚构的交互式环境。这为机器人学习、动画工业乃至数字考古等领域提供了极具潜力的工具。对于AI进化而言，它的深远意义远超娱乐体验。

Project Genie真正的价值，是为AI智能体（以及未来的机器人）打造了一个无限、安全且低成本的“虚拟训练场”。智能体可以在这些模拟场景中进行数以亿次的试错，掌握物理常识与因果逻辑。这被公认为通往AGI的必经之路。

因此，世界模型不仅是内容创作的利器，更是连接当下AI与未来“具身智能”的底层基础设施。

科技巨头的“造世”之战

人工智能领域的先驱们普遍达成共识：世界模型是通往下一代人工智能的关键，甚至可能是超越人类智能的终极路径。

斯坦福大学教授、AI“教母”李飞飞创办的World Labs最新估值已冲向50亿美元；“AI教父”杨立昆（Yann LeCun）旗下的AMI Labs也在资本市场备受追捧，估值约35亿美元；英伟达掌舵人黄仁勋多次强调，世界模型将赋予机器人和自动驾驶设备以“物理感官”；Meta则试图通过模拟物理规律，提升机器人在现实空间中的感知与精细操作能力……

然而，作为早期产物，以Project Genie为代表的世界模型仍处于“成长期”。目前该原型每次交互被限制在60秒内，物理表现有时会偏离现实规律，操作响应也存在一定延迟。这些瓶颈很大程度上源于世界模型背后恐怖的算力消耗。

DeepMind研究人员指出，每一次“造世”交互，背后都对应着一颗专用计算芯片在全功率运转。这决定了它目前更像是一扇窥视未来的窗口，而非大面积普及的工具。