当前位置:首页 > 科技资讯 > 正文

Genie 3:AI生成不了完整游戏世界

上周,Google DeepMind 发布了其第三代视觉语言模型 Genie 3。一时间,全球游戏公司股价应声下跌。

引擎巨头 Unity 的股价一度暴跌超过 24%,顶级制作商 Take-Two、任天堂、CD Projekt Red 等公司也未能幸免。这一趋势甚至延续到了本周。

Genie 3:AI生成不了完整游戏世界 3 AI 游戏开发 IP 第1张

资本市场剧烈的反应背后,逻辑简单又粗暴:

既然模型能快速生成以假乱真且可交互的 3D 世界,任何人都能做出 AAA 级别的游戏。那些投入上亿美元、耗时十年打磨一款游戏/开发工具的公司,岂不都完蛋了?

乍一听上去,这个逻辑似乎无懈可击。但仔细思考,就会发现其中存在巨大的认知误区。

在我看来,这是典型的膝跳反应式恐慌,暴露了一个错误的认知:把视觉细节的生成,等同于完整世界的构建。

就像不是所有会画画的人都能成为建筑师一样,游戏开发的世界构建,远比这复杂得多。

Genie 3:AI生成不了完整游戏世界 3 AI 游戏开发 IP 第2张

Demo 只是 demo

Genie 3 的演示视频确实令人震撼。

给它一段文字、参考图、手绘图之类的,它确实能在令人难以置信的时间里,实时生成类似《GTA》《塞尔达传说》风格的场景。玩家可以在其中探索一段时间,扮演「游戏角色」在以假乱真的世界里游荡。

对于缺乏技术细节了解的旁观者而言,Genie 3 看起来确实像是「游戏开发的终结者」。

但 demo 只是 demo,甚至离游戏行业能够接受的「可游玩」或者「技术 demo」相去甚远。

Genie 3 本质上是一个自回归式的「帧生成」(frame generation) 模型。而 「帧生成」也不是什么新鲜玩意,在游戏和显卡技术行业早已存在。它的工作原理,简单来说,就是看着前几帧画面,猜测下一帧的像素排列,生成新的帧,循环往复。

关键在于,Genie 3 的帧生成是靠「猜」的,而非硬编程,没有可靠的逻辑计算。

在一个真实的游戏中,当玩家扔出一个铁球,游戏引擎利用经典物理公式来计算它的下落速度。当玩家打开手电筒然后在房间里乱跑,游戏引擎模拟「光线追踪」和被照物体的材质,来实时渲染光照的效果。

但 Genie 3 没有这些能力,它只是在观察了数以千万记的视频片段之后,形成一个大概的「感受」,猜测物体在掉下去的时候可能会加速,光会在物体的身后打出一个影子。

Genie 3 「猜」出来的这些效果,并不真实。而在游戏世界里,不真实会严重破坏沉浸感。

缺乏确定性:记忆的短板

Genie 3 有个致命短板:缺乏长期一致性。它的记忆窗口(在目前的 demo 版本)只有最多 1 分钟。一旦超过这个时间,Genie 3 可能就会开始遗忘初始场景,世界结构随之崩溃。

与之相对,传统游戏能够保存确定性的状态。世界的构成,每一个素材都刻写在游戏文件里,游玩上百小时后的每一草一木依旧如故(除非碰到像《荒野大镖客2》这样的特例)。

你能接受在一个游戏里,同一个地方每次去都不太一样,甚至刚一回头就变了样吗?

精雕细琢才有「生命感」

说到游戏世界的构建,《荒野大镖客 2》(RDR2) 是个绕不开的标杆。

这款开放世界大作的研发数据令人咋舌:主创 Dan Houser 透露,RDR2 的开发周期长达 8 年,团队上千人……

Genie 3:AI生成不了完整游戏世界 3 AI 游戏开发 IP 第3张RDR2 的开发周期、团队规模以及细节还原度,共同造就了它令人着迷的游戏世界。

AI 生成不了 IP——最多只会抄袭

另一个不得不提的本质问题:玩家玩游戏,到底热爱的是什么?

答案很多时候除了游戏(剧情、机制设定等)本身,还有游戏的 IP。

IP 的价值,远超出单一作品本身。

以任天堂为例,马力欧这个 IP 诞生于 1985 年……

AI 是画笔,人才是画家

这些道理,当然不需要专门写一篇文章来讲。任何对游戏有审美的人,都应该明白。

所以我相信,片刻的认知偏差和恐慌肯定会过去。优秀的游戏开发者会获得与他们的作品质量、实力和创造力所匹配的市场公允价值。