近日,诺贝尔获奖者、Google DeepMind的首席执行官Demis Hassabis在一场访谈中,深入探讨了人工智能(AI)技术的演变及未来趋势。
在访谈中,Demis分享了从游戏AI到当前推理模型的演变,探讨了Genie 3等世界模型如何帮助AI理解现实,以及为何需要如Kaggle Game Arena这样的测试平台来评估通用人工智能(AGI)的新进展。
整个访谈展现了AI从专项智能向全能模型迈进的路径,为理解AGI的未来发展方向提供了独特视角。
学术头条在保持原文大意不变的情况下,对部分内容进行了精编。如下:
Demis表示,Genie 3是DeepMind多个研究分支融合的成果,是多种想法的结合。其核心目标是构建“世界模型”——即让AI理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等。
他们一直将棋盘游戏视为一个具有挑战性的领域,以改进AI算法思想。过去,人们常用电脑游戏作为挑战,也用于创建合成数据。研究人员使用大量的模拟环境,如3D游戏引擎,为系统创建更多训练数据,帮助它们理解物理世界。
Demis指出,“人类不仅生活在语言和数学世界中,更身处物理世界中”,AGI若想要真正发挥作用,需要理解物理世界这一现实基础。无论是机器人技术的突破还是AI日常助手,对时空背景的把握都离不开世界模型的支撑。
此外,它还需要理解使用者所处的时空背景,因此需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一,就是能够生成这个世界。
“有很多方法可以测试你的世界模型的有效性和深度,但一个很好的方法是让它进行逆向操作,生成关于这个世界的一些东西。”
为训练这一能力,他们利用3D游戏引擎等模拟环境生成大量数据,让AI在虚拟场景中学习现实规律。Genie 3最显著的特点是能生成具有一致性的世界:
当用户暂时离开其创建的虚拟场景,再次返回时,场景状态与离开时保持一致。这种特性证明它并非随机生成内容,而是对世界运作建立了稳定的底层模型。
在应用层面,Genie 3已用于内部训练。DeepMind的游戏agent SIMA可直接操控并玩现有的电脑游戏。如果将其放入Genie 3中,那么就能得到一个AI在另一个AI的头脑中进行游戏的结果。
为应对AI系统“锯齿智能”等问题,Google DeepMind与Kaggle合作推出了Game Arena,作为评估AGI进展的新测试平台。让模型去玩各种不同的游戏,并测试它们的能力。
在“首届”大模型对抗赛决赛中,OpenAI的o3击败了马斯克的Grok 4,成功夺冠。谷歌的Gemini 2.5 Pro则在半决赛中输给了Grok 4。
在Demis看来,这些系统要成为真正的AGI所缺少的东西之一是一致性。他认为,当前AI系统存在能力不均衡的现象:它们能在IMO中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误。
这种不一致性是AGI发展需突破的关键障碍。他强调现有评估基准存在局限性,“可能在推理、规划、记忆方面还缺少一些能力”。
Game Arena的设计基于游戏场景,使它具备多方面的优势:
首先,游戏是非常纯粹的测试场所。你可以通过游戏得到Elos等级分,它们是非常客观的性能衡量标准。没有主观性,不需要让人类来进行A/B测试、决定评级等。
其次,随着AI系统能力提升,游戏难度可自动调整。系统在比赛中相互较量,能力增强则测试自动升级。
除Genie 3和Game Arena外,Demis还谈到了其他大模型相关热门话题。
Thinking模型的演进是重要方向。以Deep Think为代表的系统延续了AlphaGo等早期游戏AI中基于agent的系统思路,强调AI的思考、规划与推理能力。
工具使用成为AI能力扩展的新维度。Thinking模型在推理过程中可调用搜索功能、数学程序、编码工具等更新规划方案。
本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439722.html