当前位置:首页 > 科技资讯 > 正文

AI竞赛新前沿:世界模型战场开启,xAI携英伟达专家入局

人工智能竞争的下一个阶段已经明朗:从文本领域迈向物理世界。在这场称为“世界模型”的科技竞赛中,埃隆·马斯克的xAI公司已低调引入英伟达专家,与谷歌、Meta等行业巨头并肩角逐。xAI旨在首先将这项技术用于AI游戏生成,并探寻其在机器人系统中的应用潜力。谷歌推测,未来的视频模型将拥有与语言模型相媲美的智能水平。

AI领域的战火正从大语言模型蔓延至一个更前沿的疆域——能够理解并模拟真实物理规律的“世界模型”。xAI已悄然投身这场竞赛,与谷歌和Meta等科技巨头展开激烈竞争。

据英国《金融时报》10月12日报道,马斯克的初创公司xAI在今年夏季从芯片巨头英伟达招募了人工智能专家,专注于世界模型的研发。与依赖文本的大语言模型不同,世界模型通过训练海量视频和机器人数据,旨在掌握真实世界的物理法则。

“未来的视频模型将变得和语言模型一样智能,”谷歌研究人员在论文中强调。英伟达上月也曾表示,世界模型的潜在市场规模可能接近全球经济的总量。

01

兵马先行:

xAI的游戏“奇袭”与机器人野望

为在这场竞赛中抢占先机,xAI正积极招兵买马。

公司已聘用了来自英伟达的两位AI研究员Zeeshan Patel和Ethan He,他们在世界模型领域经验丰富。英伟达凭借其用于创建和运行模拟的Omniverse平台,一直是该技术的引领者。

知情人士透露,xAI为世界模型规划的首个商业化落点是游戏领域,用于生成可交互的3D环境。这一动向迅速引发市场关注,因为它不仅是xAI商业化路径的明确信号,更凸显了世界模型作为下一代AI技术的巨大潜力。

马斯克本人在社交平台X上确认,xAI将在“明年年底前发布一款卓越的AI生成游戏”。长远来看,这些技术最终可能应用于机器人的人工智能系统。

AI竞赛新前沿:世界模型战场开启,xAI携英伟达专家入局 世界模型  xAI 视频模型 AI游戏生成 第1张

xAI的招聘信息也印证了其发展方向。公司正在为其“omni团队”招聘图像和视频生成领域的技术人员,薪资范围高达18万至44万美元,该团队致力于“创造超越文本的神奇AI体验”。

此外,公司还在以时薪45至100美元招聘“视频游戏导师”,以训练其AI模型Grok制作视频游戏。

02

范式转移:

视觉模型的“GPT”时刻

xAI的高调入局,恰逢一个关键的行业预判浮出水面:未来的视频模型将变得和语言模型一样智能。谷歌近期的一篇论文指出,其视频模型Veo 3正展现出与大语言模型类似的“涌现能力”。

正如LLM通过“下一词元预测”的简单任务,最终掌握了数学和创意写作等额外技能,视频模型通过“下一帧预测”,也开始零样本地解锁一系列惊人能力,如物体分割、边缘检测和模拟工具使用等,而这些都无需专门训练。

AI竞赛新前沿:世界模型战场开启,xAI携英伟达专家入局 世界模型  xAI 视频模型 AI游戏生成 第2张

谷歌的研究人员Jack Clark在论文中写道:“我们认为,正如自然语言处理从特定任务模型转向通用模型一样,机器视觉领域也可能通过视频模型经历同样的变革——一个‘视觉领域的GPT-3时刻’。”

他们将视频逐帧生成的过程比作语言模型中的“思维链”,并称之为“帧链”,认为这使得视频模型能够跨越时空进行推理。

这一发现意义深远,它暗示通过发展更智能的视频模型,人们或许能够获得能力极强的机器人“代理”。

03

前景与现实:

高昂的成本与“愿景”的缺失

尽管前景诱人,但通往世界模型的道路并非坦途。目前,该技术仍面临重大挑战,其中最突出的是为模拟真实世界寻找和处理足够训练数据的成本极其高昂。

与此同时,业界也对AI的作用持冷静审视。热门游戏《博德之门3》的开发商Larian Studios的发行主管Michael Douse本周在X上表示,AI无法解决游戏行业的“根本问题”,即“领导力和愿景”。

他补充道,行业需要的不是“更多由数学方式生成、经过心理学训练的游戏循环”,而是对世界更丰富多样的表达。这代表了一种普遍观点:纯粹的技术突破本身,并不能保证创造出真正打动人心的商业产品。

尽管挑战重重,但xAI的入局无疑为世界模型的竞赛注入了新活力。

AI的焦点正不可逆转地从纯粹的数字信息处理,转向对复杂物理现实的模拟与交互。视觉模型能否复制大语言模型的辉煌,迎来属于自己的“GPT时刻”,不仅将决定下一代AI霸主的归属,更可能重塑我们与数字及物理世界的基本关系。