紧随“下一个词预测”之后,世界建模正成为新的预训练范式。
这是英伟达机器人主管Jim Fan的最新论断。
他认为,2026年将成为大世界模型(Large World Models)真正为机器人领域及更广泛的多模态AI奠定基础的第一年。
谢赛宁随即转发表示赞同:“事后看来显而易见”。
在这篇长文中,Jim Fan探讨了世界模型的定义与应用,尤其聚焦于物理AI领域的发展,同时展望了新的推理形式:
世界建模(world modeling)是在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态)。
当前世界模型的主要炒作集中在AI视频领域,而2026年将迎来物理AI的爆发。
世界模型需要更广泛的预训练目标:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉。
将出现一种新的推理形式:在视觉空间中的思维链,而非语言空间中的思维链。
以下为分享全文:
下一个词预测(Next word prediction )曾是第一个预训练范式,而现在我们正在经历第二次范式转变:
世界建模(world modeling),或者称为“下一个物理状态预测”。
很少有人真正理解这一转变的深远意义。目前,世界模型最被炒作的应用仍然是AI视频(接下来可能是游戏)。
我坚信:2026年将成为大世界模型(Large World Models)首次为机器人领域及更广泛的多模态 AI 奠定真实基础的一年。
在此背景下,我将世界建模定义为:在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态)。
视频生成模型是其中的一种实现形式,其中“下一个状态”是一系列RGB帧(通常为 8–10 秒,最长可达数分钟),而“动作”是一段描述要执行什么的文本。
训练过程就是对数十亿小时视频像素的未来变化进行建模。
本质上,视频世界模型就是可学习的物理模拟器和渲染引擎。
它们能够捕捉反事实情景(counterfactuals),即预测如果采取不同动作,未来可能会如何不同——这就是推理。世界模型从根本上以视觉为中心。
相比之下,VLM本质上是以语言为中心的。从最早的原型(e.g. LLaVA, Liu et al. 2023)开始,整体路径基本一致:视觉在编码器处进入,然后被送入语言主干网络。
...
本文由主机测评网于2026-04-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435204.html