当前位置：首页 > 科技资讯 > 正文

2026：世界模型引领AI新纪元

紧随“下一个词预测”之后，世界建模正成为新的预训练范式。

这是英伟达机器人主管Jim Fan的最新论断。

2026：世界模型引领AI新纪元世界模型大世界模型物理AI 视觉主导第1张

他认为，2026年将成为大世界模型（Large World Models）真正为机器人领域及更广泛的多模态AI奠定基础的第一年。

谢赛宁随即转发表示赞同：“事后看来显而易见”。

2026：世界模型引领AI新纪元世界模型大世界模型物理AI 视觉主导第2张

在这篇长文中，Jim Fan探讨了世界模型的定义与应用，尤其聚焦于物理AI领域的发展，同时展望了新的推理形式：

世界建模（world modeling）是在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。

当前世界模型的主要炒作集中在AI视频领域，而2026年将迎来物理AI的爆发。

世界模型需要更广泛的预训练目标：下一个世界状态不应只包含RGB，还必须覆盖3D运动、本体感觉与触觉。

将出现一种新的推理形式：在视觉空间中的思维链，而非语言空间中的思维链。

以下为分享全文：

第二个预训练范式

下一个词预测(Next word prediction )曾是第一个预训练范式，而现在我们正在经历第二次范式转变：

世界建模（world modeling），或者称为“下一个物理状态预测”。

很少有人真正理解这一转变的深远意义。目前，世界模型最被炒作的应用仍然是AI视频（接下来可能是游戏）。

我坚信：2026年将成为大世界模型（Large World Models）首次为机器人领域及更广泛的多模态 AI 奠定真实基础的一年。

在此背景下，我将世界建模定义为：在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。

视频生成模型是其中的一种实现形式，其中“下一个状态”是一系列RGB帧（通常为 8–10 秒，最长可达数分钟），而“动作”是一段描述要执行什么的文本。

训练过程就是对数十亿小时视频像素的未来变化进行建模。

本质上，视频世界模型就是可学习的物理模拟器和渲染引擎。

它们能够捕捉反事实情景（counterfactuals），即预测如果采取不同动作，未来可能会如何不同——这就是推理。世界模型从根本上以视觉为中心。

相比之下，VLM本质上是以语言为中心的。从最早的原型（e.g. LLaVA, Liu et al. 2023）开始，整体路径基本一致：视觉在编码器处进入，然后被送入语言主干网络。

...

本文由主机测评网于2026-04-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260435204.html