2025年,具身智能领域最炙手可热的词汇是VLA(视觉-语言-动作模型)。它迅速成为全行业的共识,并确立了具身基础模型的标准。然而,现实物理世界却给所有从业者泼了一盆冷水,因为VLA在物理动作执行上显得力不从心。
尽管VLA能理解复杂的文字指令,但在实际执行机械臂抓取等任务时,它连如何调整手腕姿态以避开杯柄的阻挡都做不到,更不用说执行解开鞋带这类涉及复杂物理形变的动作了。此外,VLA的泛化能力也成了一大痛点。原本模型更新的目的是为了提高泛化能力,无需为每个特殊环境编程,但如今VLA在超出训练环境的情况下几乎无法泛化。
为了解决这个问题,整个行业将泛化无力归咎于数据不足,并开始投入巨资采集数据,试图用海量模拟演示填补VLA的常识空缺。然而,2026年初,英伟达(NVIDIA)发布了两篇论文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》,提出了新的具身智能基础模型范式,打破了数据内卷的僵局。
这两篇论文提出了一套全新的具身智能基础模型范式,使得具身模型能够完全从视频中学习,并通过Zero-shot(零样本)就能泛化执行不同的工作。
要理解DreamZero和Dream Dojo的颠覆性,必须先从底层剖析VLA的系统性缺陷。VLA的最大问题是缺乏世界模型。它的底层架构限制了其认知方式,使其对物理动作和世界的理解相对较弱。相比之下,大规模视频生成模型如海量的互联网视频已经隐式地压缩并内化了物理世界的基础运行规律。
尽管视频生成之前主要被用在给VLA提供模拟数据,而不是整合进机器人的工作流中,但大家已经开始利用视频生成模型来控制机器人的念头。然而,之前的方法都陷入了工程和逻辑的死胡同。
比如 LVP(大规模视频规划器),它试图从一张图和一句话直接生成任务的未来视频计划。而另一种方法则是生成视频后再反推动作,但这种方法存在对齐问题。
第三种方法是Unified Video-Action(UVA),它尝试把视频和动作放在同一个扩散模型里的潜空间里学习。然而,这种方法存在时空错乱和计算慢的问题。
针对这些问题,英伟达用DreamZero给出了一条解决方法。它采用了视频和动作预测同步端到端训练的方式,解决了对齐问题,并构建了一个自回归 Diffusion Transformer (DiT),同时预测视频与动作。
DreamZero展现了视频生成世界模型的恐怖潜力。在AgiBot双臂机器人的测试中,研究人员发现DreamZero的平均任务进度达到了39.5%,某些特定任务甚至高达85.7%。这是因为DreamZero在训练时联合预测视频和动作,被迫在潜空间中建立事物演变的因果链条。
此外,DreamZero还展示了跨机体(Cross-Embodiment)能力。研究人员发现只需让模型观看人类视角的录像(纯视频,没有任何电机动作参数),就能实现42%的相对提升。这意味着基于视频生成的世界模型具有强大的泛化能力。
DreamZero的实验揭示了新的数据法则:数据多样性 > 数据重复量。研究人员发现使用杂乱数据训练的DreamZero在未见任务上的泛化成功率更高。这是因为VLA和WAM的学习逻辑根本不同。VLA是在背诵,而WAM是在学物理。
DreamDojo的作用是在DreamZero的基础上持续优化世界模型。它设计了一个自监督编码器,专门盯着视频的前后帧看,提取出连续潜在动作。通过这种方法,DreamDojo能够增强模型的交互因果和可控性。
DreamZero的出现敲响了具身智能纯VLA时代的丧钟。这场范式的转变将深刻重塑整个行业的生态。数据采集哲学将发生颠覆,从高成本的实体遥操作转向低成本的互联网视频挖掘。更重要的是,我们对机器智能的认知正在发生根本性转移。从教会机器认字到教会机器做梦,具身智能正在迈向一个更广阔的未来。
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435986.html