近期,Physical Intelligence(PI)联合创始人Chelsea Finn在𝕏平台上,频频点赞斯坦福课题组最新提出的世界模型研究成果。
生成高质量视频相对容易,但构建一个对机器人真正有用的通用模型则充满挑战——它需紧密跟随动作,同时确保准确性以规避频繁幻觉。
这项研究由她在斯坦福领导的课题组与清华大学陈建宇团队携手完成,提出了名为可控生成世界模型Ctrl-World的创新方案。
该模型让机器人在“想象空间”中完成任务预演、策略评估与自我迭代,是机器人技术的一大突破。
核心数据显示,该模型未使用任何真实机器数据,在特定下游任务的指令跟随能力上取得了显著提升,成功率从38.7%提升至83.4%,平均改进幅度达44.7%。
其相关论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已在arXiv平台发布。
注:Ctrl-World专为通用机器人策略的策略在环轨迹推演而设计。它生成联合多视角预测(包括腕部视角),通过帧级条件控制实现细粒度动作控制,并通过姿态条件记忆检索维持连贯的长时程动态。这些组件实现了:(1)在想象中进行精准的策略评估,并与真实世界轨迹推演对齐(2)通过合成轨迹实现针对性的策略改进
当前,视觉-语言-动作(VLA)模型虽在多种操作任务与场景中表现出色,但在开放世界场景中仍面临两大核心难题,这也是团队研发CTRL-WORLD的核心动因:
难题一:策略评估成本高,真实测试烧钱又低效。
验证机器人策略性能需在不同场景、任务中反复试错。
以“抓取物体”任务为例,研究者需准备大小、材质、形状各异的物体,搭配不同光照、桌面纹理的环境,让机器人重复成百上千次操作。
此外,测试中还可能出现机械臂碰撞(故障率约5%-8%)、物体损坏(损耗成本单轮测试超千元)等问题,单策略评估周期常达数天。更关键的是,抽样测试无法覆盖所有潜在场景,难以全面暴露策略缺陷。
难题二:策略迭代同样难,真实场景数据永远不够用。
即便在含95k轨迹、564个场景的DROID数据集上训练的主流模型π₀.₅,面对“抓取左上角物体”“折叠带花纹毛巾”等陌生指令或“手套、订书机”等未见过的物体时,成功率仅38.7%。
传统改进方式依赖人类专家标注新数据,但标注速度远赶不上场景更新速度——标注100条高质量折叠毛巾轨迹需资深工程师20小时,成本超万元,且无法覆盖所有异形物体与指令变体。
传统世界模型目前也还面临三大痛点——
为解决真实世界依赖,学界曾尝试用世界模型(即虚拟模拟器)让机器人在想象中训练。
但研究团队在论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》中指出,现有世界模型多数方法聚焦于被动视频预测场景,无法与先进通用策略进行主动交互。
Ctrl-World通过三项针对性设计,解决了传统世界模型的痛点,实现“高保真、可控制、长连贯”的虚拟预演。
本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543646.html