当前位置:首页 > 科技资讯 > 正文

π*0.6:从错误中学习,机器人智能新突破

表面看似简单,实则蕴含深厚。

Physical Intelligence近期推出的机器人基础模型π*0.6,一发布便展现出了强大的实力:

机器人能够连续制作意式浓缩咖啡一整天,数小时不间断地折叠各种衣物,甚至能精准组装工厂所需的包装纸箱。

π*0.6的助力下,这些任务的成功率都达到了90%以上。

π*0.6:从错误中学习,机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型 第1张

然而,深入研究其论文你会发现,π*0.6的真正突破并非连续工作13小时的咖啡制作,而是其引入了一种更为直观的学习方法——Recap:

  • 指导:通过人类示范教它基础动作
  • 辅导:通过纠错指导让它修正错误
  • 练习:从自主经验中不断优化、变得更强大

这种新方法彻底颠覆了传统机器人仅通过逼近“真值”的模仿学习模式,让机器人能从自己的错误中成长。

网友们也纷纷表示:

从错误中学习,这不比人类还强?

π*0.6:从错误中学习,机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型 第2张

最强VLA模型——π*0.6

π*0.6沿袭了Physical Intelligence一贯的VLA(视觉-语言-动作模型)路线,是今年四月份发布π0.5以来的最新VLA模型。

π*0.6:从错误中学习,机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型 第3张

总的来说,π*0.6的核心贡献在于提出了一种通用训练方法——基于优势条件策略的经验与纠偏强化学习(RL with Experience & Corrections via Advantage-conditioned Policies,RECAP)。

π*0.6:从错误中学习,机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型 第4张

RECAP让VLA能够使用奖励反馈和人类介入进行训练,主要包括三个阶段:

  • 离线RL:基于多机器人、多任务的示范数据(包括失败数据)训练价值函数和策略
  • 微调:用人类示范将π*0.6适配到具体任务(咖啡/折衣服/组装盒子)
  • 在线阶段:机器人自主执行任务,获得稀疏奖励,并结合专家在线纠偏,更新价值函数,再通过优势条件化改进策略

π*0.6:从错误中学习,机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型 第5张

...(后续内容保持不变)