π*0.6：从错误中学习，机器人智能新突破

表面看似简单，实则蕴含深厚。

Physical Intelligence近期推出的机器人基础模型π*0.6，一发布便展现出了强大的实力：

机器人能够连续制作意式浓缩咖啡一整天，数小时不间断地折叠各种衣物，甚至能精准组装工厂所需的包装纸箱。

在π*0.6的助力下，这些任务的成功率都达到了90%以上。

π*0.6：从错误中学习，机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型第1张

然而，深入研究其论文你会发现，π*0.6的真正突破并非连续工作13小时的咖啡制作，而是其引入了一种更为直观的学习方法——Recap：

这种新方法彻底颠覆了传统机器人仅通过逼近“真值”的模仿学习模式，让机器人能从自己的错误中成长。

网友们也纷纷表示：

从错误中学习，这不比人类还强？

π*0.6：从错误中学习，机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型第2张

**最强VLA模型——π*0.6**

π*0.6沿袭了Physical Intelligence一贯的VLA（视觉-语言-动作模型）路线，是今年四月份发布π0.5以来的最新VLA模型。

π*0.6：从错误中学习，机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型第3张

总的来说，π*0.6的核心贡献在于提出了一种通用训练方法——基于优势条件策略的经验与纠偏强化学习(RL with Experience & Corrections via Advantage-conditioned Policies，RECAP)。

π*0.6：从错误中学习，机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型第4张

RECAP让VLA能够使用奖励反馈和人类介入进行训练，主要包括三个阶段：

π*0.6：从错误中学习，机器人智能新突破 π*0.6 RECAP 机器人学习 VLA模型第5张

...（后续内容保持不变）