上一篇
表面看似简单,实则蕴含深厚。
Physical Intelligence近期推出的机器人基础模型π*0.6,一发布便展现出了强大的实力:
机器人能够连续制作意式浓缩咖啡一整天,数小时不间断地折叠各种衣物,甚至能精准组装工厂所需的包装纸箱。
在π*0.6的助力下,这些任务的成功率都达到了90%以上。
然而,深入研究其论文你会发现,π*0.6的真正突破并非连续工作13小时的咖啡制作,而是其引入了一种更为直观的学习方法——Recap:
这种新方法彻底颠覆了传统机器人仅通过逼近“真值”的模仿学习模式,让机器人能从自己的错误中成长。
网友们也纷纷表示:
从错误中学习,这不比人类还强?
π*0.6沿袭了Physical Intelligence一贯的VLA(视觉-语言-动作模型)路线,是今年四月份发布π0.5以来的最新VLA模型。
总的来说,π*0.6的核心贡献在于提出了一种通用训练方法——基于优势条件策略的经验与纠偏强化学习(RL with Experience & Corrections via Advantage-conditioned Policies,RECAP)。
RECAP让VLA能够使用奖励反馈和人类介入进行训练,主要包括三个阶段:
本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544809.html