当前位置:首页 > 科技资讯 > 正文

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破

表面上看似乎轻描淡写,但实际上蕴含着深厚的技术功底。

近期,Physical Intelligence公司推出的机器人基础模型π0.6在网络上引发广泛关注,一经亮相便展示了其强大的能力:

该模型能够驱动机器人连续一整天制作意式浓缩咖啡,持续数小时折叠各种类型的衣物,并且精准组装工业环境中所需的包装纸箱。

得益于π*0.6的强大性能,这些复杂任务的成功率均超过了90%

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第1张

然而,深入研读其技术论文可以发现,相较于能够连续制作13小时咖啡这一表象,π*0.6的真正革命性突破在于它引入了一种更符合直觉的学习方法——Recap:

  • 指导:通过人类示范数据教会机器人基础动作
  • 辅导:借助纠错指导让机器人修正自身错误
  • 练习:从自主探索的经验中持续优化,逐步变强

这种方法彻底改变了传统机器人仅能通过模仿学习逼近“真值”的模式,使机器人具备了从自身错误中学习和成长的能力。

这一进展引发了网友的热议,有人感叹:

能够从错误中学习,这难道不比人类更厉害吗?

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第2张

顶尖VLA模型——π0.6详解

π0.6沿袭了Physical Intelligence公司一贯坚持的VLA(视觉-语言-动作模型)技术路线,是自今年四月份推出π0.5之后的最新迭代版本。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第3张

总体而言,π*0.6的核心创新在于提出了一种通用的训练框架——基于优势条件策略的经验与纠偏强化学习(简称RECAP)。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第4张

RECAP方法使得VLA模型能够整合奖励反馈和人类干预进行训练,主要包含以下三个阶段:

  • 离线强化学习:利用多机器人、多任务的示范数据(包含失败案例)训练价值函数和初始策略
  • 任务微调:通过人类示范数据将π*0.6适配到具体任务(如制作咖啡、折叠衣物、组装纸箱)
  • 在线优化:机器人在自主执行任务过程中获取稀疏奖励,同时结合专家的在线纠偏,更新价值函数,并借助优势条件化改进策略

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第5张

下面,我们将深入剖析其技术细节。

首先,为什么RECAP会选择价值函数而非标准的策略梯度方法?这其中蕴含着一个巧妙的设计思路。

一方面,真实世界中的机器人数据具有高度的异构性:包含了人类示范、专家干预,以及机器人在不同策略下产生的执行轨迹。标准的策略梯度方法依赖于on-policy的实时数据,很难有效吸收这些历史混合数据,因此天然不适用于具身智能场景。

另一方面,VLA模型采用Flow Matching生成连续动作,这类模型缺乏显式的log π(a|s),因此无法像传统策略那样直接对动作概率求梯度。

换言之,像PPO、REINFORCE这类经典强化学习算法在这种模型架构上难以发挥作用。

基于此,RECAP没有沿用传统RL的路径,而是创新性地引入了“优势条件化”策略:

模型依然采用监督学习的方式进行训练,但额外增加了一个输入通道,告知模型当前动作的优势值(advantage)。优势值越高,意味着该动作越值得被模仿学习。

于是,整个学习流程转变为:

价值函数负责评估动作质量 → 优势条件化负责传达评估结果 → VLA模型通过监督学习吸收所有数据中的有效信息

简言之,RECAP利用价值函数判断动作的优劣,然后通过优势条件化将原本需要强化学习求解的策略更新问题,转化为大模型所擅长的监督学习任务。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第6张

价值函数训练与策略提取

为了使模型能够从异构数据中学习,首先需要训练一个能够区分“好坏”的价值函数。无论数据来源是演示还是自主尝试,其处理流程如下:

  • 计算经验回报:针对每条轨迹,从当前时间步开始到结束计算累计回报,并进行归一化和离散化处理(划分为201个区间),从而为价值函数提供训练目标。
  • 训练分布式价值函数:采用多任务分布式价值函数预测离散价值分布,通过最小化交叉熵损失进行训练,随后提取连续价值函数,获取每个状态-动作对的真实价值。
  • 计算优势(advantage):将动作的实际回报与价值函数预测值相减得到优势值,并对其进行二值化处理,形成高/低优势指标,作为策略训练的额外输入,引导模型选择更优动作。

借助优势信号,我们可以高效地实现策略提取。这种方法完美契合了前文提到的离线RL需求:

  • 充分利用多样化的离策略数据:包括初始的人类示范、专家干预,以及机器人自主执行的轨迹(无论是最新策略还是早期策略产生的)。
  • 良好的可扩展性:该方法需适用于大型VLA模型,包括那些使用流匹配(flow matching)或扩散(diffusion)生成动作的模型。
  • 同时利用优劣数据:既要有效利用近似最优的动作,也要从次优动作中学习,这对于通过自主经验提升策略性能至关重要。

通过这种设计,RECAP成功地在不依赖昂贵的在线PPO更新的前提下,利用混合质量的离线数据实现了机器人的自我进化。

在线阶段:专家纠错与自主经验相结合

在机器人的自主执行阶段,RECAP通过两类数据不断优化策略:

  • 专家纠错:专家通过远程干预纠正严重错误(例如纸箱折叠顺序错误),每一次纠错动作都会被标记为“正向优势”,用于训练模型学习错误恢复策略。
  • 自主经验:模型自主完成的轨迹,无论成功与否,均被纳入训练数据。通过价值函数和优势指标自动筛选有效信号,优化精细动作的执行。

模型架构与性能表现

π*0.6基于π0.6构建,而π0.6则是对π0.5的进一步升级。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第7张

π0.6的骨干网络从Pi0、π0.5所使用的Gemma(2.6B参数)升级为Gemma3(4B参数),同时Action Expert的参数量也提升至860M。

在模型架构上,π0.6延续了π0π0.5的设计,采用流匹配(flow matching)和离散动作token输出来生成动作片段。

实验环节中,研究团队在三个高难度的真实世界任务上对模型进行了评估:折叠多样化的衣物、在工厂环境中组装纸箱,以及制作浓缩咖啡。

在最困难的任务(如折叠多样化衣物和制作咖啡)中,RECAP将任务的吞吐量(即每小时成功次数)提升了一倍以上,与仅进行监督微调(SFT)的模型相比,RECAP使任务失败率降低了约2倍。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第8张

此外,模型展现出极高的运行稳定性,例如能够连续13小时制作咖啡、连续2小时折叠衣物而无需人工干预重置。

从失败中学习:Recap的核心启示

正如前文所述,Recap最具启发性的亮点在于它使机器人能够从错误经验中学习

常言道“失败乃成功之母”,然而在传统的模仿学习乃至更广泛的监督学习范式中,逼近真值或最优解通常被视为最直接、最有效的策略。

这种方法在大规模语言模型(LLM)和其他机器学习系统中确实表现出色,且在数学上简洁优雅。

然而,对于现实世界中的机器人而言,仅仅知道如何正确执行任务,却不知道如何从错误中恢复,这将成为关键障碍。

在LLM等生成静态输出的AI系统中,监督学习假设数据是独立同分布的(i.i.d.),预测输出不会影响后续输入,因此偶尔的偏差不会引发致命问题。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第9张

但对于需要持续与外界交互的系统,例如机器人,情况则截然不同。

在模仿学习中,模型的每一个动作都会影响未来状态,一旦出现微小错误,就可能进入训练数据未曾覆盖的新状态,从而引发滚雪球式误差。这些误差不断累积,最终可能导致任务彻底失败。

因此,要让机器人实现“每次都成功”,仅仅复制示范数据是远远不够的。

解决这一问题的关键在于:让视觉-语言-动作(VLA)模型能够从自身实际犯过的错误中学习,如同人类通过反复练习不断纠正失误一样。

问题在于,这些经历应该如何标注?如果简单让模型复制过去的行为,它只会学会重复错误。关键在于如何从“坏数据”中提炼出有效的训练信号。

Recap通过在指导中辅以纠正,在练习中辅以强化来实现这一目标:

教练式纠偏(corrections):当机器人犯错时,专家通过远程操作介入,示范如何恢复错误、如何更优地完成任务。

与传统示范教学不同,这里不是教“该怎么做”,而是教“当事情出错时该如何修正”。

这种针对性纠偏弥补了传统模仿数据的不足,是防止错误累积的关键环节。

强化学习(reinforcement learning)

然而,仅仅依赖人类提供纠正措施是远远不够的,机器人需要具备自主学习能力。

机器人需要根据一个回合的总体结果自行判断行为的优劣,并通过迭代学习执行有益行为,同时避免有害行为。

由此,引出了基于对错奖励的强化学习方法。

如前所述,实现强化学习的核心在于解决信用分配(credit assignment)问题。

即需要判断机器人执行的哪些动作导致了好的结果,哪些动作导致了坏的结果。

在此,Recap通过训练一个价值函数(value function)来应对这一挑战,该函数能够预测当前状态相对于其他状态的优劣。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第10张

△图片来源:Reinforcement learning: An introduction

举例而言,在经典的格子世界问题中,智能体通过一次次尝试更新每个状态的价值:落在好格子上,价值提高;掉进坏格子里,价值降低。

随着价值评估逐渐准确,智能体自然会倾向于选择那些能通向高价值状态的动作。

同样的逻辑适用于机器人:价值函数的变化为模型提供了一个简单而强大的判断信号。

  • 使价值上升的动作:表示机器人更接近任务成功,应当被强化;
  • 使价值下降的动作:表示偏离任务目标,需要被抑制或修正。

例如,在折叠衣服任务中(左图),红色区域表示机器人突然将衣服拉起的错误动作,对应价值下降;而绿色区域表示机器人正确完成折叠时的动作,对应价值上升。

Physical Intelligence π0.6机器人模型:通过Recap方法从错误中学习实现突破 机器人  VLA模型 强化学习 Recap方法 第11张

可以说,价值函数帮助机器人识别“关键步骤”与“错误来源”,使其真正具备在复杂真实环境中从经验中不断变强的能力。

在训练好价值函数后,下一步是“策略抽取”:让策略(即VLA模型)以价值变化为条件进行训练。

所有数据——无论成功与否——都被保留,同时向模型明确哪些动作是有效的、哪些动作应避免。

这种优势条件化(advantage-conditioned)训练使模型能够在保留全部经验的前提下,从失败中学习,从而超越单纯依赖示范数据的表现。

综上,Recap不仅让机器人学会了执行任务,更重要的是,它让机器人掌握了自我纠正和优化策略的能力,为后续复杂任务的鲁棒性和效率提升提供了可扩展的解决方案。

与此同时,如果从好数据(示范)少,坏数据(错误经验)多的视角来看,π*0.6的突破可能更具深远意义——

它证明了机器人能够从真实执行中收集的“不完美经验”里,提炼出高效的学习信号,这也为后续机器人研究开辟了全新思路,提供了极具价值的探索方向。

参考链接: 

[1]https://www.pi.website/download/pistar06.pdf 

[2]https://www.pi.website/blog/pistar06 

[3]https://www.physicalintelligence.company/download/pi05.pdf 

[4]https://x.com/svlevine/status/1990574916622856290