创新性技术显著增强了具身智能系统的任务成功率与运行效率。
完全基于真实世界数据训练的具身智能系统,究竟能展现出何种程度的能力水平?
近日,美国具身智能初创公司 Physical Intelligence(简称 PI 或 π)正式发布了其最新一代机器人基础模型 π0.6。
PI 是一家总部位于旧金山的机器人与人工智能企业,致力于将通用人工智能从数字领域拓展至物理世界:其首个机器人通用基础模型命名为 π₀,使得单一软件能够操控多种物理平台执行多样化任务。
在 2024 年,PI 获得了超过 4 亿美元的融资,估值突破 20 亿美元,成为具身智能领域最受关注的创新者之一。
PI 的技术路径强调「视觉-语言-动作」(VLA)模型,通过大规模机器人感知与动作数据训练出具备泛化能力的策略,使机器人不再局限于预设动作,而能在未知环境中灵活应对。
机器学习与决策控制领域的知名专家、加州大学伯克利分校副教授、Physical Intelligence 联合创始人 Sergey Levine 表示,搭载这一模型的机器人已能在公司办公室内为员工制作拿铁、美式和意式咖啡。
Sergey Levine 指出,通过对 π*0.6 模型进行微调,可使其在多种任务上表现卓越,除了处理衣物等复杂任务外,其他任务成功率可达 90%,且任务处理效率大幅提升。
在 Physical Intelligence 的一篇博客中,工程师们详细阐述了 π*0.6 的机制与性能。
设想一下,组装一个纸箱需要哪些步骤?
作为人类,要高效完成这一任务,首先会学习基础知识:有效方法、常见错误与正确技巧。其次,优秀导师不仅演示操作,还会指导并纠正实际操作中的失误。但仅靠指导不够:最终通过反复练习熟能生巧,形成本能反应。
过去一年,机器人学习领域的许多成果仅依赖于第一步——通过人类演示训练机器人。仅凭这一步,让机器人完成一半任务不难,但确保每次成功却非常困难,更别说在复杂实际任务中达到人类效率。这是个大问题,因为实际机器人任务需要可靠且快速运行的系统。
基于此,Physical Intelligence 开发了名为Recap(基于优势条件策略的经验与纠错强化学习)的方法,它整合了所有三个步骤:通过演示训练机器人、通过纠错指导机器人,并使其能从自主经验中改进。作者使用 Recap 改进了视觉-语言-动作 (VLA) 模型 π(0.6),使其能稳健高效地执行复杂任务,如制作意式浓缩咖啡、组装纸箱和折叠各类衣物。
经过强化学习训练的模型称为 π*(0.6),利用 Recap 在自主经验上训练 π(0.6) 可将一些最困难任务的吞吐量提高一倍以上,并将失败率降低 2 倍或更多。这使得 π(0.6) 达到了实际应用所需的鲁棒性水平:它能连续运行一整天制作意式浓缩咖啡,在新家中数小时不间断折叠衣物,以及组装工厂实际包装所需的纸箱。
我们可能疑惑,为何 VLA 仅依靠监督学习(即模仿)时难以持续成功,而监督学习在 LLMs 和其他机器学习系统中却效果显著。这个原因已被深入理解,但此前缺乏实用解决方案。
当一个通过模仿训练的 VLA 控制机器人时,它会像任何模型一样犯小错误——可能将夹爪放在略微错误的位置、抓取失败或撞倒物体。
由于机器人在真实物理环境中交互,这些错误会产生与训练数据略有不同的情境,而在这些情境中,错误会累积。机器人更可能犯下更大错误,小错误可修复,但累积错误会导致失败。
对于产生静态输出的 AI 系统(如 LLMs),这不是大问题;但在模型作为持续与外部环境互动的控制策略时(如现实世界中的机器人),这就是特定挑战。实际上,这意味着让 VLA 偶尔完成任务相对容易,但让它们可靠、稳定地实现成功却非常困难。
如果我们使用来自 VLA 自身行为的额外数据,本质上让它在真实世界中纠正实际错误,就像人类通过练习不断提高一样,通过允许 VLA 反复练习,就可以解决累积错误问题。
但对于这种经验,能用什么作为真实标签?如果我们训练策略只是复制它之前做过的事情,那只是教会它继续犯相同错误。让模型能从经验中学习的关键,是从糟糕经验数据中提取良好训练信号。
Recap 使我们能从「质量较差」的经验数据中获得良好训练信号,途径包括两种:
纠正式指导(coaching with corrections):由专家展示机器人如何修复错误或做得更好;
强化学习(reinforcement learning):机器人依据整个任务过程的最终结果自行判断哪些行为更好或更差,并通过迭代学习强化好行为、避免不好行为。
纠正式指导要发挥作用,专家远程操作人员需提供纠正信号,展示如何从机器人在真实世界中实际犯下的错误中恢复。
实践中,这意味着运行当前最强策略,并在机器人出错时通过手动远程接管(teleoperation)控制。这种干预可作为监督信号使用,但与用于训练原始策略的演示不同,该干预针对策略实际将机器人带入的那些状态,从而解决错误累积问题。
然而,仅依靠纠正式指导有限:这类监督质量受制于人类是否能及时判断应当介入以及是否能提供高质量纠正。对于明显或严重错误,这种方式奏效,但若想获得最佳性能——即快速、可靠且一致地完成任务——机器人必须能自主学习。
从任务结果中通过强化学习进行学习的核心挑战在于信用分配(credit assignment):即理解机器人执行的哪些动作导致好结果,哪些导致坏结果。
如果机器人以错误方式抓起意式咖啡机手柄(portafilter),它在插入时可能会遇到困难。错误并不发生在插入阶段,而是在最初抓取动作上。正确信用分配方法应当将该失败归因于抓取错误,即使失败只是在之后步骤中表现出来。
仅通过模仿学习训练的基础模型在将手柄插入意式咖啡机时会遇到困难。导致失败的错误可能发生在更早阶段。
信用分配是强化学习中的关键挑战。Recap 通过训练价值函数来解决这一问题。
举例来说,在象棋这类游戏中,智能体只有在赢得比赛时才会获得奖励,那么价值函数就会根据当前棋局预测智能体获胜概率。使价值函数上升的动作是应该被鼓励的好动作;而使价值函数下降的动作则应被抑制。
下图展示了价值函数在任务执行过程中所做的预测。
在一个回合中不同时间点的值函数预测。这个值函数预测完成任务的(负)步数。请注意,当机器人取得进展时预测会增加,而当进展很小时预测会保持平稳。
在训练好价值函数后,我们需要利用它来得到更好策略。实现这一点的方法有多种,但我们需要的是一种可扩展、并且能与大型 VLA 模型结合使用的方法。
在 Recap 中,Physical Intelligence 将 VLA 在价值变化上调整:使用所有训练数据(包括好和不好动作),同时告诉 VLA 哪些动作是好是坏。由于模型在拥有大量数据时通常具有最佳泛化能力,在训练中保留全部数据并仅仅将价值变化注释作为输入,是一个非常具有吸引力的选择。
在强化学习中,这种「价值变化」被称为优势(advantage)。在执行阶段,我们只需让这个按优势条件化的 VLA 去选择高优势动作,从而得到比训练数据本身更优的策略。
Physical Intelligence 使用 Recap 来训练 π(0.6) 模型,使其能执行多项真实世界应用。π(0.6) 是基于 π(0.6) 模型训练得到的,而 π(0.6) 则是早期 π(0.5) 模型的改进版本。
它采用了稍大一些的骨干网络,并能处理更加异质化的提示与条件信息,如下图所示。关于 π(0.6) 模型架构的更详细描述,请参阅模型卡。
https://website.pi-asset.com/pi06star/PI06_model_card.pdf
Physical Intelligence 研究了三个应用场景:制作意式咖啡饮品、折叠多种类型衣物,以及组装包装用纸盒。Recap 第一阶段,是使用离线强化学习(offline RL)对 π*(0.6) 模型进行预训练,这与基础 π(0.6) 和 π(0.5) VLA 所采用的标准监督学习方法形成对比。在此基础上,再通过示范数据对 π(0.6) 进行任务级微调,随后利用机器人在真实环境中收集的额外数据继续通过强化学习进行训练,其中包括专家提供的纠正(用于修复大错误)以及来自奖励的反馈(用于根据自主经验进一步改进)。
下方图表对比了不同阶段模型的性能:监督学习训练的基础 π(0.6) 模型;使用离线强化学习预训练的基础 π(0.6) 模型(即 Recap 第一阶段);通过示范对每个任务微调后的 π(0.6) 模型;以及结合机器人真实执行经验进行微调后的最终 π(0.6) 模型。对每个任务,Physical Intelligence 测量了吞吐量(每小时成功完成任务次数)以及成功率。
值得注意的是,对于一些最困难任务(如制作意式咖啡),加入机器人真实执行经验后,吞吐量和成功率都提升了超过两倍。
Recap 在所有任务中都显著提升了吞吐量,并且通常还能带来成功率的大幅提升。
从质量上看,最终的 π*(0.6) 模型在结合示范数据和机器人自身经验学习后,能够熟练掌握每个应用任务。下面视频展示了这些任务的一些评估亮点。
π*(0.6) 在每项真实世界任务中的质性示例。π(0.6) 能够应对多种条件,并从错误中恢复。
每一项任务都包含许多挑战,使得实现高吞吐量的自主执行变得困难。
箱子组装任务需要执行高度复杂的物理操作——在保持箱体结构的同时折叠箱盖。此外,该任务需要反复执行并处理各种边缘情况,正如上方视频中所示:有时扁平纸箱会粘在一起,导致机器人一次抓起多个箱子,此时它必须将多余箱子放回去;有时在出现错误后还需要重新折叠箱子。
衣物折叠任务则需要处理高度的多样性,并在不同初始条件和不同衣物种类之间实现泛化。这非常困难,因为不仅不同衣物需要不同折叠策略,不同材质的布料也具有不同的动力学特性。
最后,意式咖啡制作任务需要处理一个跨度非常长的操作序列,新模型使用了类似于之前 π(0.5) 模型的高层语言策略。该任务还涉及倒液体、判断咖啡研磨机和意式咖啡机何时完成工作、以及在制作结束后用布巾清洁机器。
这些步骤对当前最先进的 VLA 模型来说都极具挑战性,而π(0.6) 能够以超过 90% 的成功率完成这些任务。
目前,机器人基础模型主要依赖人为收集的示范数据(例如通过远程操作)。这种方式使训练过程简单直接,但也带来了严重障碍:数据需要大量人工投入,模型的速度与可靠性受限于人类的操作水平,而机器人本身无法通过经验不断变得更好。像 Recap 这样的方法在原理上能够解决这些限制,因为它还能直接从机器人自身的经验中学习。
随着机器人在真实世界中的部署越来越广泛,从经验中学习可能会成为一种重要的数据来源,并成为实现高性能模型不可或缺的组成部分。
就像人类通过「指导 — 辅导 — 练习」的组合方式成长一样,机器人同样将从多种不同的数据来源中学习。但这些数据来源会承担不同的角色:专家示范用于定义新的行为,纠正式指导用于改进策略,而自主经验 —— 可能是规模最大的数据来源 —— 则用于打磨行为,使其最终有可能达到超越人类的表现。
参考链接:
https://www.pi.website/blog/pistar06#where-are-we-headed
本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120377.html