新方法显著提高了具身智能的效能和效率。
当具身智能完全基于现实世界数据训练时,它能达到何种水平?
本周,美国具身智能创业公司 Physical Intelligence(简称 PI 或 π)发布了其最新机器人基础模型 π*0.6。
PI 是一家位于旧金山的机器人与 AI 公司,其使命是将通用人工智能从数字世界带入物理世界:他们的首个机器人通用基础模型名为 π₀,让同一套软件控制多种物理平台执行各类任务。
2024 年,PI 获得超过 4 亿美元融资,估值突破 20 亿美元,成为具身智能领域的佼佼者。
PI 的技术路线聚焦于「视觉 - 语言 - 动作」(VLA)模型,通过大规模机器人感知与动作数据训练出具备泛化能力的策略,使机器人能在未知环境中灵活执行。
机器学习与决策控制领域的知名专家、UC Berkeley 副教授、Physical Intelligence 联合创始人 Sergey Levine 表示,搭载这个模型的机器人已经可以在公司办公室为人们制作咖啡了。
Sergey Levine 表示,通过对 π*0.6 模型进行微调,可以使其在多种任务上表现出色,除了处理衣物之外的任务都可以达到 90% 成功率,而且任务处理的效率也大幅提升了。
在 Physical Intelligence 的一篇博客中,工程师们详细介绍了 π*0.6 的机制与性能。
想象一下,组装一个纸箱需要哪些步骤?
作为人类,想要快速高效地完成这个任务,首先你会请教基础知识,其次需要一位优秀的老师演示并指导你操作,最后通过反复练习达到熟练掌握。但仅依靠指导是不够的:最终熟能生巧。同样的,机器人学习也需要经过类似的步骤。
过去一年,我们在机器人学习领域看到的一些成果仅使用了第一步 —— 通过人提供的演示来训练机器人。虽然可以让机器人完成一半的任务,但要让它每次都成功却非常困难。因此,Physical Intelligence 开发了一种名为Recap(基于优势条件策略的经验与纠错强化学习)的方法。
Recap 实现了所有三个步骤:通过演示训练机器人、通过纠错指导机器人,并使其能够从自主经验中改进。作者使用 Recap 改进了最新版本的视觉 - 语言 - 动作 (VLA) 模型 π(0.6),使其能够稳健高效地执行复杂任务。
这款经过强化学习训练后的模型称为 π*(0.6),利用 Recap 在自主经验上训练 π*(0.6) 可以将一些最困难任务的吞吐量提高一倍以上,并将失败率降低 2 倍或更多。这使得 π*(0.6) 达到了实际应用所需的鲁棒性水平。
我们可能会想,为什么 VLA 仅依靠监督学习(即模仿)时难以持续取得成功。这个问题的原因实际上已经被很好地理解了,但一直缺乏实用的解决方案。
当 VLA 控制机器人时,它会犯一些小错误 —— 它可能把夹爪放在略微错误的位置、抓取失败,或撞倒一个物体。由于机器人在真实的物理环境中进行交互,这些错误会产生与训练数据略有不同的情境。
仅通过模仿学习训练的基础模型在将手柄插入意式咖啡机时会遇到困难。导致失败的错误可能发生在更早的阶段。
Recap 使我们能够从「质量较差」的经验数据中获得良好的训练信号。包括:
在训练好价值函数之后,我们需要利用它来得到一个更好的策略。在 Recap 中,Physical Intelligence 将 VLA 在价值变化上调整:使用所有训练数据(包括好的和不好的动作),同时告诉 VLA 哪些动作是好是坏。
Physical Intelligence 使用 Recap 来训练 π*(0.6) 模型,使其能够执行多项真实世界应用。Recap 的第一阶段是使用离线强化学习(offline RL)对 π*(0.6) 模型进行预训练。在此基础上再通过示范数据对 π*(0.6) 进行任务级微调。
Recap 在所有任务中都显著提升了吞吐量,并且通常还能带来成功率的大幅提升。
目前,机器人基础模型主要依赖人为收集的示范数据(例如通过远程操作)。这种方式使训练过程简单直接,但也带来了一个严重的障碍:数据需要大量人工投入。像 Recap 这样的方法在原理上能够解决这些限制,因为它还能直接从机器人自身的经验中学习。
参考链接:
本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544657.html