当前位置:首页 > 科技资讯 > 正文

DemoGrasp:基于演示轨迹编辑的高效灵巧手通用抓取学习方法

在灵巧手执行通用抓取任务的研究领域,由于动作空间维度极高、任务需要长程探索且涉及多样化物体,传统强化学习(RL)方法常常面临探索效率低下、奖励函数设计复杂以及训练流程繁琐等多重挑战。

针对这些难题,北京大学与BeingBeyond团队联合提出了DemoGrasp框架——一种简洁而高效的通用灵巧手抓取学习方案。

DemoGrasp:基于演示轨迹编辑的高效灵巧手通用抓取学习方法 灵巧手抓取 强化学习 轨迹编辑 虚实迁移 第1张

该方法以一次成功的抓取演示轨迹为基础,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:调整腕部位姿以确定“抓取位置”,修改手指关节角度以确定“抓取方式”。

这一核心创新——将连续决策的多步马尔可夫决策过程(MDP)重构为基于轨迹编辑的“单步MDP”——显著提升了强化学习在抓取任务上的学习效率,并增强了迁移到真实机器人的性能。

DemoGrasp:基于演示轨迹编辑的高效灵巧手通用抓取学习方法 灵巧手抓取 强化学习 轨迹编辑 虚实迁移 第2张

核心设计:单条演示 + 单步 RL

从“多步探索”到“全局编辑”

传统RL的困境:高维动作空间的复杂探索过程

  • 动作空间:每一步都需要输出高自由度机器人所有关节的控制指令。
  • 奖励设计:需设计极其复杂的密集奖励函数,以引导机器人避开碰撞、接触物体、成功抓取并保持运动平滑。
  • 课程学习:需设计复杂的多阶段学习流程,辅助RL有效探索。

DemoGrasp 的核心创新在于用 “单条成功演示轨迹” 替代 “从零开始的探索”,将高维抓取任务转化为 “演示编辑任务”,再通过单步 RL 优化编辑参数,最终结合视觉模仿学习实现从仿真到真实的迁移。

DemoGrasp:基于演示轨迹编辑的高效灵巧手通用抓取学习方法 灵巧手抓取 强化学习 轨迹编辑 虚实迁移 第3张

单条演示和轨迹编辑

一条抓取特定物体的成功轨迹蕴含了抓取任务的通用模式(例如 “靠近物体→闭合手指→抬起手腕”),只需调整轨迹中的手腕和手指抓取方式,即可适配未见过的物体。

DemoGrasp仅需对一个物体(如一个方块)采集一条成功抓取演示轨迹,即可通过物体中心的轨迹编辑生成新物体、新位置的抓取行为:

  • 手腕位姿编辑:在物体坐标系下,对原始轨迹中的每一个手腕位点施加一个统一的变换 T∈SE(3),通过灵活调整手腕抓取方向和位置,适应不同大小、形状和合适抓取点的物体。
  • 手指关节编辑:对手指的抓取关节角施加一个增量 Δq_G,通过与演示轨迹的等比例插值,产生灵巧手从初始张开姿态平滑到达新抓取姿态的动作轨迹。

单步强化学习

在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界包含不同的物体和摆放场景。

学习过程:在每个仿真世界中,策略网络根据初始观测(末端位姿、物体点云和位姿)输出一组手腕和手指编辑参数,执行编辑后的轨迹,并根据执行过程中是否“抓取成功”和“发生碰撞”获得奖励。

通过海量试错和在线强化学习,策略学会根据不同形状物体的观测输出合适的编辑参数。

训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡训练24小时即可收敛到>90%的成功率。

视觉蒸馏,虚实迁移

仿真中的强化学习策略依赖精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。

  • 数据收集:在仿真中运行强化学习策略,记录上万条成功轨迹:包括渲染的相机RGB图像、每一时刻的机器人本体感知和关节角动作。
  • 模型训练:采用流匹配(Flow-Matching)生成模型方法,学习从图像观测和机器人本体感知预测动作。为缩小仿真到真机的视觉图像差异,训练使用了预训练的ViT提取图像特征,并在仿真数据收集时充分进行域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。
  • 多模态适配:DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。实验表明,双目RGB相机组合效果最佳,能够更好地减少遮挡、利用纹理和轮廓等信息成功抓取小而薄的物体。

实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性

DexGraspNet是灵巧抓取领域的权威数据集(包含3.4K物体)。

DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率达到92%,训练集到测试集的泛化差距仅1%,且适应大范围的物体初始位置随机化(50cm×50cm)、具备更强的空间泛化能力。

DemoGrasp:基于演示轨迹编辑的高效灵巧手通用抓取学习方法 灵巧手抓取 强化学习 轨迹编辑 虚实迁移 第4张

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的机器人(包括五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率。

高性能的虚实迁移

在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。

在常规大小的物体分类上,DemoGrasp成功率均达到90%以上;

对于扁平物体(如手机壳、剪刀)和小物体(如瓶盖、小黄鸭)的困难抓取任务,策略能够准确抓取物体、避免碰撞,成功率达到70%。

DemoGrasp:基于演示轨迹编辑的高效灵巧手通用抓取学习方法 灵巧手抓取 强化学习 轨迹编辑 虚实迁移 第5张

DemoGrasp框架支持对真实场景中更复杂抓取任务的扩展,例如在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的真机单次抓取成功率。对于光照、背景和物体摆放的大幅变化,策略的成功率没有明显下降。

DemoGrasp是融合少量人类演示实现高效机器人强化学习的新起点,将在未来支持功能性抓取、工具使用、双手操作等更多灵巧手任务。

训练时策略的闭环能力是当前方法的一个局限,后续研究将通过更加细粒度的演示轨迹拆分,增加强化学习策略的实时调整和错误恢复能力。

此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。

项目主页:https://beingbeyond.github.io/DemoGrasp/

论文:https://arxiv.org/abs/2509.22149