当前位置：首页 > 科技资讯 > 正文

DemoGrasp：基于演示轨迹编辑的高效灵巧手通用抓取学习方法

在灵巧手执行通用抓取任务的研究领域，由于动作空间维度极高、任务需要长程探索且涉及多样化物体，传统强化学习（RL）方法常常面临探索效率低下、奖励函数设计复杂以及训练流程繁琐等多重挑战。

针对这些难题，北京大学与BeingBeyond团队联合提出了DemoGrasp框架——一种简洁而高效的通用灵巧手抓取学习方案。

DemoGrasp：基于演示轨迹编辑的高效灵巧手通用抓取学习方法灵巧手抓取强化学习轨迹编辑虚实迁移第1张

该方法以一次成功的抓取演示轨迹为基础，通过对轨迹中的机器人动作进行编辑，以适应不同物体与姿态：调整腕部位姿以确定“抓取位置”，修改手指关节角度以确定“抓取方式”。

这一核心创新——将连续决策的多步马尔可夫决策过程（MDP）重构为基于轨迹编辑的“单步MDP”——显著提升了强化学习在抓取任务上的学习效率，并增强了迁移到真实机器人的性能。

DemoGrasp：基于演示轨迹编辑的高效灵巧手通用抓取学习方法灵巧手抓取强化学习轨迹编辑虚实迁移第2张

核心设计：单条演示 + 单步 RL

传统RL的困境：高维动作空间的复杂探索过程

DemoGrasp 的核心创新在于用 “单条成功演示轨迹” 替代 “从零开始的探索”，将高维抓取任务转化为 “演示编辑任务”，再通过单步 RL 优化编辑参数，最终结合视觉模仿学习实现从仿真到真实的迁移。

DemoGrasp：基于演示轨迹编辑的高效灵巧手通用抓取学习方法灵巧手抓取强化学习轨迹编辑虚实迁移第3张

一条抓取特定物体的成功轨迹蕴含了抓取任务的通用模式（例如 “靠近物体→闭合手指→抬起手腕”），只需调整轨迹中的手腕和手指抓取方式，即可适配未见过的物体。

DemoGrasp仅需对一个物体（如一个方块）采集一条成功抓取演示轨迹，即可通过物体中心的轨迹编辑生成新物体、新位置的抓取行为：

手腕位姿编辑：在物体坐标系下，对原始轨迹中的每一个手腕位点施加一个统一的变换 T∈SE(3)，通过灵活调整手腕抓取方向和位置，适应不同大小、形状和合适抓取点的物体。
手指关节编辑：对手指的抓取关节角施加一个增量 Δq_G，通过与演示轨迹的等比例插值，产生灵巧手从初始张开姿态平滑到达新抓取姿态的动作轨迹。

在仿真环境中，DemoGrasp利用IsaacGym创建了数千个并行世界，每个世界包含不同的物体和摆放场景。

学习过程：在每个仿真世界中，策略网络根据初始观测（末端位姿、物体点云和位姿）输出一组手腕和手指编辑参数，执行编辑后的轨迹，并根据执行过程中是否“抓取成功”和“发生碰撞”获得奖励。

通过海量试错和在线强化学习，策略学会根据不同形状物体的观测输出合适的编辑参数。

训练效率：在这个紧凑动作空间的单步MDP问题上，DemoGrasp使用单张RTX 4090显卡训练24小时即可收敛到>90%的成功率。

仿真中的强化学习策略依赖精确的物体点云和位姿，这在现实中难以获取。DemoGrasp通过视觉模仿学习，将策略蒸馏成与真机对齐的RGB策略，实现从仿真到真机的直接迁移。

数据收集：在仿真中运行强化学习策略，记录上万条成功轨迹：包括渲染的相机RGB图像、每一时刻的机器人本体感知和关节角动作。
模型训练：采用流匹配（Flow-Matching）生成模型方法，学习从图像观测和机器人本体感知预测动作。为缩小仿真到真机的视觉图像差异，训练使用了预训练的ViT提取图像特征，并在仿真数据收集时充分进行域随机化（随机化光照、背景、物体颜色纹理、相机参数等）。
多模态适配：DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。实验表明，双目RGB相机组合效果最佳，能够更好地减少遮挡、利用纹理和轮廓等信息成功抓取小而薄的物体。