当前位置:首页 > 科技资讯 > 正文

DemoGrasp:高效通用灵巧手抓取学习框架

在灵巧手通用抓取的研究中,传统强化学习(RL)面临高维动作空间、复杂奖励函数设计以及低效的探索过程等挑战。北京大学及BeingBeyond团队提出DemoGrasp框架,旨在解决这些问题。

该框架以一次成功的抓取演示轨迹为起点,通过轨迹编辑技术,适应不同物体与姿态,包括改变腕部位姿确定“抓取位置”,调整手指关节角度确定“抓取方式”。

DemoGrasp:高效通用灵巧手抓取学习框架 DemoGrasp  灵巧手抓取 强化学习 轨迹编辑 第1张

核心设计:单条演示 + 单步 RL

从“多步探索”到“全局编辑”

传统RL方法需要设计复杂的奖励函数和密集的学习流程。而DemoGrasp通过单条成功演示轨迹,将高维任务简化为轨迹编辑任务,再配合单步RL优化参数,实现虚实迁移。

DemoGrasp:高效通用灵巧手抓取学习框架 DemoGrasp  灵巧手抓取 强化学习 轨迹编辑 第2张

单条演示和轨迹编辑

通过调整轨迹中的手腕和手指抓取方式,即可适配不同物体。只需对单个物体采集一条成功轨迹,即可通过轨迹编辑适应新物体和新位置。

DemoGrasp:高效通用灵巧手抓取学习框架 DemoGrasp  灵巧手抓取 强化学习 轨迹编辑 第3张

单步强化学习

在仿真环境中,DemoGrasp利用IsaacGym创建多个并行世界进行训练。策略网络根据观测输出编辑参数,执行后根据“抓取成功”和“发生碰撞”获得奖励。

DemoGrasp:高效通用灵巧手抓取学习框架 DemoGrasp  灵巧手抓取 强化学习 轨迹编辑 第4张

视觉蒸馏,虚实迁移

通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。

实验结果:仿真和真机双优

在DexGraspNet数据集上,DemoGrasp性能显著优于现有方法,视觉策略成功率达到92%。此外,DemoGrasp还成功适配多种机器人形态,并在未见过的物体上达到高成功率。

DemoGrasp:高效通用灵巧手抓取学习框架 DemoGrasp  灵巧手抓取 强化学习 轨迹编辑 第5张

DemoGrasp不仅提升了灵巧抓取的泛化性和扩展性,还展示了融合少量人类演示实现高效机器人强化学习的潜力。