当前位置:首页 > 科技资讯 > 正文

DemoHLM框架革新:单次演示驱动人形机器人泛化移动操作

近期,北京大学与BeingBeyond的联合研究团队推出了一项创新性框架DemoHLM,为人形机器人的移动操作领域带来了全新解决方案。该框架仅需在仿真环境中采集一次人类示范,即可自动化生成大规模训练数据,赋能真实人形机器人在多样化任务场景中实现泛化操作,从而有效应对了传统方案中硬编码依赖性强、真实数据采集成本高昂以及跨场景适应能力薄弱等核心挑战。

DemoHLM框架革新:单次演示驱动人形机器人泛化移动操作 人形机器人 移动操作 仿真数据生成 分层控制 第1张

核心挑战:人形机器人移动操作的“三重困境”

移动操作能力是人形机器人融入人类生活与工作环境的关键(例如搬运物品、开启门扉、传递物件等),但长期以来受限于三大瓶颈:

  • 数据效率低下:传统技术路径需要收集大量真实机器人的遥操作数据,成本极高且难以规模化复制;
  • 任务泛化能力不足:依赖于针对特定任务设计的硬编码(如预设子任务流程、定制化奖励函数),更换任务即需从头开发;
  • 仿真至现实迁移困难:基于仿真环境训练的策略常因物理引擎差异、传感器噪声等问题,难以在真实机器人上稳定部署。

现有解决方案要么局限于仿真环境验证,要么需要消耗数百小时的真实遥操作数据进行训练,难以满足家庭、工业等复杂现实场景的实用化需求。

DemoHLM框架革新:单次演示驱动人形机器人泛化移动操作 人形机器人 移动操作 仿真数据生成 分层控制 第2张

DemoHLM:分层架构与数据生成革新,破解三重困境

DemoHLM框架的核心创新在于“分层控制”与“单演示数据生成”双引擎驱动,在保障全身运动稳定性的同时,实现了极低数据成本下的泛化学习能力。

分层控制架构:兼顾灵活性与稳定性

DemoHLM采用“低层全身控制器+高层操作策略”的分层设计,巧妙解耦了“基础运动控制”与“高级任务决策”:

  • 低层全身控制器(基于强化学习训练):负责将高层指令(例如躯干目标速度、上半身关节目标姿态)转化为精准的关节力矩输出,同时确保机器人具备全向移动能力与动态平衡能力。该控制器基于AMO框架进行优化,运行频率高达50Hz,能够稳定处理抓取、推物等高接触场景下的力交互;
  • 高层操作策略(基于模仿学习):通过视觉闭环反馈(RGBD相机感知物体6D位姿),向低层控制器发送任务导向的指令,实现复杂的操作规划与决策。支持ACT、Diffusion Policy等多种行为克隆算法,运行频率为10Hz,侧重于长时域的任务规划。

此外,研究团队为机器人配备了2自由度主动颈部关节与RGBD相机(Intel RealSense D435),通过比例控制器实现“视觉追踪稳定”,模拟人类在操作过程中主动调节视线的能力,有效避免了因物体遮挡导致的感知失效问题。

单演示数据生成:从“一次演示”到“海量轨迹”

DemoHLM最关键的突破在于无需真实世界数据采集,仅利用一次仿真环境中的遥操作演示即可生成海量多样化的训练数据,其核心流程分为三步:

  • 演示采集:通过Apple Vision Pro捕捉人类动作,并映射到仿真环境中的Unitree G1机器人模型上,记录一条成功的操作轨迹(包含关节位姿、末端执行器位姿、物体位姿等信息);
  • 轨迹转换与分段:将单条演示轨迹智能拆解为“移动阶段、预操作阶段、操作阶段”三个子阶段,并通过巧妙的坐标系转换实现泛化——

预操作阶段:采用“物体中心坐标系”,确保机器人在不同的物体初始位姿下,末端执行器都能精确对齐操作目标;

操作阶段:切换为“本体感知坐标系”,解决了在抓取或搬运过程中末端执行器与物体需保持相对静止的轨迹生成难题;

  • 批量合成:在仿真环境中随机初始化机器人位姿与物体位姿,自动调整各阶段指令并回放演示片段,从而生成数百至数千条成功的训练轨迹,构建出高质量的数据集。

此过程完全自动化,绕过了传统模仿学习中繁重的“数据采集地狱”,同时通过随机化初始条件,天然增强了学习策略对于不同场景的泛化能力。

实验验证:从仿真到真实的稳定表现

研究团队在仿真环境(IsaacGym)真实世界的Unitree G1机器人平台上,针对搬箱子、开门、倒水、递物等10项移动操作任务进行了全面验证,核心结果如下:

DemoHLM框架革新:单次演示驱动人形机器人泛化移动操作 人形机器人 移动操作 仿真数据生成 分层控制 第3张

仿真环境:数据量与性能正相关,算法兼容性强

  • 数据效率显著提升:随着合成数据量从100条增加至5000条,所有测试任务的执行成功率均大幅提升。例如,“PushCube”任务成功率从52.4%升至89.3%,“OpenCabinet”任务成功率从18.9%升至67.3%,且性能提升的边际收益逐渐收敛,证明了数据生成流水线的高效性;
  • 算法适配灵活:在ACT、MLP、Diffusion Policy三种行为克隆算法上均表现出优异性能,其中ACT与Diffusion Policy性能接近(如“LiftBox”任务成功率均超过96%),而简单的MLP由于缺乏时序建模能力稍显不足,这验证了框架对不同学习算法的良好兼容性。

DemoHLM框架革新:单次演示驱动人形机器人泛化移动操作 人形机器人 移动操作 仿真数据生成 分层控制 第4张

真实世界:Sim-to-Real零样本迁移稳定,多任务成功落地

在经过改装(加装3D打印夹爪、2自由度颈部及单目RGBD相机)的真实Unitree G1机器人上,DemoHLM实现了零样本迁移,在10项任务中:

  • 成功率100%的任务:LiftBox(搬箱子)、PressCube(按压立方体)均实现了5次尝试全部成功,操作流程与仿真环境高度一致;
  • 高稳定性任务:PushCube(推动方块)4/5成功、Handover(传递物品)4/5成功,仅因真实地面摩擦系数差异导致个别尝试失败;
  • 复杂任务取得突破:GraspCube(抓取方块)、OpenCabinet(开启柜门)等需要精细力控的任务,成功率超过60%,在同类基于仿真训练的方法中处于领先水平。

DemoHLM框架革新:单次演示驱动人形机器人泛化移动操作 人形机器人 移动操作 仿真数据生成 分层控制 第5张

取得上述成果的关键在于:高层策略通过视觉闭环实时调整发送给低层的指令,有效抵消了仿真与真实世界之间的物理差异(如关节跟踪误差),确保了操作行为的一致性。

行业价值与未来展望

DemoHLM的突破为人形机器人的实用化部署提供了关键的技术支撑:

  • 大幅降低落地成本:单次演示结合仿真数据生成,将训练成本从“数百小时真实遥操作”降至“小时级仿真演示”,显著降低了行业应用门槛;
  • 显著提升泛化能力:无需针对每个任务进行特定设计,一套框架即可适配家庭搬运、工业辅助、服务交互等多场景需求,加速机器人从“实验室”走向“真实环境”;
  • 推动技术融合演进:其分层架构易于兼容未来升级,如集成触觉传感器、多相机感知系统等,为应对更复杂的场景(如存在视觉遮挡、操作柔性物体)奠定基础。

团队也指出了当前框架的局限:长期依赖仿真数据可能存在累积的Sim-to-Real偏差;单RGB-D相机在极端遮挡场景下性能可能受限;且目前暂未支持对训练数据中未出现过的物体进行操作。未来研究方向包括探索“仿真与真实数据混合训练”、“多模态感知融合”等,以进一步提升系统的鲁棒性与通用性。

总结

DemoHLM框架以“单次仿真演示驱动泛化移动操作”为核心理念,通过创新的分层控制架构与高效的数据生成流水线,成功破解了人形机器人训练成本高、任务泛化差、仿真到现实迁移难三大痛点。

其在Unitree G1真实机器人上的成功验证,彰显了该框架的实用价值与潜力,为下一代人形机器人在家庭、工业及服务场景的规模化应用开辟了一条重要的技术路径。

论文链接:

https://arxiv.org/pdf/2510.11258

项目主页:

https://beingbeyond.github.io/DemoHLM/