当前位置:首页 > 科技资讯 > 正文

小米具身机器人:从视觉盛宴到生产力飞跃

随着科技的迅猛发展,机器人无处不在的身影已不足为奇。然而,你是否好奇,除了舞台上的华丽表演,机器人还能在何处发挥真正的作用?

中央电视春节晚会只是冰山一角,多个智能公司纷纷宣布将智能机器人带至这个盛事。这一趋势表明,具身机器人正成为继AI大模型后,新一轮科技叙事的焦点。

小米具身机器人:从视觉盛宴到生产力飞跃 具身机器人 AI大模型 小米 VLA大模型 第1张

具身机器人行业正站在一个充满机遇与挑战的十字路口:一方面,它们以高难度动作展示令人惊叹的视觉盛宴;另一方面,行业迫切期待这些机器人能真正进入工厂,处理繁琐任务,释放生产力。

为了让机器人成为真正的生产力,其核心在于“自主性”。当前的技术验证阶段多依赖于“人工辅助”或“单步遥操”,这有助于积累数据与经验。然而,若机器人在执行过程中频繁停顿、修正缓慢,人类将不得不频繁介入,打断自动化流程。

只有当一个人能同时监管众多机器人,且每台机器人都能在长时间任务中持续决策、修正、执行时,具身智能才不是空谈。

小米具身机器人:从视觉盛宴到生产力飞跃 具身机器人 AI大模型 小米 VLA大模型 第2张

小米的具身VLA大模型正是针对这一挑战而诞生的。它实现了80ms推理延迟、30Hz实时控制频率,且在消费级显卡上表现优异。在多个仿真与真实环境测试中,该模型均刷新了现有记录。

值得一提的是,该模型是开源的。这意味着开发者可以在其基础上进行更深入的探索与改进。

技术创新:打造高效稳定的具身机器人

为了实现上述效果,小米在Xiaomi-Robotics-0上进行了三项核心技术创新,分别涉及架构设计、预训练策略与后训练机制。

双脑协同:提升动作生成精度与效率

小米采用了MoT架构,并巧妙地将工作分为“大脑”和“小脑”。大脑负责全局的看、听、理解和决策;小脑则引入DiT架构,负责输出连续的动作块。这种设计使得动作生成更加平滑与精准。

两阶段预训练:确保视觉与动作能力均衡发展

为了确保模型在引入动作能力后依然保持强大的视觉理解能力,小米采用了两阶段预训练。第一阶段学习粗粒度动作预测;第二阶段则保护原有的视觉理解能力,进行精细化动作训练。

改良异步:解决动作惯性难题

传统异步执行容易产生动作惯性。为此,小米引入了Λ形注意力掩码机制。这种机制使得模型在保证动作连续性的同时,能够重新审视环境,实现“连贯且可修正”的理想状态。

卓越表现:仿真与真实环境的双重验证

在多重技术创新的加持下,Xiaomi-Robotics-0展现出了极为硬核的测评结果。无论是在VLA仿真benchmark上横扫对手,还是在真实任务中保持高成功率与高吞吐,该模型都表现出色。

小米的务实之路:开源推动行业进步

小米在具身技术方面的路线选择务实进厂派。通过开源TacRefineNet与Xiaomi-Robotics-0等模型,小米希望推动行业技术进步。这种开放姿态不仅降低了技术门槛,还提升了透明度。

总之,小米的具身机器人技术正引领着行业向更高效、更智能的方向发展。未来可期!