当前位置:首页 > 科技资讯 > 正文

谷歌Gemini Robotics 1.5系列发布:机器人实现思考与跨形态智能学习

谷歌最新推出的Gemini Robotics 1.5系列模型,使机器人首次拥有了“思考”能力,并能跨越不同物理形态掌握技能。这标志着未来机器人将成为能与人类协同、主动处理复杂任务的智能伙伴。

谷歌再次为机器人升级了“智能核心”

近日,DeepMind发布了专为机器人和具身智能设计的Gemini Robotics 1.5系列模型,为机器人打造了新一代“大脑”。

Gemini Robotics 1.5系列包含Gemini Robotics 1.5Gemini Robotics-ER 1.5两款模型。

  • Gemini Robotics 1.5,作为先进的视觉-语言-行动模型,能将视觉数据和指令转化为机器人的运动命令以执行任务。
  • Gemini Robotics-ER 1.5,是最强大的视觉-语言模型,具备对物理世界进行推理的能力,可直接调用数字工具,并创建详细的多步骤计划来完成目标。

两者结合,构建出一个高效的智能体框架。

谷歌Gemini Robotics 1.5系列发布:机器人实现思考与跨形态智能学习 机器人技术  人工智能 Gemini模型 具身智能 第1张

在下面这个1分40秒的视频中,谷歌研究科学家让两个机器人执行了不同任务。

第一个任务是垃圾分类。

Aloha机器人根据旧金山的垃圾分类标准,将物品正确分到堆肥(绿桶)、回收(蓝桶)和垃圾(黑桶)中。

Aloha通过查阅规则并观察物品,成功完成了分类。

第二个任务是打包行李。

Apollo机器人被要求帮忙打包去伦敦旅行的行李,并放入针织帽。

Apollo主动查询天气,发现伦敦多日有雨,于是贴心地将雨伞也放入包中。

总体来看,在新系列模型的支持下,机器人越来越接近科幻电影中的智能表现!

为实体任务开启智能体体验

想象一下,机器人不仅能识别客厅杂物,还能规划、思考并亲手整理干净。

Gemini Robotics 1.5正是迈向这一目标的关键一步。

它赋予机器人“先思考后行动”的能力,使其在复杂环境中像人类一样理解、推理并完成多步骤任务。

这一突破有望开启通用机器人的新时代。

Gemini Robotics-ER 1.5擅长在物理环境中进行规划与逻辑决策,拥有顶尖的空间理解能力,支持自然语言交互,可评估任务成功率与进度,并能直接调用谷歌搜索等工具获取信息或使用任何第三方自定义功能。

谷歌Gemini Robotics 1.5系列发布:机器人实现思考与跨形态智能学习 机器人技术  人工智能 Gemini模型 具身智能 第2张

随后,Gemini Robotics-ER 1.5会为Gemini Robotics 1.5提供每一步的自然语言指令,后者则运用其视觉与语言理解能力直接执行具体动作。

Gemini Robotics 1.5还能协助机器人反思自身行为,以更好地解决语义复杂的任务,甚至能用自然语言解释其思考过程——这让决策更加透明。

这两款模型均基于核心Gemini模型家族构建,并通过不同数据集微调以专精于各自职能。

当它们协同工作时,可显著提升机器人对长周期任务和多样化环境的泛化能力。

先理解“环境”再“行动”

Gemini Robotics-ER 1.5是首个为具身推理优化的思维模型。

它在学术和内部基准测试中均实现了最先进的性能表现。

谷歌Gemini Robotics 1.5系列发布:机器人实现思考与跨形态智能学习 机器人技术  人工智能 Gemini模型 具身智能 第3张

下面展示了Gemini Robotics-ER 1.5的部分能力,包括物体检测与状态估计、分割掩码、指向识别、轨迹预测以及任务进度评估与成功检测。

谷歌Gemini Robotics 1.5系列发布:机器人实现思考与跨形态智能学习 机器人技术  人工智能 Gemini模型 具身智能 第4张

三“思”而后“行”

传统上,视觉-语言-动作模型直接将指令或语言规划转化为机器人的运动。

但Gemini Robotics 1.5不仅能翻译指令或规划,如今还能在行动前进行思考。

这意味着它能以自然语言生成内部推理与分析序列,从而执行需要多步骤或更深层语义理解的任务。

在下面这段3分40秒的视频,谷歌科学家展示了机器人如何完成更复杂的任务。

比如第一段将不同颜色的水果分类放到对应的盘子里。机器人需要能感知环境、分析颜色并逐步完成动作。

第二段Apollo被要求帮助分类洗衣物和打包物品。它能自主思考并在执行中展现出链式任务规划与反应能力,例如调整篮子来更好地捡起衣物,或对临时变化作出即时反应。

跨越不同形态的具身机器人学习

机器人形态各异、大小不一,具备不同的感知能力和自由度,这使得将从一个机器人学到的动作迁移到另一个机器人变得困难。

Gemini Robotics 1.5展现出卓越的跨具身学习能力。

它能将从一个机器人学到的动作迁移到另一个机器人,无需针对每种新形态专门调整模型。

这一突破加速了新行为的学习进程,助力机器人变得更智能、更实用。

在下面这段2分钟的视频里,谷歌科学家展示了不同“物种”机器人之间如何泛化学习。

在Gemini Robotics 1.5中,一个模型可以跨多个机器人使用。

比如Aloha在衣柜场景中已有经验,而Apollo从未见过,却能通过迁移学习完成开门、拿衣服等全新动作。

这展示了“跨具身学习”的潜力。

未来,不同场景中的机器人(如物流、零售)可互相学习,从而大大加快通用机器人研发的进程。

参考资料:

https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/