智东西9月26日报道,今日,谷歌DeepMind宣布推出Gemini Robotics 1.5系列机器人模型,借助思维链机制和模型协作,进一步提升了机器人的自主性,使其能够感知、计划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。谷歌将其称为AI agents进入物理世界的关键一步。
此次,谷歌DeepMind发布了两款模型:Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA(视觉-语言-动作)模型,能将视觉信息和文本指令转化为机器人的控制命令,主要充当机器人的小脑。该模型在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。
而Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型),能对物理世界进行推理,更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划,进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能,具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。
搭载上述两款新模型的机器人,因此解锁了完成复杂长链路任务的能力。例如,你可以让机器人查询当地垃圾分类要求,将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求,并驱动机器人完成任务。
开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。
技术报告:
https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
模型链接:
https://deepmind.google/models/gemini-robotics/gemini-robotics/
对机器人而言,大多数日常任务都需要上下文信息和多个步骤才能完成,这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务,谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。
具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策,也具有先进的空间理解能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判,并且可以调用谷歌搜索等工具来查找信息,或使用任何第三方用户定义的函数。
Gemini Robotics-ER 1.5为每个步骤提供自然语言指令,而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思维过程,使其决策更加透明。
这两个模型都建立在Gemini系列模型之上,这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后,两款模型使用不同的数据集进行了微调,以专注于各自的角色。当它们结合起来时,可以提高机器人泛化到长任务和多样化的环境的能力。
Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成:图像、文本以及机器人传感器与动作数据。
训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控到双臂协作再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台,包括ALOHA、Bi-arm Franka和Apollo人形机器人。
Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务
除了机器人专属数据集外,训练数据中还包括来自互联网的公开文本、图像和视频数据集,使得模型不仅具备机器人相关技能还能借助大规模世界知识提升泛化能力。
为了确保训练的高质量与安全性所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选确保数据遵循相关政策去除低质量样本与不符合规范的内容。
作为一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标研究者在训练中引入了一个关键机制——动作迁移(Motion Transfer, MT)。
MT的作用是打破不同机器人之间的“壁垒”。在传统方法中如果一个机器人学会了某项技能往往需要额外训练才能迁移到另一个机器人。
而在MT的加持下Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移(Zero-shot Transfer)。也就是说即便模型只在ALOHA机器人平台上学过“打开抽屉”它也能在Apollo人形机器人上完成同样的任务。
除了零样本迁移外Gemini Robotics 1.5还具备了具身思考(Embodied Thinking)的能力。它在执行动作之前会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。
与Gemini Robotics 1.5不同Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作而是专注于具身推理(Embodied Reasoning)负责高层次的任务规划与决策。
与传统依赖单一数据和特定平台的训练方式不同 Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制以及具身思考与推理范式让机器人能够跨平台迁移技能并在复杂环境中展现出类似人类的适应能力扩展了机器人模型的通用性。
本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260541985.html