当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 1.5:让机器人学会“思考”

谷歌最新发布的Gemini Robotics 1.5系列模型,让机器人真正学会了「思考」,还能跨不同具身形态学习技能。这意味着,未来的机器人将成为和人类协作、主动完成复杂任务的智能伙伴。

谷歌再次为机器人换上「新大脑」!

近日,DeepMind发布了针对机器人和具身智能的Gemini Robotics 1.5系列家族模型,专为机器人和具身智能打造的新一代「大脑」。

Gemini Robotics 1.5系列包括Gemini Robotics 1.5Gemini Robotics-ER 1.5

  • Gemini Robotics 1.5,最先进的视觉-语言-行动模型,能将视觉信息和指令转化为机器人的运动指令以执行任务。
  • Gemini Robotics-ER 1.5,最强大的视觉-语言模型,能够对物理世界进行推理,直接调用数字工具,并创建详细的多步骤计划来完成任务。

它们结合在一起,就构建出一个强大的智能体框架。

谷歌Gemini 1.5:让机器人学会“思考” Gemini Robotics 1.5 具身智能 跨具身学习 智能体 第1张

在一段视频里,谷歌的研究科学家让两个机器人完成了两个不同任务。

第一个任务是垃圾分类。

Aloha根据旧金山的垃圾分类标准,将物品分类到不同的垃圾桶中。

第二个任务是打包行李。

Apollo帮忙打包去伦敦旅行的行李,并考虑到了天气预报,提醒会下雨,把雨伞也放进包里。

从最新的模型来看,机器人越来越有科幻电影里的感觉了!

为实体任务开启智能体体验

想象一下,一个机器人不仅能看懂你家客厅的杂物,还能规划、思考并亲手收拾干净。

Gemini Robotics 1.5正是朝这个目标迈出的关键一步。

它让机器人具备「思考后行动」的能力,能在复杂环境中像人类一样理解、推理并完成多步骤任务。

这一突破,有望打开通用机器人的新时代。

谷歌Gemini 1.5:让机器人学会“思考” Gemini Robotics 1.5 具身智能 跨具身学习 智能体 第2张

随后,Gemini Robotics-ER 1.5会为Gemini Robotics 1.5提供每一步的自然语言指令,后者则运用其视觉与语言理解能力直接执行具体动作。

先理解「环境」再「行动」

Gemini Robotics-ER 1.5是首个为具身推理优化的思维模型。

它在学术和内部基准测试中均实现了最先进的性能表现。

三「思」而后「行」

传统上,视觉-语言-动作模型直接将指令或语言规划转化为机器人的运动。

但Gemini Robotics 1.5不仅能翻译指令或规划,如今还能在行动前进行思考。

跨越不同形态的具身机器人学习

机器人形态各异、大小不一,具备不同的感知能力和自由度,这使得将从一个机器人学到的动作迁移到另一个机器人变得困难。

Gemini Robotics 1.5展现出卓越的跨具身学习能力。