当前位置:首页 > 科技资讯 > 正文

谷歌DeepMind发布Gemini 2.5:AI直接控制浏览器的革新

谷歌的革新之作——Gemini 2.5计算机使用模型震撼登场!

就在今日凌晨,谷歌DeepMind重磅发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use

鉴于谷歌不久前刚发布了Chrome DevTools (MCP),Gemini 2.5 Computer Use的问世并非特别意外。简而言之,与OpenAI的Computer-Using Agent (CUA)类似,DeepMind的这一模型能让AI直接操控用户的浏览器——在视觉理解和推理能力的基础上,该模型可协助用户在浏览器中执行点击、滚动和输入等操作。

谷歌DeepMind发布Gemini 2.5:AI直接控制浏览器的革新 Gemini 2.5  AI 浏览器控制 DeepMind 第1张

让我们先睹为快两个官方演示。

提示词:从https://tinyurl.com/pet-care-signup,获取所有加州居民的宠物详细信息,并将它们作为客人添加到我的spa客户关系管理系统https://pet-luxe-spa.web.app/。然后,与专家Anima Lavar预约10月10日早上8点之后的随访。访问原因与他们的治疗请求相同。

提示词:我的艺术俱乐部在展览前进行了任务头脑风暴。董事会混乱不堪,我需要您的帮助将任务归类到我创建的类别中。请访问sticky-note-jam.web.app,并确保笔记清晰地放在正确的部分。如果不在那里,请将它们拖过去。

可见,无论是收集网络信息还是执行任务,Gemini 2.5 Computer Use都能精准完成,且速度极快。

在相关基准测试中,Gemini 2.5 Computer Use的性能表现达到了SOTA水平:

谷歌DeepMind发布Gemini 2.5:AI直接控制浏览器的革新 Gemini 2.5  AI 浏览器控制 DeepMind 第2张

同时,其速度表现也优于其他几个对比模型:

谷歌DeepMind发布Gemini 2.5:AI直接控制浏览器的革新 Gemini 2.5  AI 浏览器控制 DeepMind 第3张

目前,开发者可通过Google AI Studio和Vertex AI的Gemini API获取这些能力。用户也可在Browserbase托管的演示环境中试用(最多支持5分钟流程,不支持用户中途接管):https://gemini.browserbase.com/

机器之心在该演示环境中进行了几次尝试。总体来看,Gemini 2.5 Computer Use在完成简单任务时准确度较高,但面对稍复杂任务时则容易失败。

例如,在执行「在维基百科上找到John Wick页面」的简单任务时,该模型表现优异。

然而,一旦任务稍复杂,如「在维基百科上找到John Wick页面,并总结其信息,给出中文版」,该模型便宣告失败。此外,让其「打开诺贝尔奖官方网站,给出今年诺贝尔将宣布的时间表」以及其他任务也均未能成功完成。

提示词:浏览jiqizhixin.com,找到近半年关于Gemini的报道,并整理成Markdown文件,同时进行总结。

此外,DeepMind已发布Gemini 2.5 Computer Use系统卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

谷歌DeepMind发布Gemini 2.5:AI直接控制浏览器的革新 Gemini 2.5  AI 浏览器控制 DeepMind 第4张

Gemini 2.5 Computer Use的工作原理

该模型的核心能力是通过Gemini API中新增的computer_use工具实现的,开发者在使用时需在一个循环流程(loop)中运行。

其输入应包含:

用户请求;

当前环境的截图;

最近执行动作的历史记录。

此外,输入中还可指定是否从默认支持的UI动作中排除特定功能及添加自定义函数。

谷歌DeepMind发布Gemini 2.5:AI直接控制浏览器的革新 Gemini 2.5  AI 浏览器控制 DeepMind 第5张

安全机制设计

谷歌还在博客中分享了该模型的安全机制设计。

谷歌表示:「负责任地构建智能体是使AI造福所有人的唯一途径。能够直接操作电脑的AI智能体带来了特有风险,包括用户恶意使用、模型意外行为以及网页环境下的提示词注入与诈骗。因此,我们在设计中高度重视安全防护。」

在Gemini 2.5 Computer Use模型中,谷歌直接在训练阶段融入安全机制以应对三类主要风险(详见系统卡)。

此外,谷歌还为开发者提供安全控制选项,防止模型自动执行潜在高风险或有害操作,例如:

损害系统完整性;

危及安全;

绕过验证码;

控制医疗设备。

结语

谷歌DeepMind携Gemini 2.5 Computer Use高调入场,不仅在多个基准测试上展示了领先的性能,也让AI智能体领域的竞争正式进入了白热化阶段。

从OpenAI到Anthropic,再到如今的谷歌,科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩,但这正是技术黎明前的真实写照。今天我们看到的不仅是一个新模型,更是一个清晰的信号:键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代正加速向我们驶来。