当前位置:首页 > 科技资讯 > 正文

谷歌DeepMind发布Gemini 2.5计算机使用模型,AI智能体竞争进入白热化

谷歌的Computer Use模型终于正式登场,引发行业广泛关注!

近日,谷歌DeepMind隆重推出了基于Gemini 2.5架构的计算机使用模型Gemini 2.5 Computer Use

鉴于谷歌前些天刚发布了Chrome DevTools (MCP),这款新模型的问世并不完全出乎意料。简单来说,与OpenAI的Computer-Using Agent (CUA)相似,DeepMind的这一模型能够让AI直接操作用户的浏览器——依托强大的视觉理解与推理能力,它可以协助用户在浏览器中完成点击、滚动和输入等各种操作。

谷歌DeepMind发布Gemini 2.5计算机使用模型,AI智能体竞争进入白热化 谷歌DeepMind  Gemini 2.5 计算机使用模型 AI智能体 第1张

先来欣赏两个官方演示案例。

提示词:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at  https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示词:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app  and ensure notes are clearly in the right sections. Drag them there if not.

可见,无论是从网络收集信息并执行操作,还是整理杂乱的便签笔记,Gemini 2.5 Computer Use都能精准迅速地完成任务,效率颇高。

在相关基准测试中,Gemini 2.5 Computer Use的性能表现达到了当前最先进水平:

谷歌DeepMind发布Gemini 2.5计算机使用模型,AI智能体竞争进入白热化 谷歌DeepMind  Gemini 2.5 计算机使用模型 AI智能体 第2张

同时,其运行速度也优于其他几个对比模型:

谷歌DeepMind发布Gemini 2.5计算机使用模型,AI智能体竞争进入白热化 谷歌DeepMind  Gemini 2.5 计算机使用模型 AI智能体 第3张

目前,开发者已能通过Google AI Studio和Vertex AI的Gemini API获取这些功能。用户也可以在Browserbase托管的演示环境中进行体验(最多仅支持5分钟流程,且不允许用户中途干预):https://gemini.browserbase.com/

机器之心对该演示环境进行了多次测试。整体来看,Gemini 2.5 Computer Use在处理简单任务时准确率很高,但任务稍显复杂就容易出现失败。

例如,在执行“在维基百科上找到John Wick页面”这类简单指令时,模型表现十分成功。

可一旦任务复杂度提升,比如“在维基百科上找到John Wick页面,总结其信息并给出中文版本”,模型就会失利。此外,像“打开诺贝尔奖官方网站,给出今年诺贝尔奖宣布的时间表”这样的任务,以及以下指令均未能完成:

提示词:浏览jiqizhixin.com,找到近半年关于Gemini的报道,整理成一份Markdown文件并进行总结。

另外,DeepMind还发布了Gemini 2.5 Computer Use的系统卡文档:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

谷歌DeepMind发布Gemini 2.5计算机使用模型,AI智能体竞争进入白热化 谷歌DeepMind  Gemini 2.5 计算机使用模型 AI智能体 第4张

Gemini 2.5 Computer Use的工作原理

该模型的核心能力是通过Gemini API中新增的computer_use工具来实现的,开发者使用时需在一个循环流程中运行。

其输入应包括:

用户请求;

当前环境的截图;

最近执行动作的历史记录。

此外,输入中还可以指定是否从默认支持的UI动作中排除某些功能,以及添加自定义函数。

谷歌DeepMind发布Gemini 2.5计算机使用模型,AI智能体竞争进入白热化 谷歌DeepMind  Gemini 2.5 计算机使用模型 AI智能体 第5张

Gemini 2.5 Computer Use模型工作流程

模型分析这些输入后,会生成响应,通常是一个代表UI动作的函数调用(例如点击或输入)。在某些操作(如购买行为)中,模型还会请求用户确认。随后客户端会执行这些动作。

动作执行完成后,系统会将最新截图与当前URL作为函数响应返回给模型,重新启动循环。

这一迭代过程将持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。

谷歌表示,当前Gemini 2.5 Computer Use模型主要针对网页浏览器进行优化,但在移动端UI控制方面也展现出强大潜力。不过它尚未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌强调:「负责任地构建智能体是让AI造福所有人的唯一途径。能够直接操作电脑的AI智能体带来了特有风险,包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此,我们在设计中高度重视安全防护。」

在Gemini 2.5 Computer Use模型中,谷歌直接在训练阶段融入安全机制,以应对三类主要风险(详见系统卡)。

此外,谷歌还为开发者提供安全控制选项,防止模型自动执行潜在高风险或有害操作,例如:

损害系统完整性;

危及安全;

绕过验证码;

控制医疗设备。

谷歌实施的控制手段包括:

逐步安全服务(Per-step Safety Service):在推理阶段,由独立安全服务评估每个模型拟执行的动作。

系统指令(System Instructions):开发者可设定在特定高风险操作前,智能体必须拒绝或请求用户确认。

结语

谷歌DeepMind携Gemini 2.5 Computer Use高调入场,不仅在多个基准测试上展示了领先性能,也让AI智能体领域的竞争正式步入白热化阶段。

从OpenAI到Anthropic,再到如今的谷歌,科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩,但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型,更是一个清晰的信号:键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代,正加速向我们驶来。

参考链接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793