当前位置：首页 > 科技资讯 > 正文

谷歌DeepMind发布Gemini 2.5计算机使用模型，AI智能体竞争进入白热化

主机测评网
科技资讯
2026-01-06
420

谷歌的Computer Use模型终于正式登场，引发行业广泛关注！

近日，谷歌DeepMind隆重推出了基于Gemini 2.5架构的计算机使用模型Gemini 2.5 Computer Use。

鉴于谷歌前些天刚发布了Chrome DevTools (MCP)，这款新模型的问世并不完全出乎意料。简单来说，与OpenAI的Computer-Using Agent (CUA)相似，DeepMind的这一模型能够让AI直接操作用户的浏览器——依托强大的视觉理解与推理能力，它可以协助用户在浏览器中完成点击、滚动和输入等各种操作。

谷歌DeepMind发布Gemini 2.5计算机使用模型，AI智能体竞争进入白热化谷歌DeepMind Gemini 2.5 计算机使用模型 AI智能体第1张

先来欣赏两个官方演示案例。

提示词：From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示词：My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可见，无论是从网络收集信息并执行操作，还是整理杂乱的便签笔记，Gemini 2.5 Computer Use都能精准迅速地完成任务，效率颇高。

在相关基准测试中，Gemini 2.5 Computer Use的性能表现达到了当前最先进水平：

谷歌DeepMind发布Gemini 2.5计算机使用模型，AI智能体竞争进入白热化谷歌DeepMind Gemini 2.5 计算机使用模型 AI智能体第2张

同时，其运行速度也优于其他几个对比模型：

谷歌DeepMind发布Gemini 2.5计算机使用模型，AI智能体竞争进入白热化谷歌DeepMind Gemini 2.5 计算机使用模型 AI智能体第3张

目前，开发者已能通过Google AI Studio和Vertex AI的Gemini API获取这些功能。用户也可以在Browserbase托管的演示环境中进行体验（最多仅支持5分钟流程，且不允许用户中途干预）：https://gemini.browserbase.com/

机器之心对该演示环境进行了多次测试。整体来看，Gemini 2.5 Computer Use在处理简单任务时准确率很高，但任务稍显复杂就容易出现失败。

例如，在执行“在维基百科上找到John Wick页面”这类简单指令时，模型表现十分成功。

可一旦任务复杂度提升，比如“在维基百科上找到John Wick页面，总结其信息并给出中文版本”，模型就会失利。此外，像“打开诺贝尔奖官方网站，给出今年诺贝尔奖宣布的时间表”这样的任务，以及以下指令均未能完成：

提示词：浏览jiqizhixin.com，找到近半年关于Gemini的报道，整理成一份Markdown文件并进行总结。

另外，DeepMind还发布了Gemini 2.5 Computer Use的系统卡文档：

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

谷歌DeepMind发布Gemini 2.5计算机使用模型，AI智能体竞争进入白热化谷歌DeepMind Gemini 2.5 计算机使用模型 AI智能体第4张

Gemini 2.5 Computer Use的工作原理

该模型的核心能力是通过Gemini API中新增的computer_use工具来实现的，开发者使用时需在一个循环流程中运行。

其输入应包括：

用户请求；

当前环境的截图；

最近执行动作的历史记录。

此外，输入中还可以指定是否从默认支持的UI动作中排除某些功能，以及添加自定义函数。

谷歌DeepMind发布Gemini 2.5计算机使用模型，AI智能体竞争进入白热化谷歌DeepMind Gemini 2.5 计算机使用模型 AI智能体第5张

Gemini 2.5 Computer Use模型工作流程

模型分析这些输入后，会生成响应，通常是一个代表UI动作的函数调用（例如点击或输入）。在某些操作（如购买行为）中，模型还会请求用户确认。随后客户端会执行这些动作。

动作执行完成后，系统会将最新截图与当前URL作为函数响应返回给模型，重新启动循环。

这一迭代过程将持续进行，直到任务完成、出现错误，或因安全机制或用户决定而终止。

谷歌表示，当前Gemini 2.5 Computer Use模型主要针对网页浏览器进行优化，但在移动端UI控制方面也展现出强大潜力。不过它尚未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌强调：「负责任地构建智能体是让AI造福所有人的唯一途径。能够直接操作电脑的AI智能体带来了特有风险，包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此，我们在设计中高度重视安全防护。」

在Gemini 2.5 Computer Use模型中，谷歌直接在训练阶段融入安全机制，以应对三类主要风险（详见系统卡）。

此外，谷歌还为开发者提供安全控制选项，防止模型自动执行潜在高风险或有害操作，例如：

损害系统完整性；

危及安全；

绕过验证码；

控制医疗设备。

谷歌实施的控制手段包括：

逐步安全服务（Per-step Safety Service）：在推理阶段，由独立安全服务评估每个模型拟执行的动作。

系统指令（System Instructions）：开发者可设定在特定高风险操作前，智能体必须拒绝或请求用户确认。

结语

谷歌DeepMind携Gemini 2.5 Computer Use高调入场，不仅在多个基准测试上展示了领先性能，也让AI智能体领域的竞争正式步入白热化阶段。

从OpenAI到Anthropic，再到如今的谷歌，科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩，但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型，更是一个清晰的信号：键盘和鼠标的主导地位正受到挑战，一个通过自然语言直接驱动数字世界的时代，正加速向我们驶来。

参考链接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793