谷歌DeepMind发布Gemini 2.5：AI直接控制浏览器的革新

主机测评网
科技资讯
2026-05-02
208

谷歌的革新之作——Gemini 2.5计算机使用模型震撼登场！

就在今日凌晨，谷歌DeepMind重磅发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use。

鉴于谷歌不久前刚发布了Chrome DevTools (MCP)，Gemini 2.5 Computer Use的问世并非特别意外。简而言之，与OpenAI的Computer-Using Agent (CUA)类似，DeepMind的这一模型能让AI直接操控用户的浏览器——在视觉理解和推理能力的基础上，该模型可协助用户在浏览器中执行点击、滚动和输入等操作。

谷歌DeepMind发布Gemini 2.5：AI直接控制浏览器的革新 Gemini 2.5 AI 浏览器控制 DeepMind 第1张

让我们先睹为快两个官方演示。

提示词：从https://tinyurl.com/pet-care-signup，获取所有加州居民的宠物详细信息，并将它们作为客人添加到我的spa客户关系管理系统https://pet-luxe-spa.web.app/。然后，与专家Anima Lavar预约10月10日早上8点之后的随访。访问原因与他们的治疗请求相同。

提示词：我的艺术俱乐部在展览前进行了任务头脑风暴。董事会混乱不堪，我需要您的帮助将任务归类到我创建的类别中。请访问sticky-note-jam.web.app，并确保笔记清晰地放在正确的部分。如果不在那里，请将它们拖过去。

可见，无论是收集网络信息还是执行任务，Gemini 2.5 Computer Use都能精准完成，且速度极快。

在相关基准测试中，Gemini 2.5 Computer Use的性能表现达到了SOTA水平：

谷歌DeepMind发布Gemini 2.5：AI直接控制浏览器的革新 Gemini 2.5 AI 浏览器控制 DeepMind 第2张

同时，其速度表现也优于其他几个对比模型：

谷歌DeepMind发布Gemini 2.5：AI直接控制浏览器的革新 Gemini 2.5 AI 浏览器控制 DeepMind 第3张

目前，开发者可通过Google AI Studio和Vertex AI的Gemini API获取这些能力。用户也可在Browserbase托管的演示环境中试用（最多支持5分钟流程，不支持用户中途接管）：https://gemini.browserbase.com/

机器之心在该演示环境中进行了几次尝试。总体来看，Gemini 2.5 Computer Use在完成简单任务时准确度较高，但面对稍复杂任务时则容易失败。

例如，在执行「在维基百科上找到John Wick页面」的简单任务时，该模型表现优异。

然而，一旦任务稍复杂，如「在维基百科上找到John Wick页面，并总结其信息，给出中文版」，该模型便宣告失败。此外，让其「打开诺贝尔奖官方网站，给出今年诺贝尔将宣布的时间表」以及其他任务也均未能成功完成。

提示词：浏览jiqizhixin.com，找到近半年关于Gemini的报道，并整理成Markdown文件，同时进行总结。

此外，DeepMind已发布Gemini 2.5 Computer Use系统卡：

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

谷歌DeepMind发布Gemini 2.5：AI直接控制浏览器的革新 Gemini 2.5 AI 浏览器控制 DeepMind 第4张

Gemini 2.5 Computer Use的工作原理

该模型的核心能力是通过Gemini API中新增的computer_use工具实现的，开发者在使用时需在一个循环流程（loop）中运行。

其输入应包含：

用户请求；

当前环境的截图；

最近执行动作的历史记录。

此外，输入中还可指定是否从默认支持的UI动作中排除特定功能及添加自定义函数。

谷歌DeepMind发布Gemini 2.5：AI直接控制浏览器的革新 Gemini 2.5 AI 浏览器控制 DeepMind 第5张

安全机制设计

谷歌还在博客中分享了该模型的安全机制设计。

谷歌表示：「负责任地构建智能体是使AI造福所有人的唯一途径。能够直接操作电脑的AI智能体带来了特有风险，包括用户恶意使用、模型意外行为以及网页环境下的提示词注入与诈骗。因此，我们在设计中高度重视安全防护。」

在Gemini 2.5 Computer Use模型中，谷歌直接在训练阶段融入安全机制以应对三类主要风险（详见系统卡）。

此外，谷歌还为开发者提供安全控制选项，防止模型自动执行潜在高风险或有害操作，例如：

损害系统完整性；

危及安全；

绕过验证码；

控制医疗设备。

结语

谷歌DeepMind携Gemini 2.5 Computer Use高调入场，不仅在多个基准测试上展示了领先的性能，也让AI智能体领域的竞争正式进入了白热化阶段。

从OpenAI到Anthropic，再到如今的谷歌，科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩，但这正是技术黎明前的真实写照。今天我们看到的不仅是一个新模型，更是一个清晰的信号：键盘和鼠标的主导地位正受到挑战，一个通过自然语言直接驱动数字世界的时代正加速向我们驶来。