智东西12月12日消息,今日凌晨,谷歌抢先OpenAI一小时,发布了三项Agent重大更新:
包括Deep Research Agent的功能更新,并首次向开发者开放;开源新的网络研究Agent基准DeepSearchQA,旨在全面测试Agent在网络研究任务中的性能;以及推出全新的交互API(Interactions API)。
Gemini Deep Research是一款专为长期上下文采集和综合任务优化的Agent,其基于Gemini 3 Pro模型,通过多步强化学习的扩展搜索,能够自主高精度导航复杂信息环境。此次更新增强了针对特定数据的网页搜索能力,以及更低成本生成研究报告等功能。
谷歌DeepMind产品经理路卡斯·哈斯( Lukas Haas)在社交平台X上透露,新版Gemini Deep Research Agent已达到SOTA(State-of-the-Art)水平,在谷歌新基准测试中得分46.4%,在BrowseComp上与GPT-5 Pro表现相当,但价格仅为后者的十分之一左右。
Deep Research Agent将很快集成到谷歌搜索、笔记本和谷歌金融中,并在Gemini应用中进行升级。
DeepSearchQA内置了900个手工设计的“因果链”任务,覆盖17个领域,可评估Agent在复杂、需多步查询信息等任务上的能力。
交互API作为与Gemini模型和Agent的统一交互界面,通过Google AI Studio中的Gemini API公开测试版向开发者开放。开发者可通过Agent开发套件(ADK)和A2A协议使用交互API。
有网友评论,谷歌此举相当于将“一个数字版的福尔摩斯交给了开发者”,现在开发者只需轻松操作,就能让应用像进行学术研究一样展开深度调查。
DeepSearchQA开源地址: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
谷歌博客指出,Deep Research背后的Gemini 3 Pro模型是迄今为止最真实的模型,经过专门训练以减少幻觉并最大化复杂任务中的报告质量。
Deep Research通过迭代流程运行:提出问题、阅读结果、识别知识空白,然后再次搜索。新版本显著提升了网页搜索功能,使其能深入网站查找特定数据。
新版Gemini Deep Research Agent在完整HLE测试中达到46.4%,Gemini 3 Pro为43.2%,GPT-5 Pro为38.9%。在DeepSearchQA和BrowseComp测试中以微小优势领先。
谷歌还优化了该Agent,以更低成本生成深度研究报告。
Gemini Deep Research Agent已在需要高精度和基于早期反馈的复杂领域应用,包括金融服务、生物技术和市场调研等行业,这些领域可利用它完成初步调研任务。
对于构建下一代自动化研究工具的开发者,Gemini Deep Research Agent能综合信息并生成详细报告:
统一信息综合:通过文件上传和搜索工具分析用户文档和公共网络数据,还能处理长上下文,允许在提示中直接放置大量背景信息;
报告可控性:用户可通过提示定义结构、标题,或指定数据表生成和格式来控制输出;
详细引用:提供细粒度来源,方便用户验证数据;
结构化输出:支持JSON模式输出,便于下游应用解析研究结果。
DeepSearchQA是Deep Research Agent的测试基准。
现有基准测试往往无法反映现实世界多步网络研究的复杂性,谷歌开源新基准DeepSearchQA,用于评估Agent在复杂、需多步查询信息等任务上的表现。
DeepSearchQA包含900个手工设计的“因果链”任务,涵盖17个领域,每一步都依赖事先分析。与传统基于事实的测试不同,DeepSearchQA衡量全面性,要求Agent生成详尽答案集,不仅评估研究准确性,还包括检索记忆能力。
DeepSearchQA还可作为衡量“思考时长”效率的工具。谷歌内部评估发现,当允许Agent执行更多搜索与推理步骤时,其性能显著提升。
交互API原生集成一套专属接口,专为Agent应用开发场景设计,可高效处理交错式消息、思维链、工具调用及状态信息的复杂上下文管理。除Gemini模型套件外,交互API还提供其首个内置Agent Gemini Deep Research Agent。
下一步,谷歌将扩展内置Agent,并提供构建和引入其他Agent的功能,使开发者能通过一个API连接Gemini模型、谷歌内置Agent和定制Agent。
交互API提供单一RESTful端点,用于与模型和Agent交互。
通过指定模型参数与模型交互:
通过指定Agent参数与Agent互动,目前支持deep-research-pro-preview-12-2025:
交互API通过现代Agent应用所需功能扩展生成内容的核心能力,包括:
可选的服务器端状态:能将历史管理卸载到服务器,简化开发者客户端代码,减少上下文管理错误,并通过增加缓存命中率可能降低成本;
可解释和可组合的数据模型:为复杂Agent历史设计干净图式,开发者可对交错信息、思维、工具及结果进行调试、流式分析和推理;
背景执行:能将长期运行的推理环路卸载到服务器,无需维护客户端连接;
远程MCP工具支持:模型可直接调用模型上下文协议(MCP)服务器作为工具。
目前,Deep Research Agent已在金融、科学研究等领域应用。此次谷歌不仅更新了该Agent,还发布交互API,以简化与Gemini模型和Agent的交互流程,构建更易用的开发生态。
谷歌博客提到,未来更新将聚焦更丰富输出,如原生生成图表以支持可视化分析报告,以及通过模型上下文协议(MCP)支持扩展连接性,更轻松访问自定义数据源,并努力将Gemini Deep Research引入企业用的Vertex AI。
本文由主机测评网于2026-02-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223787.html