在全球人工智能竞赛急剧白热化的当下,谷歌与OpenAI再度于同一天推出重磅革新,吸引了整个科技界的目光。
昨日深夜,谷歌发布了全新“重新构想”的Gemini Deep Research版本,并首次开放了嵌入式研究智能体API。
几乎同时,OpenAI正式发布了备受期待的GPT-5.2(代号Garlic)。两家公司围绕智能体未来、基础大模型能力边界以及应用生态主导权的角逐,正进入一个空前焦灼的阶段。
这次,谷歌与OpenAI的攻防几乎精确同步,让外界得以清晰观察这两大全球AI巨头的战略对抗节奏。
谷歌推出的全新Gemini Deep Research工具是一款智能体,能够整合海量信息并处理提示中丰富的上下文数据。谷歌表示,客户使用Deep Research Agent执行的任务范围广泛,从尽职调查到药物毒性安全研究均有涉及。
谷歌还透露,很快会将这款全新的Deep Research Agent集成到其各项服务中,包括谷歌搜索、谷歌财经、Gemini应用以及广受欢迎的NotebookLM。这标志着谷歌正朝着一个未来世界迈出关键一步:未来,人类可能不再直接使用谷歌搜索,而是由人工智能代理代劳。
具体而言,Deep Research Agent具备哪些能力?
在此次更新中,谷歌不仅对Deep Research Agent进行了架构级再设计,还以Gemini 3 Pro为核心基础模型,构建了一个更稳定、准确、可追溯的深度研究系统。新版Deep Research Agent的能力提升可总结为三个关键方向:模型升级、推理稳定性突破以及交互能力全面增强。
先说模型升级。新版Deep Research Agent完全基于Gemini 3 Pro构建,而Gemini 3 Pro被谷歌视为迄今最“真实”、最可靠、最适合长链推理的旗舰模型版本。谷歌强调,这不仅是性能提升,更是研究型智能体“可依赖性”的质变。
为了构建这样的智能体,谷歌采用了多步强化学习(Reinforcement Learning over Multi-step Trajectories)的训练策略。其目标非常明确:在长达数十步、数百步的复杂研究任务中,AI必须保持推理路径稳定,减少幻觉出现概率,并确保连续决策过程中的一致性。
传统大型语言模型在长链推理中的主要痛点之一,是每一步推理都会引入累计误差——只要一个幻觉节点,就可能导致整个输出结果失效。谷歌强调,新版Deep Research在此取得重大突破:
这使得Deep Research能够承担以往大型语言模型无法胜任的任务,例如完整执行跨天级研究、政策评估、多源数据整合和全流程尽职调查。
新版Deep Research Agent的另一个核心优势是其超大规模上下文处理能力。在Gemini 3 Pro支持下,它可以一次性处理远超以往的资料量,包括学术论文、官方报告、长篇网页内容等。更重要的是,谷歌为Deep Research加入了一项“研究级标准能力”:它会为每一条观点、每一个结论自动附上可追溯引用来源。 引用不仅是网址链接,而是结构化指向原文关键片段或段落,以确保输出可信、观点可查,用户可进行二次调查与审核。这使Deep Research不是“生成内容”,而是“提供带证据链的研究结果”。
此次版本更新不仅是功能升级,而是谷歌围绕“研究型智能体生态”的一次系统性发布。除了Deep Research Agent更新,谷歌还推出两项关键新能力:开源全新网络研究智能体基准:DeepSearchQA和全新交互API。
在当前行业中,网络研究型智能体缺乏统一衡量标准。为了证明谷歌取得的进展,谷歌创建了一个新基准测试。这个新基准测试名为DeepSearchQA,旨在测试智能体在复杂多步骤信息检索任务中的表现。谷歌已将该基准测试开源。
DeepSearchQA开源地址:https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
DeepSearchQA包含17个领域共900道精心设计的“因果链”任务,每一步都依赖于先前分析。与传统基于事实的测试不同,DeepSearchQA衡量全面性,要求智能体生成详尽答案集。这既评估研究精确度,也评估检索召回率。
对比pass@8和pass@1结果,可以证明让智能体探索多条并行路径进行答案验证的价值。这些结果是在DeepSearchQA的200个提示子集上计算得出的。
全新的Deep Research Agent在“人类最后的考试”(HLE)和DeepSearchQA测试中取得了最先进成果,并在BrowseComp测试中表现最佳。它经过优化,能够以更低成本生成高质量研究报告。
基准测试结果令人惊叹。它基于Gemini 3 Pro核心构建,但采用智能体工作流程来实现最先进性能。统计数据(来自图表):
Gemini Deep Research在完整“人类最后的考试”(HLE)数据集上取得46.4%领先成绩,在DeepSearchQA上取得66.1%成绩,在BrowseComp上取得高达59.2%成绩。
Interactions API是谷歌此次发布最具战略意义的能力之一。它让开发者首次能够以结构化方式控制智能体行为状态、推理步骤、长链任务执行、中间状态存储等,这意味着以前开发者只能“向模型发问”,而现在开发者可以“调教智能体如何执行任务”。
在谷歌发布新版Deep Research Agent后,技术社区反应同样值得关注。
在Hacker News与Reddit相关讨论帖中,不少开发者表达了对谷歌此次“真正把Agent做成工程化产品”的肯定。
在Reddit上,有用户对技术进步发出感叹:
“太不可思议了!我觉得我们还没有充分意识到这一点。过去三年我们取得的进步简直令人难以置信!”
有网友指出,谷歌首次在产品层面强调“可验证引用”“端到端多步推理稳定性”,是AI Agent领域一次明显进步。
一位自称长期从事合规审阅工作的用户评论说:“如果Deep Research真能做到逐步链路可审计,那将是第一次有大厂真正把Agent从玩具推向生产环境。”
但也有观点保持谨慎,一位Reddit用户批评道:“谷歌用自家基准证明自己最强,这种事情已经发生过太多次了。我们需要的是在真实网页、真实任务中的第三方测试。”
谷歌这款新Agent发布时间与OpenAI GPT-5.2同一天,自然难逃网友们将两者相比较的命运。
在Reddit上,有用户提问这款Deep Research Agent与同一时间OpenAI发布的GPT-5.2相比如何,另一位用户回答称用途不同,但GPT-5.2更好。
为更清晰对比,还有网友找出OpenAI研究员Sebastien Bubeck在领英上的发文,文中Sebastien Bubeck称GPT-5.2在人类最后考试(HLE)中得分45%,而谷歌新Agent得分46.4%,略高于GPT-5.2。
同时,围绕谷歌与OpenAI竞争,也有人发出调侃式评论:“谷歌刚发Deep Research,OpenAI就把Garlic(GPT-5.2)端上来了,这俩公司现在简直是在互相抢发新闻。”
还有人总结这场激烈竞赛节奏:“这已经不是模型大战,而是发布会大战。”
基础模型能力始终是两家公司最具标志性竞争焦点。
2025年初,谷歌推出的Gemini 3 Pro以其更“真实”、更可依赖、幻觉率更低特性,试图在长链推理和专业任务场景中重建优势。Gemini 3 Pro强调检索增强、多模态处理能力以及大规模上下文处理能力,在科研、法律、金融等高可信场景中表现亮眼。
而OpenAI在最新发布的GPT-5.2(Garlic)中,强化了逻辑一致性、工具调用稳定性以及智能体行为自主性,进一步提升跨任务泛化能力。内部基准测试显示,GPT-5.2在推理、代码生成、多轮工具调度方面对Gemini保持领先,尤其是在OpenAI自研“连续推理一致性Benchmark”中表现突出。
两者之间能力差距被行业评论认为“已进入毫厘级别”——差距常只体现于特定任务场景,而不再是全局性优势。
如果说基础模型决定了智能体能否思考,那么智能体平台能力则决定了智能体能否执行任务。
谷歌此次对Gemini Deep Research Agent进行全面重构,可视为其正式加入智能体战争关键节点。
新版Deep Research Agent具有三大亮点:
这使其从“报告生成工具”升级为“可执行完整研究任务专业智能体”。更关键是,谷歌推出结构化控制智能体行为的Interactions API,开发者可以对智能体每一阶段、每一子任务进行高度可控调度与状态管理。这意味着Deep Research Agent不再是谷歌产品线内部能力,而是一个通用智能体执行引擎。
OpenAI智能体体系则更侧重通用性和自由度。
Agent API、OpenAI Swarm、BrowserAgent、CodeAgent已形成完整智能体开发框架,加上GPT-5.2推理一致性提升,让其在自动化任务执行、工具调用复杂度和环境适应性上保持优势。
两者竞争的是:未来软件开发将以智能体为核心,而谁掌握了智能体框架标准,谁就掌握了新一代计算范式主导权。
参考链接:
https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn
https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/
本文由主机测评网于2026-02-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223880.html