当前位置:首页 > 科技资讯 > 正文

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命

【核心导读】谷歌Google DeepMind再度发力,通过代码执行能力赋予Gemini 3 Flash全新的「智能视觉」。

出人意料的是,Google DeepMind近期针对Gemini 3 Flash推出了突破性的重量级功能:Agentic Vision(智能体视觉)。这一技术的问世,标志着大语言模型对客观世界的认知模式发生了质的飞跃:

从传统的「概率性猜测」进化为主动的「深度调查」。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第1张

该功能由Google DeepMind核心团队研发。其产品经理Rohan Doshi指出,传统AI模型在处理视觉信息时通常是静态且被动的。面对微小细节——例如芯片序列号、远处的路牌或复杂的建筑图纸——模型往往只能基于模糊的像素进行推测。

而Agentic Vision引入了「思考-行动-观察」(Think-Act-Observe)的闭环工作流:模型不再只是被动接收图像,而是能够根据任务需求,主动编写并执行Python代码来精准操控图像。这种「手脑并用」的模式,使Gemini 3 Flash在各项视觉基准测试中实现了5%至10%的显著性能提升。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第2张

Agentic Vision:定义智能体视觉新高度

DeepMind的研究路径可以概括为:将代码执行作为视觉推理的利器,把被动的图像识别转化为主动的探索过程。相比目前SOTA模型的一步式处理,Agentic Vision通过三步循环确保准确性:

  1. 思考(Think):模型深入分析用户指令,制定多步视觉探索计划。
  2. 行动(Act):模型生成Python代码,对图像执行裁剪、旋转、锐化或运行目标检测算法。
  3. 观察(Observe):变换后的局部细节图会返回给模型的上下文窗口,使其能在最终决策前获得更清晰的数据支持。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第3张

应用实战:Agentic Vision的强大威力

通过启用代码执行,开发者能够解锁一系列前所未有的AI视觉行为:

1. 局部缩放与精密检查

Gemini 3 Flash能够自动识别细粒度特征。例如在AI建筑验证平台PlanCheckSolver中,模型通过代码自动裁剪屋顶边缘等细节,将高分辨率蓝图的审查准确率提升了5%。这种「自适应放大镜」功能让复杂工程审计变得更可靠。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第4张

2. 交互式图像标注

Agentic Vision让模型拥有了在「画布」上工作的能力。在计数任务中,模型不再只是报出数字,而是利用Python代码在识别出的每个目标上绘制边界框和标签。这种「视觉草稿纸」机制极大程度消除了幻觉。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第5张

3. 视觉数学分析与数据绘图

面对高密度表格,Agentic Vision能提取数据并直接生成可视化图表。通过将计算任务交给确定性的Python环境,模型规避了LLM在视觉算术中的逻辑错误,产出的Matplotlib图表具备专业级的准确性。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第6张

开发者如何快速上手

目前,开发者已可通过Google AI Studio和Vertex AI中的Gemini API调用Agentic Vision功能。在Gemini应用中,选择「Thinking」模式即可体验。

谷歌DeepMind发布Gemini 3 Flash新功能:Agentic Vision引领智能体视觉革命 Gemini Flash  Agentic Vision 机器视觉 智能体 Python代码执行 第7张

开发者只需在配置中开启code_execution工具,即可让模型拥有操纵像素的能力。未来,谷歌计划将此功能扩展到更多模型,并整合搜索等外部工具以进一步增强理解力。

行业评论:视觉AI的路线之争

有趣的是,谷歌此举正值DeepSeek-OCR2发布之际。DeepSeek凭借高效的DeepEncoder V2在轻量级OCR领域建立口碑,而谷歌则通过Agentic Vision展示了另一种「以动克静」的策略。这不仅是一场技术的博弈,更是关于「机器视觉」定义的终极探讨:是追求极致的感知灵敏度,还是追求全能的交互式逻辑?无论答案如何,这种良性竞争无疑将加速AI时代的到来。