当前位置：首页 > 科技资讯 > 正文

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命

主机测评网
科技资讯
2026-04-04
1017

【核心导读】谷歌Google DeepMind再度发力，通过代码执行能力赋予Gemini 3 Flash全新的「智能视觉」。

出人意料的是，Google DeepMind近期针对Gemini 3 Flash推出了突破性的重量级功能：Agentic Vision（智能体视觉）。这一技术的问世，标志着大语言模型对客观世界的认知模式发生了质的飞跃：

从传统的「概率性猜测」进化为主动的「深度调查」。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第1张

该功能由Google DeepMind核心团队研发。其产品经理Rohan Doshi指出，传统AI模型在处理视觉信息时通常是静态且被动的。面对微小细节——例如芯片序列号、远处的路牌或复杂的建筑图纸——模型往往只能基于模糊的像素进行推测。

而Agentic Vision引入了「思考-行动-观察」（Think-Act-Observe）的闭环工作流：模型不再只是被动接收图像，而是能够根据任务需求，主动编写并执行Python代码来精准操控图像。这种「手脑并用」的模式，使Gemini 3 Flash在各项视觉基准测试中实现了5%至10%的显著性能提升。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第2张

Agentic Vision：定义智能体视觉新高度

DeepMind的研究路径可以概括为：将代码执行作为视觉推理的利器，把被动的图像识别转化为主动的探索过程。相比目前SOTA模型的一步式处理，Agentic Vision通过三步循环确保准确性：

思考（Think）：模型深入分析用户指令，制定多步视觉探索计划。
行动（Act）：模型生成Python代码，对图像执行裁剪、旋转、锐化或运行目标检测算法。
观察（Observe）：变换后的局部细节图会返回给模型的上下文窗口，使其能在最终决策前获得更清晰的数据支持。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第3张

应用实战：Agentic Vision的强大威力

通过启用代码执行，开发者能够解锁一系列前所未有的AI视觉行为：

1. 局部缩放与精密检查

Gemini 3 Flash能够自动识别细粒度特征。例如在AI建筑验证平台PlanCheckSolver中，模型通过代码自动裁剪屋顶边缘等细节，将高分辨率蓝图的审查准确率提升了5%。这种「自适应放大镜」功能让复杂工程审计变得更可靠。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第4张

2. 交互式图像标注

Agentic Vision让模型拥有了在「画布」上工作的能力。在计数任务中，模型不再只是报出数字，而是利用Python代码在识别出的每个目标上绘制边界框和标签。这种「视觉草稿纸」机制极大程度消除了幻觉。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第5张

3. 视觉数学分析与数据绘图

面对高密度表格，Agentic Vision能提取数据并直接生成可视化图表。通过将计算任务交给确定性的Python环境，模型规避了LLM在视觉算术中的逻辑错误，产出的Matplotlib图表具备专业级的准确性。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第6张

开发者如何快速上手

目前，开发者已可通过Google AI Studio和Vertex AI中的Gemini API调用Agentic Vision功能。在Gemini应用中，选择「Thinking」模式即可体验。

谷歌DeepMind发布Gemini 3 Flash新功能：Agentic Vision引领智能体视觉革命 Gemini Flash Agentic Vision 机器视觉智能体 Python代码执行第7张

开发者只需在配置中开启code_execution工具，即可让模型拥有操纵像素的能力。未来，谷歌计划将此功能扩展到更多模型，并整合搜索等外部工具以进一步增强理解力。

行业评论：视觉AI的路线之争

有趣的是，谷歌此举正值DeepSeek-OCR2发布之际。DeepSeek凭借高效的DeepEncoder V2在轻量级OCR领域建立口碑，而谷歌则通过Agentic Vision展示了另一种「以动克静」的策略。这不仅是一场技术的博弈，更是关于「机器视觉」定义的终极探讨：是追求极致的感知灵敏度，还是追求全能的交互式逻辑？无论答案如何，这种良性竞争无疑将加速AI时代的到来。