当前位置：首页 > 科技资讯 > 正文

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能

主机测评网
科技资讯
2026-05-28
447

12月17日，Google隆重推出Gemini 3 Flash，这是一款定价仅为Claude的1/5、GPT的1/4的“轻量级模型”，其编码能力超越Claude Sonnet 4.5，在推理和多模态表现上全面领先，甚至与GPT-5.2平分秋色。

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能 Gemini Flash 轻量模型旗舰级性能多模态第1张

MMMU-Pro多模态评估显示：

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能 Gemini Flash 轻量模型旗舰级性能多模态第2张

更值得一提的是，它甚至超越了自家旗舰：在SWE-bench上，Gemini 3 Flash达到78%，而Gemini 3 Pro为76.2%，这是Flash系列首次超越同代Pro模型。

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能 Gemini Flash 轻量模型旗舰级性能多模态第3张

数据或许有些抽象，让我们看看它的实际应用：

Gemini 3 Flash能够单次生成完整的动画3D程序化房间。

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能 Gemini Flash 轻量模型旗舰级性能多模态第4张

用一句话就能让Gemini 3 Flash生成可玩的游戏。

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能 Gemini Flash 轻量模型旗舰级性能多模态第5张

Resemble AI利用Gemini 3 Flash实时分析deepfake视频：他们的产品能将复杂的音视频取证数据即时转化为易于理解的分析结果。测试中，发现其多模态分析速度比2.5 Pro快了4倍，能够在不拖慢关键工作流的情况下处理原始技术输出数据。

一个月前，Gemini 3 Pro和Deep Think的发布使Google重新站在AI领域的前列。发布以来，Gemini API日均处理量突破1万亿tokens。现在，Flash的推出补全了Gemini 3家族的阵容。

但这次的Gemini 3 Flash与以往不同。以往我们对Flash的认知是快、便宜但能力有限。而现在，Gemini 3 Flash打破了这一惯例，以轻量模型的价格，提供了旗舰级的能力。

为何能以1/5的价格挑战旗舰？

先来看看与其他模型的对比。

在博士级科学推理基准GPQA Diamond上，Gemini 3 Flash获得90.4%，大幅领先Claude Sonnet 4.5的83.4%，接近GPT-5.2的92.4%。在多模态理解基准MMMU-Pro上，Flash达到81.2%，超过GPT-5.2的79.5%，更是甩开Claude Sonnet 4.5十几个百分点。

在人类最后考试Humanity's Last Exam上（无工具），Gemini 3 Flash达到33.7%，而Claude Sonnet 4.5只有13.7%——差距接近20个百分点。

Google发布Gemini 3 Flash：轻量级模型，旗舰级性能 Gemini Flash 轻量模型旗舰级性能多模态第6张

编码能力同样出色。在SWE-bench Verified上，Gemini 3 Flash达到78%，超过了Claude Sonnet 4.5的77.2%，并首次超过了自家3 Pro的76.2%。

将价格因素考虑进来就更震撼了。Flash的价格大约是Claude的1/5、GPT的1/4，但在多项指标上与之打平甚至领先。以前选择Flash是追求速度和省钱但有所妥协，现在选择Flash是既省钱又省心。

那么，Gemini 3 Pro的用途何在？

极限推理场景。在GPQA Diamond上，Pro为91.9%而Flash为90.4%；在Humanity's Last Exam上，Pro为37.5%而Flash为33.7%。加上只有Gemini 3 Pro具备的Deep Think模式。Pro适合极限推理，而Flash适合高频agent任务，这是Google给出的新分工。

但对大多数场景来说，Flash不仅够用，而且性价比极高。

效率层面同样显著。根据Artificial Analysis测试，Gemini 3 Flash比2.5 Pro快3倍，处理日常任务平均节省30%token消耗。定价方面，输入$0.50/百万tokens，输出$3/百万tokens，仅为3 Pro的四分之一。