当前位置:首页 > 科技资讯 > 正文

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能

12月17日,Google隆重推出Gemini 3 Flash,这是一款定价仅为Claude的1/5、GPT的1/4的“轻量级模型”,其编码能力超越Claude Sonnet 4.5,在推理和多模态表现上全面领先,甚至与GPT-5.2平分秋色。

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能 Gemini Flash 轻量模型 旗舰级性能 多模态 第1张

MMMU-Pro多模态评估显示:

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能 Gemini Flash 轻量模型 旗舰级性能 多模态 第2张

更值得一提的是,它甚至超越了自家旗舰:在SWE-bench上,Gemini 3 Flash达到78%,而Gemini 3 Pro为76.2%,这是Flash系列首次超越同代Pro模型。

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能 Gemini Flash 轻量模型 旗舰级性能 多模态 第3张

数据或许有些抽象,让我们看看它的实际应用:

Gemini 3 Flash能够单次生成完整的动画3D程序化房间。

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能 Gemini Flash 轻量模型 旗舰级性能 多模态 第4张

用一句话就能让Gemini 3 Flash生成可玩的游戏。

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能 Gemini Flash 轻量模型 旗舰级性能 多模态 第5张

Resemble AI利用Gemini 3 Flash实时分析deepfake视频:他们的产品能将复杂的音视频取证数据即时转化为易于理解的分析结果。测试中,发现其多模态分析速度比2.5 Pro快了4倍,能够在不拖慢关键工作流的情况下处理原始技术输出数据。

一个月前,Gemini 3 Pro和Deep Think的发布使Google重新站在AI领域的前列。发布以来,Gemini API日均处理量突破1万亿tokens。现在,Flash的推出补全了Gemini 3家族的阵容。

但这次的Gemini 3 Flash与以往不同。以往我们对Flash的认知是快、便宜但能力有限。而现在,Gemini 3 Flash打破了这一惯例,以轻量模型的价格,提供了旗舰级的能力。

为何能以1/5的价格挑战旗舰?

先来看看与其他模型的对比。

在博士级科学推理基准GPQA Diamond上,Gemini 3 Flash获得90.4%,大幅领先Claude Sonnet 4.5的83.4%,接近GPT-5.2的92.4%。在多模态理解基准MMMU-Pro上,Flash达到81.2%,超过GPT-5.2的79.5%,更是甩开Claude Sonnet 4.5十几个百分点。

在人类最后考试Humanity's Last Exam上(无工具),Gemini 3 Flash达到33.7%,而Claude Sonnet 4.5只有13.7%——差距接近20个百分点。

Google发布Gemini 3 Flash:轻量级模型,旗舰级性能 Gemini Flash 轻量模型 旗舰级性能 多模态 第6张

编码能力同样出色。在SWE-bench Verified上,Gemini 3 Flash达到78%,超过了Claude Sonnet 4.5的77.2%,并首次超过了自家3 Pro的76.2%。

将价格因素考虑进来就更震撼了。Flash的价格大约是Claude的1/5、GPT的1/4,但在多项指标上与之打平甚至领先。以前选择Flash是追求速度和省钱但有所妥协,现在选择Flash是既省钱又省心。

那么,Gemini 3 Pro的用途何在?

极限推理场景。在GPQA Diamond上,Pro为91.9%而Flash为90.4%;在Humanity's Last Exam上,Pro为37.5%而Flash为33.7%。加上只有Gemini 3 Pro具备的Deep Think模式。Pro适合极限推理,而Flash适合高频agent任务,这是Google给出的新分工。

但对大多数场景来说,Flash不仅够用,而且性价比极高。

效率层面同样显著。根据Artificial Analysis测试,Gemini 3 Flash比2.5 Pro快3倍,处理日常任务平均节省30%token消耗。定价方面,输入$0.50/百万tokens,输出$3/百万tokens,仅为3 Pro的四分之一。

改变用户与开发者体验

免费用户也能享受旗舰体验

Gemini 3 Flash的发布不仅限于API层面,它将直接改变普通用户的日常体验。

在Gemini App里,Gemini 3 Flash将替代原来的2.5 Flash,成为新的默认模型。这意味着全球所有Gemini用户,包括免费用户,都将自动升级到Gemini 3级别的体验,无需付费或设置。

升级后的App将提供三种模式供用户选择:

  • Fast(极速):默认由Gemini 3 Flash驱动,秒回日常问题。
  • Thinking(思考):同样由Flash 3驱动,但激活了“深度思考”能力,专门处理复杂逻辑。
  • Pro(专业):保留Gemini 3 Pro,作为处理高难度数学和代码问题的首选。

开发者:成本降低与收益提升

以往制作agentic应用时,想用旗舰级模型就得支付旗舰级价格。Gemini 3 Flash改变了这一局面。

过去开发者面临两难选择:要么用快但不够聪明的小模型牺牲任务质量;要么用聪明但慢且贵的大模型承受延迟和成本双重压力。尤其是在需要多轮调用、高频迭代的agent场景中,这种取舍几乎是固定的。而Gemini 3 Flash提供了一个新选项:足够快、足够聪明且成本可控。

“Flash”的意义已变

Gemini 3 Flash的发布在某种程度上重新定义了“Flash”这个品类的含义。

“Flash”终于不只是快速和效率的象征了。过去轻量级模型的定位明确:用能力换取速度和成本优势。选择Flash就意味着接受智能上的折扣。但Gemini 3 Flash证明了另一种可能:当底层基础模型足够强大时,轻量版本不一定需要大幅削减能力它可以是“更高效的满配版”。