2025年12月17日,谷歌震撼发布Gemini 3 Flash模型。这款被称为“轻量级模型”的产品,定价仅为Claude的五分之一、GPT的四分之一,却在编码能力上超越Claude Sonnet 4.5,推理和多模态表现全面领先,与GPT-5.2相比也各有千秋。
在多模态评估基准MMMU-Pro中,Gemini 3 Flash的表现如下:
更为惊人的是,Gemini 3 Flash甚至超越了自家旗舰模型:在SWE-bench编码测试中,Flash取得78%的成绩,而Pro版本为76.2%,这是Flash系列首次在同代中超越Pro模型。
数据或许不够直观,让我们直接看看它能实现哪些功能:
Gemini 3 Flash可一次性生成完整的3D程序化房间动画
只需一句话,Gemini 3 Flash便能生成一个可玩的游戏
Resemble AI利用Gemini 3 Flash实时分析deepfake视频:该公司产品需将复杂的音视频取证数据快速转化为易于理解的分析结果。测试显示,3 Flash的多模态分析速度比2.5 Pro提升4倍,可在不影响关键工作流的情况下高效处理原始技术输出数据。
一个月前,Gemini 3 Pro与Deep Think的发布助力谷歌重回AI巅峰,Gemini 3 Pro登顶LMArena排行榜,Deep Think在ARC-AGI测试中取得其他模型三倍的佳绩。自发布以来,Gemini API日均处理量已突破1万亿tokens。如今,Flash的加入完善了Gemini 3家族的最后一块拼图。
然而,此次的Gemini 3 Flash与以往截然不同。过去,Flash系列给人的印象是快速、廉价,但能力有所妥协。若追求速度,便需在智能上让步。但Gemini 3 Flash颠覆了这一惯例,以轻量级模型的价格,提供了旗舰级的性能。
先看与竞品的对比数据。
在博士级科学推理基准GPQA Diamond中,Gemini 3 Flash取得90.4%的高分,显著领先Claude Sonnet 4.5的83.4%,逼近GPT-5.2的92.4%。在多模态理解基准MMMU-Pro上,Flash以81.2%超越GPT-5.2的79.5%,且领先Claude Sonnet 4.5超过十个百分点。
在“人类最后考试”(Humanity"s Last Exam,无工具辅助)中,Gemini 3 Flash获得33.7%,而Claude Sonnet 4.5仅为13.7%,差距高达20个百分点。
编码能力同样令人瞩目。在SWE-bench Verified测试中,Gemini 3 Flash取得78%,超越Claude Sonnet 4.5的77.2%,并首次超过自家Gemini 3 Pro的76.2%。
结合价格因素,优势更为突出:Flash价格约为Claude的1/5、GPT的1/4,却在多项指标上持平甚至领先。如果说过去选择Flash意味着速度与成本但需妥协智能,那么如今选择Flash则是兼顾省钱与省心。
那么问题来了:Gemini 3 Pro还有何用武之地?
极限推理场景。GPQA Diamond上Pro 91.9%对比Flash 90.4%,Humanity"s Last Exam上Pro 37.5%对比Flash 33.7%,加之Pro独有的Deep Think模式。因此,Pro适用于极限推理,Flash则适合高频Agent任务,这是谷歌给出的全新分工。
然而,对大多数应用场景而言,Flash不仅足够强大,性价比更是惊人。
效率提升同样显著。据Artificial Analysis测试,Gemini 3 Flash速度比2.5 Pro快3倍,处理日常任务平均节省30%的token消耗。定价方面,输入$0.50/百万tokens,输出$3/百万tokens,仅为3 Pro的四分之一。
Gemini 3 Flash在性能、成本与速度的权衡中达到了新的最优边界
谷歌官方的表述是:“速度与规模,无需以牺牲智能为代价。”若放在以往Flash上或只是口号,但此次数据确实支撑了这一点。
Gemini 3 Flash的发布不仅限于API层面,更将直接提升普通用户的日常使用体验。
在Gemini应用中,Gemini 3 Flash将取代原有的2.5 Flash,成为新的默认模型。这意味着全球所有Gemini用户,包括免费用户,都将自动获得Gemini 3级别的体验,无需付费或任何设置。
升级后的应用将提供三种模式供用户选择:
在Google搜索中,AI模式的默认模型也将在全球范围内升级为3 Flash。谷歌表示,借助3 Flash强大的推理与多模态能力,AI模式现能更精准理解用户意图,处理更复杂、多重约束的问题,并生成结构清晰、易于理解的回答。
针对美国用户,谷歌还开放了更多选项:可在AI模式中选择“Thinking with 3 Pro”获取更深入的帮助,图像生成模型Nano Banana Pro也向更多美国用户开放。
对普通用户而言,这可能是感知最显著的一次升级。打开Gemini,即享前沿模型;在Google搜索中提问复杂问题,背后运行的已是融合顶级大模型能力的引擎。换言之,免费用户当前使用的默认模型,能力已不逊于其他厂商的付费旗舰。
以往开发agentic应用,若想使用旗舰级模型必须支付高昂价格。Gemini 3 Flash彻底改变了这一局面。
过去开发者常面临两难:要么选择快速但笨拙的小模型,牺牲任务质量;要么选用聪明但缓慢昂贵的大模型,承受延迟与成本的双重压力。尤其在需多轮调用、高频迭代的agent场景中,这一取舍几乎无法避免。Gemini 3 Flash提供了全新选择:足够快、足够智能、成本可控。SWE-bench上78%的成绩证明其足以应对复杂编码任务,3倍于2.5 Pro的速度使其胜任延迟敏感型实时场景,而仅竞品1/5的价格让大规模部署成为现实。
目前,Gemini 3 Flash已在以下平台上线(预览版):
针对高频调用场景,谷歌还提供了配套成本优化方案。Context Caching功能可在重复token使用达一定阈值时降低90%成本;Batch API支持异步批量处理,成本再降50%,并提供更高调用配额。对于需在生产环境中大规模运行agent任务的团队,这套组合极具吸引力。
Gemini 3 Flash的发布,在某种程度上重新诠释了“Flash”这一品类的内涵。
Flash,终于不再仅仅是速度与效率的代名词。
过去,Flash这类轻量级模型的定位清晰:以能力换取速度与成本优势。选择Flash,即意味着接受智能上的折衷。但Gemini 3 Flash证明了另一种可能:当底层基础模型足够强大时,轻量版本无需过多能力削减,它可以是“更高效的满配版”。
谷歌在博客中提到,Gemini 3 Flash的核心模型能力已强大到如此程度:在许多任务上,关闭思考模式的3 Flash,表现优于开启思考模式的2.5版本。以往需牺牲速度换取准确度,如今已无必要。
此次发布亦使Gemini 3家族阵容正式完整:Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash三个版本,覆盖从轻度用户到硬核开发者的完整需求谱系。追求极致推理深度,选Deep Think;追求最强综合能力,选Pro;追求又快又好又便宜,选Flash。各取所需,不再单选。
从数据看,谷歌在AI产品化道路上稳步前行。Gemini App月活已突破6.5亿,开发者数量达1300万,API调用量同比增长3倍。从上一季度到本季度,用户数从4.5亿激增至6.5亿。
目前,普通用户可直接在Gemini App和Google搜索的AI模式中体验新模型;开发者可通过Google AI Studio和Gemini API开始构建应用。
当谷歌以Flash模型1/5的价格实现旗舰级能力,Flash这一品类的想象空间被彻底打开。
本文由主机测评网于2026-03-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260329284.html