颠覆认知!
Gemini 3 Flash在SWE-Bench Verified测试中取得了78%的卓越成绩,甚至超越了顶级的大杯Pro。
Flash不仅在速度和性价比上让Pro望尘莫及,更在技术上实现了飞跃。
谷歌透露,Flash采用了一系列尚未在Pro中应用的优化技术,使其在多个维度上表现出色。
网友纷纷表示,Flash的出色表现标志着帕累托前沿的逆转,是时候重新审视对“旗舰版”的盲目崇拜了。
根据谷歌团队的最新评测,Gemini 3 Flash不仅在智能程度上超越了前代Gemini 2.5 Pro,还在编程能力和多模态推理等核心领域,直接击败了自家的旗舰Gemini 3 Pro以及竞争对手GPT-5.2。
在SWE-Bench Verified测试中,Flash取得了78%的高分,远超Gemini 2.5 Pro,并逼近了Gemini 3 Pro的76.2%。
在AIME 2025数学竞赛中,结合代码执行能力的Flash得分高达99.7%,几乎达到了满分。
即使在极为艰难的Humanity’s Last Exam测试中,Flash也紧追旗舰,未使用工具的情况下获得了33.7%的分数,与Pro版的37.5%处于同一水平。
除了强大的智能指标,Flash的响应速度和成本也极具优势。
数据显示,Gemini 3 Flash的推理速度是2.5 Pro的三倍,Token消耗量减少30%,价格也极具竞争力,输入端仅需0.5美元每100万Token,输出端为3美元每100万Token。
尽管比Gemini 2.5 Flash略贵,但其性能和速度使其价格依然极具吸引力。
如果轻量版已如此强大,甚至在某些关键指标上反超,“超大杯”的意义何在?
谷歌核心团队的回答令人意外——这并非研发失误,而是其顶层设计的核心策略。
近日,Gemini的三位负责人——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer,以及Google AI Studio产品负责人Logan Kilpatrick共同揭示了这一战略背后的逻辑。
Vinyals直言,Pro模型的主要作用就是“蒸馏”Flash。
团队认为,像Flash这样“小而强”的模型对用户至关重要,随着迭代,新一代Flash往往能达到甚至超过上一代Pro的水平。
理想状态下,Pro将不计成本地探索智能上限,而Flash则通过蒸馏技术继承Pro的能力,并优化延迟、成本和吞吐量。未来Pro可能主要作为“生成器”,生产高质量的Flash模型。
但这并不意味着Scaling Law已失效。
面对Flash的“以小博大”,外界可能误以为大模型已走到尽头。然而Vinyals明确反驳了这一观点,他表示尽管规模扩展面临挑战,但团队通过持续扩大规模实现了巨大飞跃,前方依然“没有界限”。
Scaling Law虽在演变,但并未消亡。Noam认为单纯堆砌参数提升智能的路径正逼近极限,“规模神话”不再是唯一真理。未来扩展将转向推理侧的扩展(Test-time Compute)。
三位负责人一致认为后训练(Post-training)是最大“未开垦绿地”。尽管基准测试被逐渐击穿,但在开放式任务上通过后训练提升的空间巨大。
Flash的冲击波引发了关于“参数至上论”的大讨论。
开发者惊讶地发现,“帕累托前沿”发生了倒转——更便宜、更快的模型也变得更聪明。
这打破了“模型越大越好”的迷信。
针对Flash如何反杀Pro,Google DeepMind的研究员Ankesh Anand揭示了背后的技术——强化学习。
他明确指出,Flash集成了大量最新的Agentic RL研究成果。
这证明了一个核心命题:提升模型能力并非仅靠堆砌参数。
通过更先进的后训练算法(如RL),小模型可实现“降维打击”,在软件工程等关键领域击败参数量巨大的旗舰模型。
开发者纷纷表示,是时候告别对“旗舰版”的盲目崇拜了。
本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546781.html