倒反天罡!谷歌最新轻量模型Gemini 3 Flash上演了一场完美的“以下克上”戏码。
在权威的SWE-Bench Verified编程测试中,Gemini 3 Flash一举拿下78%的惊人成绩,不仅碾压了前代旗舰Gemini 2.5 Pro,更以1.8个百分点的优势反超自家“超大杯”Gemini 3 Pro(76.2%)。速度与成本更是Pro版难以企及的——推理速度提升3倍,Token消耗减少30%,输入/输出价格分别低至0.5美元/3美元每百万Token。
谷歌官方解释称,Flash版率先应用了多项尚未下放至Pro的优化技术。但在开发者社群看来,这一结果彻底改写了帕累托前沿——更小、更快、更便宜的模型,居然同时更聪明。是时候告别“唯旗舰论”了。
根据谷歌DeepMind最新披露的全方位评测,Gemini 3 Flash不仅在编程领域一骑绝尘,在AIME 2025数学竞赛中结合代码执行能力更是刷出了99.7%的准满分,近乎击穿基准;即便在号称“现代大模型噩梦”的Humanity’s Last Exam中,Flash不借助工具仍取得33.7%的分数,与Pro版37.5%同处第一梯队。多模态推理、代码生成等核心维度均实现对Pro及竞品GPT-5.2的压制。
当轻量版在关键指标上反超大杯,人们不禁要问:Pro存在的意义何在?谷歌核心团队的回应出人意料——这并非事故,而是顶层设计的核心环节。
日前,DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean、Noam Shazeer以及Google AI Studio产品负责人Logan Kilpatrick罕见同台,揭开了战略面纱。Vinyals直言:“Pro模型的主要职责就是蒸馏出Flash。”团队坚信,小而强的Flash才是服务亿万用户的终极形态。每一代Flash都会通过蒸馏技术继承Pro探索到的智能上限,并在延迟、成本、吞吐量上极致优化。未来,Pro甚至可能仅作为“生成器”存在,专为生产更强大的Flash而服务。
这是否意味着Scaling Law已然失效?Vinyals坚决否认:“前方看不见墙。” Gemini团队通过持续扩大规模仍获得巨大飞跃,只是扩展的重心正从预训练算力堆砌,转向推理侧扩展(Test-time Compute)与后训练。Noam Shazeer补充:“代码、数学等基准正被逐渐击穿,但规划旅行、创意写作等开放式任务仍是后训练的蓝海,潜力巨大。”
Flash反杀Pro的现象引爆了“参数至上论”的信任危机。Google DeepMind研究员Ankesh Anand揭开了技术底牌:Flash并非Pro的简单蒸馏版,而是集成了大量前沿的Agentic RL(代理强化学习)成果。通过先进的后训练算法,小模型足以在软件工程等复杂领域对参数数倍于己的旗舰模型实施“降维打击”。参数规模≠智能水平,这一命题得到了最有力的实证。
开发者们恍然:那个曾经坚不可摧的“旗舰迷信”已然崩塌。当轻量模型以更低成本、更快速度实现全方位反超,AI产业的选型逻辑将彻底重塑——未来属于极致高效的智能体,而非臃肿的旗舰。
参考链接:
https://x.com/i/trending/2002668487114727561
https://twitter.com/i/spaces/1eaJbjvBOooJX/peek
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224984.html