【导读】轻量级却超能?Gemini 3 Flash用百万级长上下文和亲民价格,让自家大哥Pro黯然失色。谷歌到底用了什么黑科技,让整个大模型圈为之震撼?
Gemini 3 Flash发布以来,速度提升三倍的同时,智力也反超Pro。
然而,至今无人能解释清楚:为何Flash能比Pro更「聪明」。
一个参数规模大幅缩减的模型,如何在更大规模模型擅长的领域实现超越?
长久以来,业界信奉「参数即正义」,认为更大模型必然带来更智能表现。
Gemini 3 Flash的出现打破了这一逻辑,不仅在成本和速度上保持轻量级,还在多项基准测试中击败前代甚至当代的「Pro」级模型。
最近发现,在长文本测试中,Gemini 3 Flash更是遥遥领先!
在OpenAI的MRCR基准测试中,Gemini 3 Flash在100万上下文长度下达到90%的准确率!
这一表现在所有模型中均属最先进水平,大多数顶尖模型甚至无法突破256k的上下文长度。
那么谷歌到底用了什么黑科技?
Gemini 3 Flash凭什么在百万长文本与低成本间实现「降维打击」?
知名AI研究员@bycloudai指出,谷歌可能在模型架构研究上已处于「遥遥领先」的隐形地位。
这一表现打破了行业常规认知:它既没有高昂算力成本,也没有导致知识推理能力下降。
Gemini 3 Flash似乎掌握了某种未知的「高效注意力机制」。
再挖掘Gemini 3 Flash的黑魔法前,有必要先介绍评测标准。
在2023年至2024年间,评估大语言模型长上下文能力的主流方法是「大海捞针」(Needle In A Haystack,NIAH)。
该测试将一个特定的事实插入到长篇文档的随机位置,要求模型将其检索出来。
然而,随着模型上下文窗口扩展,NIAH测试迅速饱和。
早期模型如Gemini 1.5 Pro、GPT-4 Turbo在该测试中均能达到近乎100%的准确率。
NIAH本质上测试的是检索能力而非推理能力。
它要求模型找到信息,但不要求模型理解信息之间的复杂依赖关系。
Context Arena应运而生,专注于长上下文理解能力评估。
我们来对比一下常见的注意力机制。
标准注意力是平方级的,于是诞生了线性注意力。
稀疏注意力保留了高精度,通过只计算「重要」部分来降低计算量。
比如DeepSeek的DSA(DeepSeek Sparse Attention)。
本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546827.html