当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘

【导读】模型参数少反而更聪明?Gemini 3 Flash凭借百万级长文本处理和极低成本,将同门Pro模型甩在身后。谷歌究竟使用了何种神秘技术,令整个AI领域为之震惊?

Gemini 3 Flash发布已有时日,其运行速度提升三倍,智能表现却超越Pro版本。

然而,迄今为止,仍无人能解释为何Flash模型的智能水平能超越Pro。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第1张

为何一个参数量明显减少的模型,能在原本属于大型模型的优势领域实现反超?

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第2张

长久以来,业界普遍信奉‘参数至上’的理念,认为模型规模越大(参数量越多),智能水平必然越高。

但Gemini 3 Flash的问世颠覆了这一线性认知。它既延续了‘Flash’系列在成本和速度上的轻量化优势,又在多个重要基准测试中,特别是在复杂推理和超长上下文任务上,超越了前代乃至同代的‘Pro’级别模型。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第3张

近期有研究发现,在长上下文测试中,Gemini 3 Flash的表现更是遥遥领先!

在OpenAI推出的MRCR基准测试里,Gemini 3 Flash在百万级上下文长度下实现了90%的准确率!

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第4张

这一成绩在所有模型中处于顶尖水平,大多数主流模型甚至难以突破256k的上下文限制。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第5张

那么谷歌究竟采用了何种黑科技?

Gemini 3 Flash如何能在百万级长文本和低成本之间实现‘降维打击’?

知名AI研究者@bycloudai经过深入测评后指出,谷歌或许在模型架构研究领域已悄然占据‘遥遥领先’的隐形优势

这一表现颠覆了行业常规认知:它既未像标准注意力机制那样带来高昂的计算成本,也未像常见的线性注意力或SSM混合模型那样牺牲知识推理能力。

Gemini 3 Flash似乎掌握了一种未知的‘高效注意力机制’,让外界对其背后的技术原理感到‘看不懂’却又大为震撼。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第6张

在深入挖掘Gemini 3 Flash的黑科技之前,有必要先了解其评测标准。

在2023至2024年间,评估大语言模型长上下文能力的主流方法是‘大海捞针’(Needle In A Haystack,NIAH)测试。

该测试将某个特定事实(针)随机插入长篇文档(大海)中,要求模型将其准确检索出来。

但随着模型上下文窗口扩展到128k甚至1M token,NIAH测试迅速达到饱和。

像Gemini 1.5 Pro、GPT-4 Turbo等早期模型在该测试中都能达到近乎100%的准确率。

NIAH本质上是测试模型的检索能力而非推理能力

它要求模型找到信息,但并不要求模型理解信息间的复杂依赖关系。

这造成了一种错觉:似乎所有模型都已完美掌握长上下文处理。

但在实际企业级应用中,如法律文档分析、代码库理解等场景,用户不仅需要模型找到‘条款A’,还需理解‘条款A’与‘条款B’在特定条件下的冲突,这种高阶能力是NIAH所无法覆盖的。

正是在此背景下,Context Arena应运而生。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第7张

这是一个由独立研究者(如Dillon Uzar等人)维护的基准平台,专注于评估模型的长上下文理解能力。

Context Arena不仅是一个排行榜,更是诊断大模型‘注意力缺陷’的工具,是衡量模型‘智商’和长程记忆稳定性的试炼场。

Context Arena最具威力的武器是MRCR(多轮共指消解)基准测试。

OpenAI受Gemini启发,也推出了OpenAI-MRCR,即前文所述的评测基准。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第8张

这是一项设计巧妙的压力测试,旨在突破那些使用近似注意力机制(如线性注意力或稀疏注意力)的模型的防线。

测试机制如下:MRCR会生成一段极长的、多轮次的合成对话或文本。

在这些文本中,系统会植入多个高度相似的‘针’(Needles)。

例如,文本中可能包含8首关于‘貘’(tapir)的诗,每首诗风格略有差异但主题一致。

挑战在于系统会向模型提出极其刁钻的指令,如:‘请复述关于貘的第二首诗’或‘找出第四次提到貘时的具体描述’。

在Context Arena的MRCR榜单上,Gemini 3 Flash展现了惊人的统治力。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第9张

这直接证明Gemini 3 Flash并未因追求速度而牺牲核心的‘注意力精度’。

揭秘谷歌背后的技术

我们先对比几种常见的注意力机制。

标准注意力的计算复杂度是平方级的,因此催生了线性注意力等新技术。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第10张

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第11张

另一种是稀疏注意力

稀疏注意力保留了标准注意力的高精度,但通过仅计算‘重要’部分来降低计算量。

例如,DeepSeek的DSA(DeepSeek稀疏注意力)。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第12张

DeepSeek认为,对于任何查询,绝大多数历史信息都是无关的,因此无需计算全部注意力。

DSA采用启发式算法(如Lightning Indexer),快速筛选出最相关的Top-K个token或块(Block),仅对这些部分进行精细计算。

此外还有一些混合架构,例如Gemini所采用的策略。

尽管谷歌未公开细节,但业界推测Gemini 3 Flash也是一种高度复杂的混合架构,可能在底层使用Infini-attention处理超长历史,在顶层使用标准注意力进行逻辑推理,并结合MoE(混合专家模型)进一步降低计算成本。

总的来说,谷歌之所以能让Gemini 3 Flash实现‘轻量级击败Pro’,并非依赖单一黑科技,而是基于TPU硬件、算法架构、训练数据三位一体的深度优化:

  • 数据层面(Data):借助Gemini 3 Pro进行大规模的链式思维蒸馏,将高阶推理能力‘压缩’至Flash模型中,使其具备超越参数规模的‘智商’。
  • 计算层面(Compute):引入思考(Thinking)机制,允许模型在推理时动态分配计算资源。面对难题,Flash模型会像人一样‘停下来想一想’,通过时间维度的算力投入弥补空间维度(参数量)的不足。
  • 记忆层面(Memory):部署Infini-attentionTitans风格记忆模块,将指数级注意力成本降维,实现在百万级以上上下文中仍保持高精度检索能力,彻底解决长上下文问题。

Gemini 3 Flash的战略价值

‘Flash’一词在谷歌产品线中历史悠久,自Gemini 1.5 Flash起,就被定位为高吞吐量、低延迟的工具,主要用于快速处理简单任务。

这种定位在用户心中根植了一个固有假设:Flash模型是Pro模型的蒸馏版本。

在传统模型压缩理论中,蒸馏意味着学生模型只能逼近而无法超越教师模型的表现。

因此,Gemini 3 Flash发布时,绝大多数分析师和开发者仅将其视为更廉价的API接口,而非推理引擎的革新。

然而,上述数据表明,Gemini 3 Flash正在讲述一个完全不同的故事。

这种‘轻量级反而更强’的现象,不能简单用更精细的数据清洗或更长的训练时间解释。

这暗示了底层架构的根本性变革——一种不再单纯依赖参数规模堆叠,而是依赖更高效的信息路由与记忆机制的新型架构。

Gemini 3 Flash的战略意义在于它打破了AI领域的线性增长法则。

过去,要实现10%的智能提升,通常需要10倍的算力投入。

但Gemini 3 Flash以每百万输入token仅0.5美元的极低价格,在GPQA Diamond基准测试中实现了90.4%的博士级推理能力。

这意味着谷歌不仅是在打价格战,更是在进行一场架构层面的降维打击。

当模型的推理成本低到可忽略不计,且长上下文召回能力接近完美(>99%)时,它就不再仅仅是聊天机器人,而是能吞噬企业知识库、实时重构代码库、并自主进行多轮迭代的‘智能代理’(Agent)。

没错,如果一个模型足够轻量、记忆能力强大、且价格低廉,其他‘智能体’将何以自处?

这种能力的解锁,使Gemini 3 Flash成为当前AI智能体爆发的关键推手。

在Pokémon游戏通关测试和SWE-bench代码修复任务中,Flash模型之所以能超越Pro模型,正是因其低延迟和低成本允许代理在单位时间内进行更多‘思考-行动-反思’循环。

这种通过高频迭代弥补单次推理深度不足的策略(甚至许多时候单次推理并不弱),正是当前AI进化的主要趋势。

谷歌的终极武器:Titans架构与神经长期记忆

结合Gemini 3 Flash在Context Arena的MRCR基准测试中百万上下文90%准确率的惊人表现,以及其低廉的推理成本,最合理的推测是:

Gemini 3 Flash大规模采用了谷歌DeepMind最新的‘Titans’架构或其变体。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第13张

根据谷歌发表的Titans论文,这是一种融合了Transformer和神经记忆的新型架构。

这些框架使AI模型能更快运行,并通过更新核心内存在运行时处理大规模上下文。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第14张

Titans包含三部分:

  • 核心(Core,短期记忆,通常为滑动窗口注意力)
  • 长期记忆(Long-term Memory)
  • 持久记忆(Persistent Memory)。

与传统的RNN(存储固定状态向量)不同,Titans的长期记忆是一个深度神经网络(MLP)

模型处理输入时,不仅将信息存入缓存,还通过梯度下降实时更新MLP的权重。

模型在推理阶段(Test Time)实际上是在‘学习’当前上下文。

它利用一个‘惊奇度’(Surprise Metric)指标衡量新信息的重要性。

若某段信息(如用户指定的随机哈希码)出乎模型预料(高惊奇度),模型便会通过梯度更新将其刻入长期记忆网络。

为何Titans能完美解释Gemini 3 Flash的表现?

  1. 无限上下文与线性复杂度:

Titans的MAC(Memory as Context)变体可将历史信息压缩至神经网络权重,而非无限增长的KV缓存。这解释了为何Flash能以极低内存占用处理百万级token,且速度极快(线性推理)。

  1. MRCR的高分:

在MRCR测试中,模型需记住非常具体的细节(Needles)。在Titans架构下,这些独特、重复出现的‘Needles’会产生高惊奇度信号,从而被优先‘学习’进记忆模块,而大量干扰文本则被遗忘门过滤。这比基于相似度检索的传统注意力机制更具抗噪性。

  1. 自适应能力:

用户反馈称Gemini 3 Flash似乎能‘学会’用户的纠正。这正是Titans‘测试时学习’特性的体现——模型在对话过程中动态调整参数。

在《Titans》和《MIRAS》两篇新论文中,谷歌提出了一种架构和理论蓝图,结合了RNN的速度与Transformer的精度。

Titans是具体架构(工具),MIRAS是理论框架(蓝图),旨在推广这些方法。

二者共同推动了测试时间记忆概念,即AI模型通过在运行时加入更强大的‘惊喜’指标(意外信息片段)来维持长期记忆的能力,无需专门的离线再训练。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第15张

一个有效的学习系统需要不同但相互关联的记忆模块,这反映了人脑对短期记忆和长期记忆的区分。

尽管注意力机制在精确短期记忆方面表现出色,Titans引入了一种新型神经长期记忆模块,它不同于传统RNN中的固定大小向量或矩阵记忆,而是充当深度神经网络。

该记忆模块提供了显著更高的表达能力,使模型能在不丢失重要上下文的情况下总结大量信息。模型不仅做笔记,更能理解并综合整个故事。

关键在于,Titans不仅是被动存储数据。

它能主动学习识别并保留连接整个输入中Token的重要关系和概念主题。这项能力的关键方面是我们所说的‘惊喜指标’。

在人类心理学中,我们容易忘记例行公事和预期事件,但会记住打破常规的事情——意外、惊喜或情绪激动的事件。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第16张

在Titans的语境中,‘惊讶指标’指模型检测到当前记忆与新输入信息之间的巨大差异。

  • 低惊讶:若新词为‘cat’,且模型记忆状态已预期动物词,则梯度(惊讶)较低。它可以安全跳过长期记忆中的‘猫’。
  • 高惊喜:若模型记忆状态正总结严肃财务报告,而新输入是一张香蕉皮图片(意外事件),则梯度(惊喜)会非常高。这表明新输入重要或异常,必须优先存储于长期记忆模块。

模型将此内部误差信号(梯度)视为数学等价物,例如:‘这是意外且重要!’这使得Titans架构能有选择地更新长期记忆,仅包含最新颖且打破上下文的信息,从而保持整体流程的快速高效。

Titans通过整合两个关键要素完善这一机制:

  1. 动量:模型同时考虑‘瞬间惊讶’(当前输入)和‘过去惊讶’(近期上下文流)。这确保后续相关信息也能被捕获,即使这些Token本身并不令人意外。
  2. 遗忘(权重衰减):为在处理极长序列时管理有限记忆容量,Titans采用自适应权重衰减机制。这起到遗忘门作用,允许模型丢弃不再需要的信息。

MIRAS:序列建模的统一视角

序列建模的每一项重大突破,从现代Transformer到新型闪电高速线性RNN,本质上都是同一件事:一个高度复杂的联想记忆模块

因此,MIRAS的独特与实用之处在于其对AI建模的看法。它不再关注多样化架构,而是聚焦于解决同一问题的不同方法:高效结合新信息与旧记忆,同时不遗忘核心概念

MIRAS通过四个关键设计选择定义序列模型:

  • 内存架构:存储信息的结构(例如,向量、矩阵或深度多层感知器,如Titans中的结构)。
  • 注意力偏差:模型优化的内部学习目标,决定其优先考虑的内容。
  • 保留门:内存规范器。MIRAS将‘遗忘机制’重新解释为一种特定的正则化形式,平衡新学习与保留过去知识。
  • 内存算法:用于更新内存的优化算法。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第17张

这些新架构最显著的优势是能处理极长上下文。

这一点在BABILong基准测试中得以体现,该任务需在极长文档中对事实进行推理。

在此充满挑战的环境中,Titans的表现优于所有基线模型,包括像GPT-4这样极其庞大的模型,尽管其参数量远少于GPT-4。

Titans进一步展示了能有效扩展到超过200万token的上下文窗口。

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第18张

Titans和MIRAS框架的引入标志着序列建模的重大进步。

通过将深度神经网络作为记忆模块,在数据流入时学习记忆,这些方法克服了固定大小循环状态的局限。

此外,MIRAS提供了强大的理论统一,揭示了在线优化、联想记忆与架构设计间的联系。

这项研究为新一代序列模型打开了大门,这些模型结合了RNN的高效与长上下文AI时代所需的表达能力。

彩蛋

分别向Gemini和GPT询问Gemini 3 Pro和Flash的参数规模。

Gemini 3 Flash的回答:

根据截至2025年12月的最新行业信息和技术分析,谷歌官方未公开Gemini 3 Pro和Gemini 3 Flash的确切参数量。这是谷歌自Gemini 1.0以来的一贯策略,主要出于保护架构机密的考虑。

然而,基于技术白皮书的推断、行业泄露信息以及对性能(token生成速度和显存占用)的逆向分析,目前的主流估算(数量级)如下:

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第19张

GPT 5.2的回答:

谷歌Gemini 3 Flash:小参数大智慧,百万长文本低成本背后的技术揭秘 Gemini Flash 长上下文 Titans架构 注意力机制 第20张

总之,Pro和Flash两模型的参数量级相差约5~10倍(估算)。因此,Flash的使用体验远超预期,引发社区广泛讨论。

参考资料:

https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

https://x.com/bycloudai/status/2002347892535930934