当前位置:首页 > 科技资讯 > 正文

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用

谷歌的技术积淀确实令人叹服,在AI领域的布局总是先人一步。

就在前不久,谷歌刚刚凭借「大模型」Gemini 3 Pro和Flash版本在性能上压制了OpenAI,展现出强大的竞争力。然而他们并未止步,紧接着又在端侧「小模型」领域展开了新一轮攻势。

昨夜,谷歌一口气发布了两篇技术博客,全部聚焦于端侧智能,显示出其推动AI向终端下沉的决心。

其一是T5Gemma 2,这是一项针对底层架构的重大创新,也是首个开源的多模态长上下文编码器-解码器模型,最小规模为270M参数(270M–270M),为端侧多模态应用提供了全新选择。

另一个则是FunctionGemma,这是一个专为函数调用场景优化的270M(2.7亿参数)模型,专为在手机、浏览器等资源受限设备上高效运行而设计。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第1张

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第2张

T5Gemma 2FunctionGemma均出身于Gemma 3模型家族。与Gemini这样的大模型相比,Gemma系列主攻轻量级场景,可视为谷歌在端侧AI的尖兵。

尽管两者同属小模型阵营,但它们如同同门师兄弟,各自专精于不同的技术方向。

T5Gemma 2聚焦于架构效率与多模态能力,其核心是对Encoder-Decoder架构的复兴与现代化改造。

而FunctionGemma则致力于智能体与工具使用,将Function Calling能力发挥到极致,使模型能够精准调用外部API和工具。

T5Gemma 2采用的架构与当前主流的LLM大相径庭,它代表了AI技术发展中一条截然不同的路径。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第3张

论文地址:https://arxiv.org/pdf/2512.14856

谷歌此次开源了T5Gemma 2的多个版本,包括270M–270M、1B–1B以及4B–4B三种规模的预训练模型,以满足不同端侧设备的需求。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第4张

开源地址:https://huggingface.co/collections/google/t5gemma-2

FunctionGemma则可视为Gemma家族的技能变体,它通过专项训练,将模型的能力聚焦于函数调用这一特定技能上。

可以理解为将大模型中的通用知识剥离,仅保留执行函数调用所需的核心能力,从而实现极致的轻量化和专业化。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第5张

开源地址:https://blog.google/technology/developers/functiongemma/

T5Gemma系列深层技术解析

首先,我们来深入解析T5Gemma 2这种「新结构」所带来的核心优势:

强大的多模态性能:在多个公开基准测试中,T5Gemma 2的表现超越了谷歌自家的Gemma 3模型,尤其是在视觉与语言融合任务上。

全面提升的通用能力:在代码生成、逻辑推理以及多语言处理等任务上,T5Gemma 2均表现出优于同规模Gemma 3模型的性能。

卓越的长上下文处理能力:与Gemma 3及第一代T5Gemma相比,T5Gemma 2在长文本生成和理解质量上实现了显著跃升。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第6张

与T5Gemma类似,T5Gemma 2在预训练阶段的性能已经能够媲美甚至超越Gemma 3对应体量模型,而在经过后训练(如指令微调)后,其表现更是大幅领先

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第7张

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第8张

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第9张

要理解谷歌为何重拾T5Gemma,就必须回顾大模型技术路线的演变脉络

T5Gemma的出现,堪称大模型领域的「古典主义复兴」——它让Encoder-Decoder这一经典架构重新回到舞台中央。

在GPT、Llama等Decoder-only架构占据绝对主导的今天,T5Gemma 2选择回归Transformer的原始设计——Encoder-Decoder架构,并对其进行现代化改造,使其适应新的应用需求。

目前市面上几乎所有主流大模型,如GPT系列、Gemini、DeepSeek等,均采用Decoder-only架构。

GPT系列(OpenAI):从最初的GPT-1到最新的GPT-4o,始终坚守Decoder-only路线。

DeepSeek:无论是DeepSeek-V2还是最新发布的V3,其核心架构依然是Decoder-only,并融合了MoE(混合专家)技术以提升效率。

Llama(Meta):作为开源社区的明星,Llama系列同样是Decoder-only架构的典范。

Gemini(谷歌):即便是谷歌自家的Gemini主线模型(Pro/Flash版本),也主要采用Decoder-only架构。

可以说,当前所有用于对话的超级模型,几乎无一例外地选择了Decoder-only架构

为什么说T5Gemma 2是「回归」?

要解答这个问题,我们需要回溯Transformer架构的「分家史」。

所谓回归,必然意味着曾经存在。让我们看看它们当初是如何分道扬镳的。

2017年,谷歌在《Attention Is All You Need》论文中首次提出Transformer时,原始架构正是完整的Encoder-Decoder结构

但后来,家族分成了三个流派:

流派A:Encoder-only(只用编码器)

代表人物:BERT

特长:擅长「阅读理解」,但缺乏生成能力。它在文本分类、情感分析等判别式任务上表现卓越,却无法进行文本生成。

流派B:Decoder-only(只用解码器)

代表人物:GPT

特长:专精于「下一个词预测」。尽管其注意力只能关注左侧上下文,不如Encoder那样能双向理解,但它天生具备生成能力,并且随着规模扩大,涌现出了令人惊叹的智能

可以说,Decoder-only的崛起「意外地」开启了生成式AI的时代,带来了今日的AI热潮。

流派C:Encoder-Decoder(全套保留)

代表人物:T5(谷歌),BART

特长:既擅长理解又擅长生成,是真正的全能型选手。T5Gemma 2正是这一流派的最新继承者。

T5的全称是Text-to-Text Transfer Transformer,连着5个T,所以叫T5。

那么,为何最终是Decoder-only流派一统江湖呢?

  1. 训练简单粗暴:

Decoder-only的训练目标极其简单:只需将海量文本输入,让模型不断预测下一个词即可,这种自监督学习方式使得训练数据几乎无限。

  1. 上限极高:

这得益于Scaling Law(规模定律):随着模型参数和数据量的增加,Decoder-only模型的智能水平提升最为显著,且在工程上更容易通过大规模并行训练实现扩展。

  1. Encoder-Decoder被冷落:

相比之下,Encoder-Decoder架构包含两套参数,训练复杂度更高,且在扩展到千亿参数级别时,其性价比和扩展性不如Decoder-only架构极致。

因此,只有像谷歌这样拥有雄厚技术积累和计算资源的公司,才有能力和魄力回归这一经典架构,探索其潜力。

当全世界都在疯狂追逐Decoder-only时,谷歌却出人意料地杀了个回马枪,重拾Encoder-Decoder。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第10张

既然Decoder-only如此强大,谷歌为何还要回头拥抱Encoder-Decoder?

原因在于,谷歌发现了Decoder-only的几处固有短板,而这些恰恰是Encoder-Decoder的强项所在:

「幻觉」问题(瞎编):

Decoder-only(GPT)

Decoder-only模型在生成时是边想边写,一旦进入自由发挥状态,可能偏离事实,产生「幻觉」。

Encoder-Decoder(T5)

是「先读懂(Encoder)-再动笔(Decoder)」

Encoder-Decoder则遵循「先理解后表达」的原则:Encoder先彻底理解输入,形成完整的语义表示,再由Decoder生成输出。

Encoder会强迫模型先把你的输入彻底消化一遍,生成一个完整的「中心思想向量」,然后再让Decoder翻译出来。

这种机制使得模型生成的内容更加严谨,显著降低了幻觉发生的概率。

在多模态方面的天然优势:

当处理图像等多模态输入时,Encoder天然是最佳的「眼睛」。

T5Gemma 2可以将图像特征直接输入Encoder,让模型在理解阶段就融合视觉信息,这比强行将图像token插入Decoder-only的序列中要自然得多。

端侧效率(手机上跑):

在手机等端侧设备上,若任务聚焦于翻译、摘要、指令执行等,Encoder-Decoder往往能以更少的参数和更小的内存占用,达到与庞大Decoder-only模型相当的效果,从而实现高效的本地运行。

因此,T5Gemma 2并非意在推翻Decoder-only的主流地位,而是在端侧、翻译、工具调用、严谨推理等特定领域,为Encoder-Decoder架构开辟了新的应用空间

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第11张

值得注意的是,谷歌并未从零开始训练T5Gemma,而是采用了一种名为「模型适配」的高效技术。

该技术利用已经过数万亿token训练的Gemma 2或Gemma 3解码器模型作为基础,将其权重巧妙地映射到新的编码器-解码器架构中,从而大幅降低了训练成本,并继承了原模型的语言能力。

FunctionGemma:智能体的专用大脑

如果说T5Gemma是在底层架构上的创新,那么FunctionGemma则是在功能实现上的突破

FunctionGemma直击大模型落地过程中的核心痛点:模型不仅需要能聊天,更需要能执行实际任务,即具备「干活」的能力。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第12张

函数调用能力:普通模型面对「定个闹钟」或「查天气」这类指令时,常常只能给出文本回复,无法真正执行操作。FunctionGemma经过专门微调,能够精准输出结构化的调用指令(如JSON格式),直接触发外部API或工具,完成实际任务。

智能体优化:FunctionGemma专为AI Agent设计,能够进行多步推理并执行复杂任务,是构建自主智能体的理想核心。

极致轻量化:270M的参数规模使其能够直接在手机、智能家居设备等低功耗边缘设备上运行,充当系统的「控制中枢」。

适用场景:手机语音助手、家庭自动化控制、端侧AI Agent、API调度中心。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第13张

FunctionGemma并非简单的Gemma缩小版,而是一个经过专门设计的「神经路由器」,其目标是在端侧解决云端大模型固有的延迟高、隐私风险大、成本昂贵等问题。

从对话到行动的范式跃迁

过去一年,LLM的发展主要聚焦于对话能力、知识广度和多模态理解力的提升。

然而,随着应用深入,开发者社区最迫切的需求已悄然转变:从「能聊天的AI」转向「能干活的AI」。

这种从「对话式接口」到「主动执行体」的转变,要求模型不仅要理解自然语言,还要能精确操作软件接口、执行多步骤工作流,甚至与物理世界互动。

FunctionGemma的诞生,正是对这一趋势的精准响应。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第14张

作为Gemma 3家族中参数最小的成员,FunctionGemma舍弃了通用知识的广度,换来了对函数调用任务的极致优化。

这种「特种兵」式的设计思路,代表了AI工程化的新方向:通过模型的小型化和专业化,将智能从云端下沉到网络边缘——用户的手机、IoT设备甚至浏览器中。

FunctionGemma能在极小参数规模下实现高性能函数调用,得益于其独特的架构设计与训练策略。

它不是简单地对大模型进行压缩,而是基于Gemma 3架构进行针对性优化,专注于句法结构的精确性和逻辑判断的确定性。

FunctionGemma拥有2.7亿(270M)参数。

在参数动辄数千亿的今天,2.7亿显得微不足道,甚至不及大模型的零头,但其背后的设计哲学却极具颠覆性。

通常,模型的推理能力随参数规模扩大而涌现(Scaling Laws)。

然而,FunctionGemma打破了这一常规,证明了在特定领域,小模型通过高质量数据微调,完全可能达到甚至超越大模型的表现。

尽管官方未披露具体蒸馏细节,但270M的规模意味着大量通用知识被剔除,模型只保留了执行函数调用所必需的知识。

模型不再需要记忆「法国的首都是哪里」或「莎士比亚的生平」,只需精通JSON解析、函数签名匹配和参数类型处理。

发力移动端

「能在手机上运行吗?」这是开发者最关心的问题。

答案是肯定的,FunctionGemma正是为移动端而生。

在移动设备上,RAM(随机存取存储器)是最宝贵的资源。

Android系统的低内存回收机制,会毫不留情地关闭占用内存过大的后台进程。

FunctionGemma 270M在FP16精度下的权重大小约为540MB

对于配备8GB、12GB甚至24GB内存的现代Android旗舰机,540MB仅占5%-7%的内存,完全可以在后台常驻。

Int8/Int4(量化):为了进一步降低功耗和内存占用,端侧部署通常使用量化技术。

Int8量化:模型大小降至约270MB

Int4量化:模型大小降至约135MB

这意味着,即便是入门级设备甚至嵌入式设备,也能流畅运行FunctionGemma。

谷歌为何要发布这样一个「小」模型?

这背后隐藏着谷歌对未来AI计算架构的深刻思考,以及在移动操作系统控制权争夺中的防御性布局。

这是FunctionGemma最核心的战略价值。

移动互联网的下一个阶段

移动互联网的下一个阶段,将是意图驱动的时代。

在意图驱动模式下,用户不再需要点击图标打开APP,而是直接通过语音或文字表达意图,系统自动调用相应功能。

现状:Siri、谷歌Assistant等手机助手,长期以来受限于硬编码指令集,仅能通过特定接口调用APP的有限功能。

FunctionGemma通过让模型直接学习APP的API定义,试图让AI成为通用的用户界面,理解并操作任何APP。

开发者只需要暴露工具(Tools),FunctionGemma就能理解并操作这些工具。

谷歌的野心在于,通过开源FunctionGemma,实际上是在制定一套AI与APP交互的标准协议

若所有Android开发者都遵循FunctionGemma的格式定义工具,谷歌的Android系统将进化为全球最强大的智能体平台,从而进一步巩固其生态护城河。

为验证FunctionGemma的能力,谷歌提供了两个典型参考实现,展示了其在游戏和系统控制领域的应用潜力。

场景描述:用户用自然语言发出指令,模型将其转换为Android系统意图。

技术细节

多参数提取:用户说「给John发邮件说我迟到了」,模型提取recipient="John",body="我迟到了",action="send_email"。

歧义处理:若用户只说「发邮件」,模型可调用ask_clarification函数,主动反问「发给谁?」,这种多轮交互能力远超硬编码助手。

性能对比:微调后的FunctionGemma在此任务上准确率高达85%,远超未微调基座模型的58%,有力证明了在端侧垂直领域,小模型完全可以替代大模型。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第15张

「Tiny Garden」Demo展示了FunctionGemma如何驱动游戏逻辑。

场景:一个语音控制的种田游戏。用户说「在顶排种满向日葵,然后给它们浇水」。

任务分解(TaskDecomposition):模型不仅要识别意图,还要进行逻辑推理。它需要将这一句话拆解为一系列函数调用:

select_crop(type="sunflower")

plant(row=0,col=0)...plant(row=0,col=N)

water(row=0)

完全离线:整个过程无需联网,这对确保手游流畅体验至关重要,避免了网络延迟带来的卡顿。

谷歌发布端侧小模型双子星:T5Gemma 2架构创新与FunctionGemma函数调用 谷歌 端侧小模型 T5Gemma 2 FunctionGemma 第16张

开发者而言,FunctionGemma提供了低成本、高隐私的Agent能力集成方案,无需昂贵服务器开销,让「语音控制一切」不再是巨头专利,而是每个APP都能标配的功能。

手机厂商而言,270M参数量堪称完美「甜点」——既能充分利用现有NPU硬件,又不过度挤占系统资源,为打造「AI原生OS」提供了理想地基。

对于谷歌而言,这是其在AI时代捍卫Android生态控制权的关键一步。

展望未来,基于FunctionGemma的变体将无处不在:在智能手表中处理健康数据,在路由器中优化网络,在汽车中调节空调……

AI将不再是一个需要「访问」的网站,而是一种像电力一样,无形却无处不在的基础设施。

参考资料:

https://blog.google/technology/developers/functiongemma/

https://blog.google/technology/developers/t5gemma-2/