谷歌的技术积淀确实令人叹服,在AI领域的布局总是先人一步。
就在前不久,谷歌刚刚凭借「大模型」Gemini 3 Pro和Flash版本在性能上压制了OpenAI,展现出强大的竞争力。然而他们并未止步,紧接着又在端侧「小模型」领域展开了新一轮攻势。
昨夜,谷歌一口气发布了两篇技术博客,全部聚焦于端侧智能,显示出其推动AI向终端下沉的决心。
其一是T5Gemma 2,这是一项针对底层架构的重大创新,也是首个开源的多模态长上下文编码器-解码器模型,最小规模为270M参数(270M–270M),为端侧多模态应用提供了全新选择。
另一个则是FunctionGemma,这是一个专为函数调用场景优化的270M(2.7亿参数)模型,专为在手机、浏览器等资源受限设备上高效运行而设计。
T5Gemma 2与FunctionGemma均出身于Gemma 3模型家族。与Gemini这样的大模型相比,Gemma系列主攻轻量级场景,可视为谷歌在端侧AI的尖兵。
尽管两者同属小模型阵营,但它们如同同门师兄弟,各自专精于不同的技术方向。
T5Gemma 2聚焦于架构效率与多模态能力,其核心是对Encoder-Decoder架构的复兴与现代化改造。
而FunctionGemma则致力于智能体与工具使用,将Function Calling能力发挥到极致,使模型能够精准调用外部API和工具。
T5Gemma 2采用的架构与当前主流的LLM大相径庭,它代表了AI技术发展中一条截然不同的路径。
论文地址:https://arxiv.org/pdf/2512.14856
谷歌此次开源了T5Gemma 2的多个版本,包括270M–270M、1B–1B以及4B–4B三种规模的预训练模型,以满足不同端侧设备的需求。
开源地址:https://huggingface.co/collections/google/t5gemma-2
FunctionGemma则可视为Gemma家族的技能变体,它通过专项训练,将模型的能力聚焦于函数调用这一特定技能上。
可以理解为将大模型中的通用知识剥离,仅保留执行函数调用所需的核心能力,从而实现极致的轻量化和专业化。
开源地址:https://blog.google/technology/developers/functiongemma/
首先,我们来深入解析T5Gemma 2这种「新结构」所带来的核心优势:
强大的多模态性能:在多个公开基准测试中,T5Gemma 2的表现超越了谷歌自家的Gemma 3模型,尤其是在视觉与语言融合任务上。
全面提升的通用能力:在代码生成、逻辑推理以及多语言处理等任务上,T5Gemma 2均表现出优于同规模Gemma 3模型的性能。
卓越的长上下文处理能力:与Gemma 3及第一代T5Gemma相比,T5Gemma 2在长文本生成和理解质量上实现了显著跃升。
与T5Gemma类似,T5Gemma 2在预训练阶段的性能已经能够媲美甚至超越Gemma 3对应体量模型,而在经过后训练(如指令微调)后,其表现更是大幅领先。
要理解谷歌为何重拾T5Gemma,就必须回顾大模型技术路线的演变脉络。
T5Gemma的出现,堪称大模型领域的「古典主义复兴」——它让Encoder-Decoder这一经典架构重新回到舞台中央。
在GPT、Llama等Decoder-only架构占据绝对主导的今天,T5Gemma 2选择回归Transformer的原始设计——Encoder-Decoder架构,并对其进行现代化改造,使其适应新的应用需求。
目前市面上几乎所有主流大模型,如GPT系列、Gemini、DeepSeek等,均采用Decoder-only架构。
GPT系列(OpenAI):从最初的GPT-1到最新的GPT-4o,始终坚守Decoder-only路线。
DeepSeek:无论是DeepSeek-V2还是最新发布的V3,其核心架构依然是Decoder-only,并融合了MoE(混合专家)技术以提升效率。
Llama(Meta):作为开源社区的明星,Llama系列同样是Decoder-only架构的典范。
Gemini(谷歌):即便是谷歌自家的Gemini主线模型(Pro/Flash版本),也主要采用Decoder-only架构。
可以说,当前所有用于对话的超级模型,几乎无一例外地选择了Decoder-only架构。
要解答这个问题,我们需要回溯Transformer架构的「分家史」。
所谓回归,必然意味着曾经存在。让我们看看它们当初是如何分道扬镳的。
2017年,谷歌在《Attention Is All You Need》论文中首次提出Transformer时,原始架构正是完整的Encoder-Decoder结构。
但后来,家族分成了三个流派:
流派A:Encoder-only(只用编码器)
代表人物:BERT。
特长:擅长「阅读理解」,但缺乏生成能力。它在文本分类、情感分析等判别式任务上表现卓越,却无法进行文本生成。
流派B:Decoder-only(只用解码器)
代表人物:GPT。
特长:专精于「下一个词预测」。尽管其注意力只能关注左侧上下文,不如Encoder那样能双向理解,但它天生具备生成能力,并且随着规模扩大,涌现出了令人惊叹的智能。
可以说,Decoder-only的崛起「意外地」开启了生成式AI的时代,带来了今日的AI热潮。
流派C:Encoder-Decoder(全套保留)
代表人物:T5(谷歌),BART。
特长:既擅长理解又擅长生成,是真正的全能型选手。T5Gemma 2正是这一流派的最新继承者。
T5的全称是Text-to-Text Transfer Transformer,连着5个T,所以叫T5。
那么,为何最终是Decoder-only流派一统江湖呢?
Decoder-only的训练目标极其简单:只需将海量文本输入,让模型不断预测下一个词即可,这种自监督学习方式使得训练数据几乎无限。
这得益于Scaling Law(规模定律):随着模型参数和数据量的增加,Decoder-only模型的智能水平提升最为显著,且在工程上更容易通过大规模并行训练实现扩展。
相比之下,Encoder-Decoder架构包含两套参数,训练复杂度更高,且在扩展到千亿参数级别时,其性价比和扩展性不如Decoder-only架构极致。
因此,只有像谷歌这样拥有雄厚技术积累和计算资源的公司,才有能力和魄力回归这一经典架构,探索其潜力。
当全世界都在疯狂追逐Decoder-only时,谷歌却出人意料地杀了个回马枪,重拾Encoder-Decoder。
既然Decoder-only如此强大,谷歌为何还要回头拥抱Encoder-Decoder?
原因在于,谷歌发现了Decoder-only的几处固有短板,而这些恰恰是Encoder-Decoder的强项所在:
「幻觉」问题(瞎编):
Decoder-only(GPT)
Decoder-only模型在生成时是边想边写,一旦进入自由发挥状态,可能偏离事实,产生「幻觉」。
Encoder-Decoder(T5)
是「先读懂(Encoder)-再动笔(Decoder)」。
Encoder-Decoder则遵循「先理解后表达」的原则:Encoder先彻底理解输入,形成完整的语义表示,再由Decoder生成输出。
Encoder会强迫模型先把你的输入彻底消化一遍,生成一个完整的「中心思想向量」,然后再让Decoder翻译出来。
这种机制使得模型生成的内容更加严谨,显著降低了幻觉发生的概率。
在多模态方面的天然优势:
当处理图像等多模态输入时,Encoder天然是最佳的「眼睛」。
T5Gemma 2可以将图像特征直接输入Encoder,让模型在理解阶段就融合视觉信息,这比强行将图像token插入Decoder-only的序列中要自然得多。
端侧效率(手机上跑):
在手机等端侧设备上,若任务聚焦于翻译、摘要、指令执行等,Encoder-Decoder往往能以更少的参数和更小的内存占用,达到与庞大Decoder-only模型相当的效果,从而实现高效的本地运行。
因此,T5Gemma 2并非意在推翻Decoder-only的主流地位,而是在端侧、翻译、工具调用、严谨推理等特定领域,为Encoder-Decoder架构开辟了新的应用空间。
值得注意的是,谷歌并未从零开始训练T5Gemma,而是采用了一种名为「模型适配」的高效技术。
该技术利用已经过数万亿token训练的Gemma 2或Gemma 3解码器模型作为基础,将其权重巧妙地映射到新的编码器-解码器架构中,从而大幅降低了训练成本,并继承了原模型的语言能力。
如果说T5Gemma是在底层架构上的创新,那么FunctionGemma则是在功能实现上的突破。
FunctionGemma直击大模型落地过程中的核心痛点:模型不仅需要能聊天,更需要能执行实际任务,即具备「干活」的能力。
函数调用能力:普通模型面对「定个闹钟」或「查天气」这类指令时,常常只能给出文本回复,无法真正执行操作。FunctionGemma经过专门微调,能够精准输出结构化的调用指令(如JSON格式),直接触发外部API或工具,完成实际任务。
智能体优化:FunctionGemma专为AI Agent设计,能够进行多步推理并执行复杂任务,是构建自主智能体的理想核心。
极致轻量化:270M的参数规模使其能够直接在手机、智能家居设备等低功耗边缘设备上运行,充当系统的「控制中枢」。
适用场景:手机语音助手、家庭自动化控制、端侧AI Agent、API调度中心。
FunctionGemma并非简单的Gemma缩小版,而是一个经过专门设计的「神经路由器」,其目标是在端侧解决云端大模型固有的延迟高、隐私风险大、成本昂贵等问题。
过去一年,LLM的发展主要聚焦于对话能力、知识广度和多模态理解力的提升。
然而,随着应用深入,开发者社区最迫切的需求已悄然转变:从「能聊天的AI」转向「能干活的AI」。
这种从「对话式接口」到「主动执行体」的转变,要求模型不仅要理解自然语言,还要能精确操作软件接口、执行多步骤工作流,甚至与物理世界互动。
FunctionGemma的诞生,正是对这一趋势的精准响应。
作为Gemma 3家族中参数最小的成员,FunctionGemma舍弃了通用知识的广度,换来了对函数调用任务的极致优化。
这种「特种兵」式的设计思路,代表了AI工程化的新方向:通过模型的小型化和专业化,将智能从云端下沉到网络边缘——用户的手机、IoT设备甚至浏览器中。
FunctionGemma能在极小参数规模下实现高性能函数调用,得益于其独特的架构设计与训练策略。
它不是简单地对大模型进行压缩,而是基于Gemma 3架构进行针对性优化,专注于句法结构的精确性和逻辑判断的确定性。
FunctionGemma拥有2.7亿(270M)参数。
在参数动辄数千亿的今天,2.7亿显得微不足道,甚至不及大模型的零头,但其背后的设计哲学却极具颠覆性。
通常,模型的推理能力随参数规模扩大而涌现(Scaling Laws)。
然而,FunctionGemma打破了这一常规,证明了在特定领域,小模型通过高质量数据微调,完全可能达到甚至超越大模型的表现。
尽管官方未披露具体蒸馏细节,但270M的规模意味着大量通用知识被剔除,模型只保留了执行函数调用所必需的知识。
模型不再需要记忆「法国的首都是哪里」或「莎士比亚的生平」,只需精通JSON解析、函数签名匹配和参数类型处理。
「能在手机上运行吗?」这是开发者最关心的问题。
答案是肯定的,FunctionGemma正是为移动端而生。
在移动设备上,RAM(随机存取存储器)是最宝贵的资源。
Android系统的低内存回收机制,会毫不留情地关闭占用内存过大的后台进程。
FunctionGemma 270M在FP16精度下的权重大小约为540MB。
对于配备8GB、12GB甚至24GB内存的现代Android旗舰机,540MB仅占5%-7%的内存,完全可以在后台常驻。
Int8/Int4(量化):为了进一步降低功耗和内存占用,端侧部署通常使用量化技术。
Int8量化:模型大小降至约270MB。
Int4量化:模型大小降至约135MB。
这意味着,即便是入门级设备甚至嵌入式设备,也能流畅运行FunctionGemma。
这背后隐藏着谷歌对未来AI计算架构的深刻思考,以及在移动操作系统控制权争夺中的防御性布局。
这是FunctionGemma最核心的战略价值。
移动互联网的下一个阶段,将是意图驱动的时代。
在意图驱动模式下,用户不再需要点击图标打开APP,而是直接通过语音或文字表达意图,系统自动调用相应功能。
现状:Siri、谷歌Assistant等手机助手,长期以来受限于硬编码指令集,仅能通过特定接口调用APP的有限功能。
FunctionGemma通过让模型直接学习APP的API定义,试图让AI成为通用的用户界面,理解并操作任何APP。
开发者只需要暴露工具(Tools),FunctionGemma就能理解并操作这些工具。
谷歌的野心在于,通过开源FunctionGemma,实际上是在制定一套AI与APP交互的标准协议。
若所有Android开发者都遵循FunctionGemma的格式定义工具,谷歌的Android系统将进化为全球最强大的智能体平台,从而进一步巩固其生态护城河。
为验证FunctionGemma的能力,谷歌提供了两个典型参考实现,展示了其在游戏和系统控制领域的应用潜力。
场景描述:用户用自然语言发出指令,模型将其转换为Android系统意图。
技术细节:
多参数提取:用户说「给John发邮件说我迟到了」,模型提取recipient="John",body="我迟到了",action="send_email"。
歧义处理:若用户只说「发邮件」,模型可调用ask_clarification函数,主动反问「发给谁?」,这种多轮交互能力远超硬编码助手。
性能对比:微调后的FunctionGemma在此任务上准确率高达85%,远超未微调基座模型的58%,有力证明了在端侧垂直领域,小模型完全可以替代大模型。
「Tiny Garden」Demo展示了FunctionGemma如何驱动游戏逻辑。
场景:一个语音控制的种田游戏。用户说「在顶排种满向日葵,然后给它们浇水」。
任务分解(TaskDecomposition):模型不仅要识别意图,还要进行逻辑推理。它需要将这一句话拆解为一系列函数调用:
select_crop(type="sunflower")
plant(row=0,col=0)...plant(row=0,col=N)
water(row=0)
完全离线:整个过程无需联网,这对确保手游流畅体验至关重要,避免了网络延迟带来的卡顿。
对开发者而言,FunctionGemma提供了低成本、高隐私的Agent能力集成方案,无需昂贵服务器开销,让「语音控制一切」不再是巨头专利,而是每个APP都能标配的功能。
对手机厂商而言,270M参数量堪称完美「甜点」——既能充分利用现有NPU硬件,又不过度挤占系统资源,为打造「AI原生OS」提供了理想地基。
对于谷歌而言,这是其在AI时代捍卫Android生态控制权的关键一步。
展望未来,基于FunctionGemma的变体将无处不在:在智能手表中处理健康数据,在路由器中优化网络,在汽车中调节空调……
AI将不再是一个需要「访问」的网站,而是一种像电力一样,无形却无处不在的基础设施。
参考资料:
https://blog.google/technology/developers/functiongemma/
https://blog.google/technology/developers/t5gemma-2/
本文由主机测评网于2026-03-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260329355.html