当前位置:首页 > 科技资讯 > 正文

谷歌开源全新嵌入模型:端侧AI的里程碑

谷歌开源全新嵌入模型:端侧AI的里程碑 EmbeddingGemma 端侧AI 隐私性 高质量嵌入向量 第1张

智东西9月5日消息,今日,谷歌公开了一款全新的开放式嵌入模型EmbeddingGemma。这款模型以3.08亿个参数的规模,专为端侧AI设计,能够在笔记本、手机等设备上部署检索增强生成(RAG)、语义搜索等应用程序。

EmbeddingGemma的一大亮点在于能够生成隐私性良好的高质量嵌入向量。即使在断网情况下,它也能正常运行,性能与尺寸翻倍的Qwen-Embedding-0.6B相媲美。

谷歌开源全新嵌入模型:端侧AI的里程碑 EmbeddingGemma 端侧AI 隐私性 高质量嵌入向量 第2张

▲Hugging Face开源页面截图

Hugging Face地址:https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a...

据谷歌介绍,EmbeddingGemma具有以下几大优势:

1、同类最佳:在海量文本嵌入基准(MTEB)上,EmbeddingGemma在500M以下的开放式多语言文本嵌入模型中排名最高。该模型基于Gemma 3架构打造,已针对100多种语言进行训练,并且体积小巧,经过量化后可在不到200MB的内存上运行。

谷歌开源全新嵌入模型:端侧AI的里程碑 EmbeddingGemma 端侧AI 隐私性 高质量嵌入向量 第3张

▲MTEB评分:EmbeddingGemma性能比肩比起尺寸大一倍的顶尖模型

2、专为灵活离线工作而设计:小巧、快速、高效,提供可自定义的输出尺寸,以及2K令牌上下文窗口,可在手机、笔记本电脑、台式机等日常设备上运行。它旨在与Gemma 3n配合使用,共同为移动RAG管道、语义搜索等解锁新的用例。

3、与流行工具集成:为了让用户轻松开始使用EmbeddingGemma,它已经可以与用户喜欢的工具一起使用,例如sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等。

01.优质嵌入向量助力端侧RAG生成准确答案

EmbeddingGemma会生成嵌入向量,在本文语境中,它能将文本转换为数值向量,在高维空间表征文本语义;嵌入向量质量越高,对语言细微差别与复杂特性的表征效果越好。

谷歌开源全新嵌入模型:端侧AI的里程碑 EmbeddingGemma 端侧AI 隐私性 高质量嵌入向量 第4张

▲EmbeddingGemma会生成嵌入向量

构建RAG流程存在两个关键阶段:一是根据用户输入检索相关上下文,二是基于该上下文生成有依据的答案。

为实现检索功能,用户可以先生成提示词的嵌入向量,再计算该向量与系统中所有文档嵌入向量的相似度——通过这种方式,能够获取与用户查询最相关的文本片段。

随后,用户可将这些文本片段与原始查询一同输入生成式模型(如Gemma 3),从而生成符合上下文的相关答案。例如,模型能理解你需要联系木工的电话,以解决地板损坏的问题。

要让这个RAG流程切实有效,初始检索步骤的质量至关重要。质量不佳的嵌入向量会导致检索到不相关的文档,进而生成不准确或毫无意义的答案。

而EmbeddingGemma的性能优势正体现于此——它能提供高质量的(文本)表征,为精准、可靠的端侧应用提供核心支持。

02.小尺寸大能力,性能接近翻倍的Qwen-Embedding-0.6B

EmbeddingGemma提供了与其规模相适应的最先进的文本理解能力,在多语言嵌入生成方面具有特别强大的性能。

与其他流行嵌入模型的比较中,EmbeddingGemma在检索、分类和聚类等任务上表现出色。

它在Mean(Task)、Retrieval、Classification、Clustering等测试中全面赶超了同等尺寸的gte-multilingual-base模型。其测试成绩也已接近尺寸达到其两倍的Qwen-Embedding-0.6B。

谷歌开源全新嵌入模型:端侧AI的里程碑 EmbeddingGemma 端侧AI 隐私性 高质量嵌入向量 第5张

▲EmbeddingGemma的测评情况

EmbeddingGemma模型拥有3.1GB参数,主要由大约1GB模型参数和1GB嵌入参数组成。

为了实现更高的灵活性,EmbeddingGemma利用Matryoshka表征学习(MRL),在一个模型中提供多种嵌入大小。开发者可以使用完整的768维向量以获得最佳质量,也可以将其截断为较小的维度(128、256或512),以提高速度并降低存储成本。

谷歌在EdgeTPU上将嵌入推理时间(256个输入token)缩短至<15ms,突破了速度界限,这意味着用户的AI功能可以提供实时响应,实现流畅、即时的交互。

交互式演示:断网可用,可在不到2GB内存上运行

谷歌开源全新嵌入模型:端侧AI的里程碑 EmbeddingGemma 端侧AI 隐私性 高质量嵌入向量 第6张