当前位置:首页 > 科技资讯 > 正文

苹果发布MobileCLIP2:新一代多模态基础模型亮相

智东西9月1日消息,苹果再次在AI大模型研发上取得新突破!

8月28日,苹果通过arXiv平台发布了最新论文,详细介绍了MobileCLIP2——新一代多模态基础模型及其背后的强化训练机制,并同步在GitHub和Hugging Face上开源了模型的预训练权重和数据生成代码。

MobileCLIP2专注于零样本分类和检索任务,其推理延迟在3-15毫秒之间,参数规模灵活,介于5000万至1.5亿之间。

苹果发布MobileCLIP2:新一代多模态基础模型亮相 MobileCLIP2 多模态模型 零样本分类 强化训练 第1张

鉴于以往基于Transformer的大型编码器在内存和延迟上的高开销,苹果于2023年11月推出了端侧多模态大模型MobileCLIP,通过强化训练提升了其在移动设备上的部署效果。而MobileCLIP2正是这一方法的升级版。

论文指出,与上一代模型相比,MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2%。其变体MobileCLIP2-S4在iPhone 12 Pro Max上的表现与参数规模更大的SigLIP-SO400M/14相当。

此次改进的多模态训练机制引入了教师监督(Teacher Supervision)与字幕数据(Caption Data),进一步提升了零样本性能。该机制支持在移动和边缘设备上直接部署,实现低延迟和高效率的零样本检索/分类。

目前,所有MobileCLIP2模型变体的预训练权重均已公开,开发者可轻松部署和进行基准测试。此外,苹果还提供了数据生成代码,便于开发者创建新的强化数据集。

模型预训练权重链接:https://github.com/apple/ml-mobileclip

数据生成代码链接:https://github.com/apple/ml-mobileclip-dr

GitHub链接:https://github.com/apple/ml-mobileclip

Hugging Face链接:https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47

论文地址:https://arxiv.org/html/2508.20691v1

01.

iPhone 12 Pro Max适用

强调可复现性和可扩展性

MobileCLIP2的核心优势在于其小巧的参数规模和低延迟,同时保持了出色的泛化能力和准确性。

在零样本性能方面,MobileCLIP2-S4与SigLIP-SO400M/14相当,但参数量仅为后者的一半;在延迟方面,其表现优于DFN ViT-L/14,约为后者的40%。

这种性能提升使得模型无需特定任务或类别的训练数据,即可直接应用预训练知识到未知任务中。

苹果发布MobileCLIP2:新一代多模态基础模型亮相 MobileCLIP2 多模态模型 零样本分类 强化训练 第2张ImageNet-1k基准测试结果

MobileCLIP2系列模型在不同延迟条件下,均在38个数据集上表现最佳。

从评测结果来看,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达4倍,但性能相当;而MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高约2.5倍。

苹果发布MobileCLIP2:新一代多模态基础模型亮相 MobileCLIP2 多模态模型 零样本分类 强化训练 第3张评测结果

此外,该训练机制注重可复现性和可扩展性。所有模型变体的预训练权重均已公开,支持开发者直接部署和基准测试。

其数据生成代码支持任意教师集成和分布式可扩展处理,便于定制数据集强化。在移动端,该训练机制支持直接在移动和边缘设备上部署,实现低延迟和高效率的零样本检索和分类。

02.

融合教师监督与字幕数据

扩展多模态模型语义覆盖

MobileCLIP2的多模态强化训练机制能够高效地将多源知识蒸馏到小型模型中,并基于基础图像-文本对进行操作。

该机制融合了教师监督与字幕数据,旨在提高模型的鲁棒性和迁移性,同时降低计算开销。字幕数据是指与图像、视频等视觉内容关联的文本描述信息。

具体来说,通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为模型训练增加合成字幕。

苹果发布MobileCLIP2:新一代多模态基础模型亮相 MobileCLIP2 多模态模型 零样本分类 强化训练 第4张改进后的教师监督模型

改进后的教师监督模型由DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b组合而成。通过独立调整每个教师模型的Logits Scale,集成蒸馏在ImageNet-1k验证集上的表现比单教师变体提高了高达2.8%。这一提升使得MobileCLIP2能够以更少的参数和延迟实现与更大规模模型的性能相当或超越。

苹果发布MobileCLIP2:新一代多模态基础模型亮相 MobileCLIP2 多模态模型 零样本分类 强化训练 第5张字幕生成教师模型优化

字幕生成教师模型通过两阶段协议进行优化。第一阶段在大型DFN-2B数据集上对CoCa风格的描述器进行再训练,以提升图像表达能力;第二阶段在MSCOCO-123k、MSCOCO-38k等高质量标题数据集上进行微调,生成具有更高语义质量和多样性的合成标题。

结语:苹果优化端侧多模态模型训练机制

降低开发者部署门槛