当前位置：首页 > 科技资讯 > 正文

苹果发布MobileCLIP2：新一代多模态基础模型亮相

主机测评网
科技资讯
2026-04-26
827

智东西9月1日消息，苹果再次在AI大模型研发上取得新突破！

8月28日，苹果通过arXiv平台发布了最新论文，详细介绍了MobileCLIP2——新一代多模态基础模型及其背后的强化训练机制，并同步在GitHub和Hugging Face上开源了模型的预训练权重和数据生成代码。

MobileCLIP2专注于零样本分类和检索任务，其推理延迟在3-15毫秒之间，参数规模灵活，介于5000万至1.5亿之间。

苹果发布MobileCLIP2：新一代多模态基础模型亮相 MobileCLIP2 多模态模型零样本分类强化训练第1张

鉴于以往基于Transformer的大型编码器在内存和延迟上的高开销，苹果于2023年11月推出了端侧多模态大模型MobileCLIP，通过强化训练提升了其在移动设备上的部署效果。而MobileCLIP2正是这一方法的升级版。

论文指出，与上一代模型相比，MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2%。其变体MobileCLIP2-S4在iPhone 12 Pro Max上的表现与参数规模更大的SigLIP-SO400M/14相当。

此次改进的多模态训练机制引入了教师监督（Teacher Supervision）与字幕数据（Caption Data），进一步提升了零样本性能。该机制支持在移动和边缘设备上直接部署，实现低延迟和高效率的零样本检索/分类。

目前，所有MobileCLIP2模型变体的预训练权重均已公开，开发者可轻松部署和进行基准测试。此外，苹果还提供了数据生成代码，便于开发者创建新的强化数据集。

模型预训练权重链接：https://github.com/apple/ml-mobileclip

数据生成代码链接：https://github.com/apple/ml-mobileclip-dr

GitHub链接：https://github.com/apple/ml-mobileclip

Hugging Face链接：https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47

论文地址：https://arxiv.org/html/2508.20691v1

01. iPhone 12 Pro Max适用

强调可复现性和可扩展性

MobileCLIP2的核心优势在于其小巧的参数规模和低延迟，同时保持了出色的泛化能力和准确性。

在零样本性能方面，MobileCLIP2-S4与SigLIP-SO400M/14相当，但参数量仅为后者的一半；在延迟方面，其表现优于DFN ViT-L/14，约为后者的40%。

这种性能提升使得模型无需特定任务或类别的训练数据，即可直接应用预训练知识到未知任务中。

苹果发布MobileCLIP2：新一代多模态基础模型亮相 MobileCLIP2 多模态模型零样本分类强化训练第2张 ImageNet-1k基准测试结果

MobileCLIP2系列模型在不同延迟条件下，均在38个数据集上表现最佳。

从评测结果来看，MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达4倍，但性能相当；而MobileCLIP2-S4与DFN ViT-L/14相比，推理速度提高约2.5倍。

苹果发布MobileCLIP2：新一代多模态基础模型亮相 MobileCLIP2 多模态模型零样本分类强化训练第3张评测结果

此外，该训练机制注重可复现性和可扩展性。所有模型变体的预训练权重均已公开，支持开发者直接部署和基准测试。

其数据生成代码支持任意教师集成和分布式可扩展处理，便于定制数据集强化。在移动端，该训练机制支持直接在移动和边缘设备上部署，实现低延迟和高效率的零样本检索和分类。

02. 融合教师监督与字幕数据

扩展多模态模型语义覆盖

MobileCLIP2的多模态强化训练机制能够高效地将多源知识蒸馏到小型模型中，并基于基础图像-文本对进行操作。

该机制融合了教师监督与字幕数据，旨在提高模型的鲁棒性和迁移性，同时降低计算开销。字幕数据是指与图像、视频等视觉内容关联的文本描述信息。

具体来说，通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型，为模型训练增加合成字幕。

苹果发布MobileCLIP2：新一代多模态基础模型亮相 MobileCLIP2 多模态模型零样本分类强化训练第4张改进后的教师监督模型

改进后的教师监督模型由DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b组合而成。通过独立调整每个教师模型的Logits Scale，集成蒸馏在ImageNet-1k验证集上的表现比单教师变体提高了高达2.8%。这一提升使得MobileCLIP2能够以更少的参数和延迟实现与更大规模模型的性能相当或超越。

苹果发布MobileCLIP2：新一代多模态基础模型亮相 MobileCLIP2 多模态模型零样本分类强化训练第5张字幕生成教师模型优化