智东西9月1日消息,苹果再次在AI大模型研发上取得新突破!
8月28日,苹果通过arXiv平台发布了最新论文,详细介绍了MobileCLIP2——新一代多模态基础模型及其背后的强化训练机制,并同步在GitHub和Hugging Face上开源了模型的预训练权重和数据生成代码。
MobileCLIP2专注于零样本分类和检索任务,其推理延迟在3-15毫秒之间,参数规模灵活,介于5000万至1.5亿之间。
鉴于以往基于Transformer的大型编码器在内存和延迟上的高开销,苹果于2023年11月推出了端侧多模态大模型MobileCLIP,通过强化训练提升了其在移动设备上的部署效果。而MobileCLIP2正是这一方法的升级版。
论文指出,与上一代模型相比,MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2%。其变体MobileCLIP2-S4在iPhone 12 Pro Max上的表现与参数规模更大的SigLIP-SO400M/14相当。
此次改进的多模态训练机制引入了教师监督(Teacher Supervision)与字幕数据(Caption Data),进一步提升了零样本性能。该机制支持在移动和边缘设备上直接部署,实现低延迟和高效率的零样本检索/分类。
目前,所有MobileCLIP2模型变体的预训练权重均已公开,开发者可轻松部署和进行基准测试。此外,苹果还提供了数据生成代码,便于开发者创建新的强化数据集。
模型预训练权重链接:https://github.com/apple/ml-mobileclip
数据生成代码链接:https://github.com/apple/ml-mobileclip-dr
GitHub链接:https://github.com/apple/ml-mobileclip
Hugging Face链接:https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47
论文地址:https://arxiv.org/html/2508.20691v1
MobileCLIP2的核心优势在于其小巧的参数规模和低延迟,同时保持了出色的泛化能力和准确性。
在零样本性能方面,MobileCLIP2-S4与SigLIP-SO400M/14相当,但参数量仅为后者的一半;在延迟方面,其表现优于DFN ViT-L/14,约为后者的40%。
这种性能提升使得模型无需特定任务或类别的训练数据,即可直接应用预训练知识到未知任务中。
ImageNet-1k基准测试结果
MobileCLIP2系列模型在不同延迟条件下,均在38个数据集上表现最佳。
从评测结果来看,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达4倍,但性能相当;而MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高约2.5倍。
评测结果
此外,该训练机制注重可复现性和可扩展性。所有模型变体的预训练权重均已公开,支持开发者直接部署和基准测试。
其数据生成代码支持任意教师集成和分布式可扩展处理,便于定制数据集强化。在移动端,该训练机制支持直接在移动和边缘设备上部署,实现低延迟和高效率的零样本检索和分类。
MobileCLIP2的多模态强化训练机制能够高效地将多源知识蒸馏到小型模型中,并基于基础图像-文本对进行操作。
该机制融合了教师监督与字幕数据,旨在提高模型的鲁棒性和迁移性,同时降低计算开销。字幕数据是指与图像、视频等视觉内容关联的文本描述信息。
具体来说,通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为模型训练增加合成字幕。
改进后的教师监督模型
改进后的教师监督模型由DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b组合而成。通过独立调整每个教师模型的Logits Scale,集成蒸馏在ImageNet-1k验证集上的表现比单教师变体提高了高达2.8%。这一提升使得MobileCLIP2能够以更少的参数和延迟实现与更大规模模型的性能相当或超越。
字幕生成教师模型优化
字幕生成教师模型通过两阶段协议进行优化。第一阶段在大型DFN-2B数据集上对CoCa风格的描述器进行再训练,以提升图像表达能力;第二阶段在MSCOCO-123k、MSCOCO-38k等高质量标题数据集上进行微调,生成具有更高语义质量和多样性的合成标题。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440516.html