当前位置:首页 > 科技资讯 > 正文

苹果FastVLM与MobileCLIP2:端侧AI小模型的崛起

近期,苹果在HuggingFace上全面开源了视觉语言模型FastVLM和MobileCLIP2,再次在AI社区掀起震动。

这两款模型以“快”为直观特征,FastVLM在部分任务上的响应速度比同类模型快出85倍,且能在iPhone等个人设备上流畅运行。这不仅是技术展示,更是苹果“端侧AI小模型战略”的核心。

01

苹果发力小模型

FastVLM是一个“看得懂图、读得懂话”的多模态模型,其特点可概括为“Fast”和“VLM”。

FastVLM最引人注目的特点是其“快”,这种快是数量级的飞跃,能在手机、电脑等个人设备上实现以往需云端服务器才能完成的实时任务。

苹果FastVLM与MobileCLIP2:端侧AI小模型的崛起 FastVLM MobileCLIP2 端侧AI 小模型 第1张

其生成第一个token的响应速度(TTFT)比同类模型LLaVA-OneVision-0.5B快了85倍,而其视觉编码器规模却缩小了3.4倍。其7B版本在与Cambrian-1-8B模型对比时,性能更胜一筹,同时TTFT速度快了7.9倍。

FastVLM的技术核心在于一种新型的混合视觉编码器FastViTHD,能输出更少的token,并显著缩短高分辨率图像的编码时间。

苹果FastVLM与MobileCLIP2:端侧AI小模型的崛起 FastVLM MobileCLIP2 端侧AI 小模型 第2张

FastVLM已上线多个尺寸,包括:0.5B、1.5B、7B版本,支持无需任何云端服务的实时浏览器字幕等功能。

目前,HuggingFace平台Apple开源FastVLM页面已提供试用平台:https://huggingface.co/spaces/akhaliq/FastVLM-7B

我们同样体验了FastVLM的强大功能。选取“马斯克计划将擎天柱(Optimus)机器人送上火星”的视频作为测试材料,分析过程非常直观。单帧画面分析时间仅在1-2秒,系统在几秒内完成了对8个关键帧的提取和解读。

苹果FastVLM与MobileCLIP2:端侧AI小模型的崛起 FastVLM MobileCLIP2 端侧AI 小模型 第3张

FastVLM在追求极致速度的同时,并未牺牲准确性。生成的描述与每一帧画面内容吻合。

苹果还准备了FastVLM-Web GPU项目,可通过摄像头实时分析视频流。其能力强大,吸引了各路网友前来试用。

02

苹果的“AB”计划

在AI浪潮汹涌的当下,苹果以其“摇摆不定”的姿态在硬件业务与AI的融合方向上努力。

面对竞争对手在生成式AI领域的狂飙突进,苹果选择了正面回应。8月1日,苹果CEO蒂姆·库克召开全员大会,明确苹果已投入“巨额资金”,并计划推出一系列“令人兴奋”的AI计划。

苹果内部组建了名为AKI的团队,目标直指ChatGPT。过去一年里,苹果在小模型方向上取得大量实质性进展。

以云端大模型为代表的AI是苹果的“A计划”,追求通用智能;而“B计划”则坚定推进小模型计划,用于处理用户的日常任务。

03

当云端大模型盛行,苹果选择回归设备

苹果想要保住基本盘,就得在端侧打AI反击战。

苹果的商业模式建立在极致的用户体验、无缝的软硬件生态和对用户隐私近乎信仰的承诺上。这三大基石决定了其AI战略必然走向端侧、走向小模型。

隐私方面,苹果在与外部AI基础模型厂商的互动中总是仓促应对。例如,将“What happens on your iPhone, stays on your iPhone”作为核心营销语的公司,若将AI能力寄托于外部厂商,会被许多忠实用户和科技评论员视为“品牌背叛”。

苹果FastVLM与MobileCLIP2:端侧AI小模型的崛起 FastVLM MobileCLIP2 端侧AI 小模型 第4张

将AI计算尽可能留在设备端,是捍卫隐私承诺的关键技术路径之一。

用户体验也是苹果集中攻坚小模型的动力之一。苹果产品的核心竞争力在于“一旦用了,就难回到之前”的流畅体验。端侧AI是实现这种体验的关键。

从性能表现来看,大语言模型的参数量与“智能”程度挂钩的印象深入人心。但在实际应用中,精细打磨的“专才”小模型往往表现更好。

苹果FastVLM与MobileCLIP2:端侧AI小模型的崛起 FastVLM MobileCLIP2 端侧AI 小模型 第5张

近年来,iPhone的A系列和Mac的M系列芯片性能越来越强大。有效利用并转化这种性能是苹果必须解决的问题。若计算任务分配到用户设备上,利用A系列/M系列芯片,对苹果来说是最经济、可持续的商业模式。