当前位置:首页 > 科技资讯 > 正文

手机AI发展新阶段:端侧多模态模型崛起与生态构建

与两年前相比,手机制造商已大幅减少对大型基础模型的投入,转而将重心放在端侧多模态模型的研发上。

拥有数亿用户的手机厂商始终是探索AI终端应用的先锋力量。

近期,vivo、OPPO和荣耀在新机发布前,纷纷集中举办开发者大会。AI成为最热门议题,各厂商借此展示对AI战略的新理解,以及模型能力应用的差异化侧重。

外界关注的是,作为日常使用最频繁的智能设备,国内手机AI已进展到何种程度?有哪些实际应用场景?以及仍面临哪些挑战?

AI手机迈入端侧多模态时代

两年前,手机AI应用主要集中于文本处理,如多轮对话、摘要生成、文案续写等,且依赖云端大模型处理。而今年显著变化在于,多模态端侧模型的涌现,实现了大量图像、语音相关场景。

vivo展示了18个端侧智能应用,例如卡证识别、文件名自动填充,以及端侧化UI Agent,通过一句话在备忘录创建笔记,或在钱包中记录详细账单。这些任务相比以往设置闹钟等操作,具有更复杂交互逻辑,需意图识别和自主规划能力。

OPPO重点演示了一键问屏和一键闪记功能。一键问屏依托多模态大模型,AI可实时理解屏幕内容,并支持用户指着实景进行语音对话。一键闪记则能自动提取关键信息并分类,例如通过微信支付消费后,手机会自动记录账单,无需手动操作,或通过扫描小票信息完成账单录入。取餐码等信息会以小卡片形式在手机上实时提醒。

荣耀披露手机可自动执行场景超3000个,围绕衣食住行购,解决用户频繁跨App调用的烦恼,例如一键比价购物,除比价和添加商品到购物车外,还能领取优惠券;一键打车则通过语音直接调用打车软件。以往需频繁切换App,现在通过AI一个指令即可完成。

“从热门大模型与智能体产品看,技术已具备理解物理世界或加速物理与数字世界融合的能力。”荣耀MagicOS AI产品部总经理张冲表示,对手机厂商而言,数字世界包含天然数据和生产数据,通过这些数据可更好微调模型,以理解用户当下需求。

不过,一位手机AI技术专家认为,“AI技术进步与用户需求存在一定错配。用户最高频的AI使用场景是图片处理,但当前技术先成熟的是语言模型。”该人士预测,明年图片处理成熟度将大幅提升。

手机厂商大模型发展基本经历三个阶段:两年前,vivo、OPPO发布了从几亿到上千亿参数的全尺寸语言模型。一年前,行业重心从语言模型转向语音、图像等多模态领域,并更重视端侧化,加速大模型在手机落地。

手机AI发展新阶段:端侧多模态模型崛起与生态构建 端侧多模态模型  AI手机 Agent生态 手机厂商AI战略 第1张

vivo、OPPO、荣耀AI进展汇总 整理:数智前线

今年几个明显趋势是:一是端侧模型集中在3B轻量化尺寸,且在大语言模型基础上新增多模态。

例如今年7月,荣耀发布7B多模态感知大模型MagicGUI。vivo同期发布3B多模态推理大模型BlueLM-2.5-3B,实现语言、视觉与逻辑推理能力端侧集成。10月,OPPO发布端侧多模态大模型AndesVL,包含0.6B-4B四档尺寸套件,除通用多模态识别、理解和推理能力外,还具有GUI能力和多语言能力。

行业通过低比特混合量化方案和端侧Lora训练方案,快速缩小模型体积和内存开销,加速端侧多模态大模型部署。

一位行业从业者透露,当前3B模型已能达到以往8B模型效果。而且,以往这些任务需多个视觉专家模型和语言模型结合,但现在能集成多种尺寸和模态于单一模型,提升识别率。例如vivo采用1+N架构,让多模态和语言模型、逻辑推理等共享基座模型,搭配各模态Lora,实现一个模型支撑十余个业务场景。

二是端侧实现推理模型的深度思考模式,手机本地能像云端一样进行复杂推理,大幅提升解决复杂问题的准确率。

三是GUI Agent模型的引入,让AI主动操控手机界面完成任务。其本质是模拟人对手机进行点击、滑动等操作,无需依赖规则和固定脚本,也不需应用方提供特殊API,从而使手机智能体能操作第三方应用。

端侧模型落地挑战重重

当前手机AI助手通常调用不同模型执行任务,既有自身蒸馏模型,也通过API调用外部云侧大模型服务,包括阿里通义、字节跳动豆包等被手机厂商广泛接入。

但一位手机行业人士指出,调用外部模型存在诸多曲折,“豆包或阿里给手机厂商的API,与其最新版本不同,滞后至少3到6个月。”该人士称,云厂商内部销售与模型开发团队分离。

云厂商将内部能力封装成商品出售,但模型厂商担忧手机厂商基于自身数据优化后效果更佳,“这不是我们不想接入,而是对方不愿提供。”

但与两年前相比,手机厂商已很少在大参数基础模型上投入巨资,更多精力聚焦于端侧多模态模型。

一位手机AI专家表示,云侧模型通过MOE架构大幅压缩,但端侧受芯片性能限制,目前已能实现2B-5B模型,相当于2023年的32-70B模型。模型厂商追求智能上限,而终端厂商则将模型压缩至端侧。“我们不从事0到1基础模型训练,小尺寸端侧模型实为云端大尺寸模型的蒸馏。”

“云端能力相对容易建立。”vivo AI研究院院长周围强调,“真正困难的是端侧能力。”

手机AI发展新阶段:端侧多模态模型崛起与生态构建 端侧多模态模型  AI手机 Agent生态 手机厂商AI战略 第2张

周围透露,vivo去年尝试13B和7B端侧模型,仅7B基本可用,但效果不理想,占用近4GB运存。vivo近一年重点研发3B端侧多模态模型,如今3B端侧模型在文本摘要上已达云侧大模型97%-98%能力,“已足够使用”。

但这不意味手机厂商完全放弃大参数模型,而是在能力上区分,“若问题已由多数厂商解决,我们选择合作。”一位技术专家举例,手机厂商不再迭代纯粹增加世界知识的模型,而是侧重基于手机端多维数据的理解,追求个性化智能。

因此,尽管手机厂商普遍采用端云协同方案,但核心仍在端侧模型优化。

一方面,云端大模型每次API调用均有成本,且往返延迟影响用户体验;另一方面,用户隐私担忧限制云侧大模型数据使用。端侧大模型除需更高性能芯片和存储空间外,几乎无额外成本,本地处理带来更高隐私安全,这些特性成为端侧大模型落地的关键。

AI爆发给手机厂商带来甜蜜烦恼。手机厂商用户体量庞大,频繁调用云侧模型服务会产生巨大成本。一位手机AI专家指出,使用ASR模型进行手机转录翻译,每小时云成本达2元,这些费用需硬件厂商承担。

事实上,市面上AI应用,除部分大厂对话类产品外,许多专业工具开始收费,如PPT生成、深度研究报告等,正探索收费模式。

此外,一位业内人士感慨,云厂商对端侧模型投入意愿不强,“因其主要销售MaaS服务”,这更依赖手机厂商主动解决端侧模型难题。

但当前问题在于,缺乏爆款AI应用,用户对AI感知有限,芯片厂商出现观望情绪。

“芯片厂商持续寻求合作,希望手机上出现更多明星场景。”该人士称,目前高通骁龙和联发科天玑最新旗舰芯片AI算力均达100TOPS。芯片厂商希望销售更高算力芯片,但若无足够应用支撑,算力提升意味芯片价格升高,最终影响销量。

Agent生态处于起步阶段

目前,一句话修图、连Wi-Fi、记账等自动化任务主要局限于厂商自家应用,如备忘录、相册等

但用户大部分使用场景在第三方应用,“85%时长由开发者提供服务”,这意味着头部互联网厂商参与至关重要

周围提到,当前手机自动智能体执行任务时,仅能处理厂商自身功能。若想跨应用,在安全授权标准方面,终端厂商与互联网厂商需复杂讨论。“作为终端厂商,我们积极推动行业标准建立,也需认识到AI技术从当前到成熟仍需数年。”

随着单一智能体向多智能体协同演进,各手机厂商除发布智能体应用外,均积极构建智能体生态。

例如,vivo将系统高频可复用能力提炼为通用系统级智能体,包括屏幕感知、任务规划等组成“通控设施组”,直接供生态伙伴调用,并通过智能体开发平台提供多种端侧AI开发能力,助生态伙伴针对具体业务场景开发丰富智能体。

OPPO将智能体生态框架作为OPPO AI三大技术基石,这不仅是OPPO智能体跨设备协同核心平台,也关乎AI智能体从单步执行升级至复杂任务规划与多设备联动关键。

荣耀发布系统级MCP架构,目前已打通系统底层超80%高频场景,接入超4000个生态MCP和智能体。除软件生态外,荣耀基于深圳区位优势,希望构建AI硬件生态,实现智能体跨设备协同。

手机厂商在智能体生态构建上相比其他终端产品,拥有大量跨应用、跨场景多模态数据。手机可与其他终端设备打通,扮演智能中枢角色,这些特性让手机在智能体生态构建上具天然优势。

如今,已有互联网厂商尝到甜头,如蚂蚁集团与主流手机厂商达成战略合作,将其智能体服务接入手机厂商生态。vivo透露,蚂蚁旗下AI健康智能体AQ在蓝心小V健康场景流量份额从年初至今提升三倍。

但对大多数应用厂商而言,智能体生态涉及流量分配和数据权限难题。许多App厂商担心,若系统级智能体直接服务用户,App价值将受冲击。此外,当前用户数据由各App自行掌握,若由系统级智能体执行,是否需共享用户数据也成企业担忧问题。

目前,行业普遍做法是开发GUI大模型,这是更温和解决方案,本质非智能体间直接交互,而是由AI替代人操作手机界面,背后仍需用户登录个人账户,关键节点需用户确认,手机智能体仅扮演使用者角色。

vivo周围的态度代表多数手机厂商观点:“第一,愿合作者共同商讨推进。第二,AI时代已至,是否需全新江湖地位和影响力,留给时间验证。”