当前位置:首页 > 科技资讯 > 正文

手机AI进化:端侧多模态时代的挑战与机遇

相较于两年前,智能手机制造商已较少在大参数基础模型上投入巨资,转而更加专注于端侧多模态模型的发展。

拥有数亿用户的手机厂商一直是探索AI终端的先锋。不久前,vivo、OPPO和荣耀在新手机发布前,都集中举办了开发者大会,展示了他们对AI战略的全新理解,以及模型能力应用的侧重。

外界好奇的是,作为用户日常使用最频繁的智能设备,国内手机上的AI已经发展到什么阶段?有哪些应用场景?以及又有哪些难题待解?

AI手机进入端侧多模态时代

两年前,手机AI的应用主要集中在文本处理上,依赖云侧大模型的处理。而今年,随着多模态端侧模型的涌现,实现了大量与图像、语音处理相关的场景。

vivo展示了18个端侧智能相关的应用,包括卡证识别、文件名自动填充等,这些任务相比过去有更复杂的交互逻辑。OPPO则重点演示了一键问屏和一键闪记的功能,能够自动提取关键信息并分类。荣耀披露了手机可自动执行的场景超过3000个,围绕衣食住行购,解决用户频繁跨App调用的烦恼。

“技术上已经具备了理解物理世界或加速物理与数字世界融合的能力。”荣耀MagicOS AI产品部总经理张冲说,通过数据可以更好地进行模型微调,以便理解用户在当前情境下的需求。

然而,AI技术的进步和用户的需求存在一定的错配。用户最高频的AI使用场景是图片的处理,但这一代的技术先成熟的是语言模型。手机厂商的大模型基本经历了三个阶段:从语言模型到语音、图像等多模态领域,并更加重视模型的端侧化。

手机AI进化:端侧多模态时代的挑战与机遇 手机AI 端侧多模态 模型优化 智能体生态 第1张

今年的几个明显趋势是:一是端侧模型集中在3B的轻量化模型尺寸上,而且在大语言模型的基础上新增了多模态;二是端侧实现了推理模型的深度思考模式;三是GUI Agent模型的引入,让AI主动操控手机界面来完成任务。

端侧模型落地面临哪些挑战

现在的手机AI助手,背后通常会调用不同的模型来执行不同任务。但一位手机行业人士表示,调用外部模型存在版本差异和延迟问题。云厂商内部卖云的人跟开发模型的人是两拨人,导致手机厂商得到的API版本总比自己慢3到6个月。

手机厂商已经很少在大参数的基础模型上做大投入,而是更多把精力放在了端侧多模态模型上。一位手机AI专家表示,云端大尺寸模型可以通过MOE架构大幅压缩,但端侧受限于芯片性能,目前只能做到2B-5B。

“云端的能力已相对容易建立。”vivo AI研究院院长周围说,“真正难的是端侧的能力。”

手机AI进化:端侧多模态时代的挑战与机遇 手机AI 端侧多模态 模型优化 智能体生态 第2张

周围透露,vivo最近一年将更多精力放在了3B端侧多模态模型上,如今已能做到云侧大模型97%-98%的能力。但这并不意味着手机厂商不再去做大参数的模型,而是在能力上会做一些区分。

尽管目前手机厂商都采用的是端云协同方案,但核心依然在端侧模型的优化上。端侧大模型除了需要更高性能的芯片和存储空间外,几乎不会增加其他成本,以及在本地处理带来更高的隐私安全。

Agent生态才刚刚起步

目前外界看到的一句话修图、一句话连Wi-Fi等自动化任务基本还局限于厂商自己的一方应用。但用户大部分的使用场景是在第三方的应用,这意味着头部互联网厂商的参与依然是非常关键的一环。

手机厂商在智能体生态的构建上拥有大量跨应用、跨场景的多模态数据。手机可以与其他终端设备打通,扮演智能中枢的角色。如今,已经开始有互联网厂商尝到了甜头。

但对于大多数应用厂商而言,智能体生态背后涉及到流量分配和数据权限的难题。不少App厂商担心如果由系统级的智能体来直接服务最终用户,App的价值会受到冲击。

目前业内的普遍做法是开发GUI大模型,这是一个更加温和的解决方案。vivo周围的态度代表了不少手机厂商的观点,“第一是愿意跟我们握手的,就一起坐下来商量来做。”