
随着大模型技术向纵深发展,AI应用的体验、成本及隐私性日益成为核心议题。将大模型直接部署于终端侧,对产业应用具有显著吸引力。那么,如何克服端侧大模型落地中的模型尺寸庞大与计算复杂度高的难题呢?
近日,InfoQ《极客有约》联合AICon直播栏目特邀蚂蚁集团xNN引擎负责人、支付宝多模态应用实验室研究员朱世艾博士担任主持,与北京邮电大学副教授、博士生导师徐梦炜博士、华为CANN端侧生态技术专家章武一同,在QCon全球软件开发大会2025上海站前夕,深入交流端侧大模型的发展现状、实际进展及未来机遇。
部分精彩观点如下:
以下内容基于直播速记整理,经InfoQ精简。
朱世艾:端侧大模型当前发展状况如何,有哪些实质性进展?
徐梦炜:端侧大模型指将大模型推理直接部署于终端设备,而闭源SOTA模型通常运行在云端GPU集群或数据中心,通过远程请求完成推理,称为serving。“端侧”范围广泛,从算力较弱的IoT设备到智能手机、机器人及PC,只要非远端数据中心或边缘云设备,皆可视为端侧AI。
早在两三年前我们团队研究端侧大模型时,许多人认为“端上模型”不算“大”。实际上,大模型无统一标准,个人认为,基于decoder-only的Transformer架构、参数规模超百兆的自回归模型,均可称为大模型。换言之,只要它是基础模型,能处理多任务,经简单微调即可适应下游任务,便可视为大模型。
为何要在端侧部署大模型?尽管调用云端API便捷,但端侧部署具多重优势,与传统端侧AI类似。首先是隐私。在大模型时代,模型可能利用端上几乎所有数据,包括录音、文本、输入及屏幕点击等,隐私问题比以往更突出。其次,端侧推理可摆脱网络依赖,提升可用性,即使离线也能运行。同时,它避免了云端serving的网络往返延迟和批量调度带来的时延问题。若端上优化得当,整体延迟可显著降低。最后,从企业视角,将计算分摊到用户终端,可减少维护超大GPU集群的成本,这也是强有力的商业动机。
在学术界,端侧大模型非单一领域,而是多学科技术融合。研究者大致分三类:一是算法方向,关注大模型轻量化、剪枝、蒸馏及新架构设计;二是软件方向,涉及系统软件、高性能计算、移动或边缘计算及嵌入式系统;三是硬件体系结构方向,关注电路与加速器设计。在云端领域竞争英伟达较难,但在端侧研究中机会更多。
章武:我从多维度谈谈将云端大模型迁移至端侧的挑战。首先是内存问题,云端内存几乎可无限扩展,而手机等终端内存配置多在8~12GB,因此云侧的BF16推理精度在端上无法继承,需通过极致量化与压缩适配有限内存。其次是精度对齐,云端模型通常无需量化,而端侧必须将FP32模型压缩到4bit甚至更低,不同厂商量化算法支持差异大,带来精度对齐难题。此外还有开发适配成本问题,在云端只需将PyTorch工程做部分推理部署优化即可快速上线,而端侧几乎从零开始,厂商需开发高性能算子构建推理能力,开发成本远高于云端。
针对这些问题,华为CANN工具链为开发者提供了一套快速在端侧部署AI模型的解决方案。首先是量化与内存优化,CANN工具链提供NPU友好的低比特量化算法,显著降低模型内存占用,使大模型能运行在手机等终端上。其次是自定义算子能力,由于各厂商量化算法不同,手机厂商无法逐一适配。CANN工具链支持Ascend C自定义算子开发,例如我们与支付宝合作时,对方希望在NPU量化精度能与CPU实现精度一致,支付宝团队通过Ascend C实现NPU版本的自有算法QuantMatmul,最终确保精度一致。同时,Ascend C算子端云统一,支持一次开发多端部署,大幅提高后续跨平台移植效率。最后是模型泛化支持。CANN工具链已针对业界主流开源模型(如通义、千问、LLaMA、ChatGLM等)提供适配方案,并持续优化多模态和MoE等大模型场景。
朱世艾:支付宝作为互联网大厂,在实际应用中关注三大优势:实时性、隐私和成本。
首先,在大模型时代,语音助手、流式识别、实时翻译等交互场景对时延要求越来越高,端侧推理可避免网络传输与云端计算开销,显著提升响应速度。其次,支付宝端侧AI的发展源于“新春五福”大促活动带来的流量峰值,当时单靠云端负载难以支撑,这促生了X引擎,也奠定了端侧AI在支付宝的地位。如今进入大模型时代,计算压力更大,端侧AI能有效分担峰值流量和计算成本。第三,个性化推荐和基于用户行为的实时决策常涉及敏感数据。若在端侧实现这些算法,可降低数据风险,同时提升用户体验。
因此,无论在传统AI还是大模型时代,实时性、隐私和成本优势都奠定了端侧AI的发展基础。尽管与过去相比,大模型的规模和算力需求使端侧落地更具挑战,但随着生成式AI的发展,端侧AI也应沿此趋势不断突破技术瓶颈。
朱世艾:从“可用”到“好用”:端侧大模型落地过程中最大挑战是什么?当前究竟被哪些挑战“卡住了脖子”?
章武:“将大模型塞进手机”与“将大象塞进冰箱”同样困难。我们可以从以下维度探讨大模型入端的技术挑战:
徐梦炜:大模型与操作系统的融合是一个有趣且前景广阔的话题。虽然多数技术人员认可这一趋势,但其进展仍缓慢,目前缺乏成熟成果,多是对未来的愿景设想。我们认为,大模型将逐步下沉为操作系统的系统级服务,随着其在终端和智能硬件中作用愈发重要,操作系统也需适应这种变化。
未来,应用可能逐渐演化为agent,底层调用大模型,而大模型的功耗与内存占用可能达90%甚至更高,这意味着操作系统需重新定义资源管理。例如,大模型的KV cache是否应与APP内存采用同一管理方式?若采用统一机制,可能导致recompute开销巨大,且系统现有的Low Memory Killer策略不适用于这种场景。
资源调度也是挑战。目前NPU架构相对简单,缺乏类似CPU的灵活调度机制。若未来多应用同时使用NPU,如何实现隔离、抢占和调度将是新问题。学术界刚开始研究这些课题,而工业界目前更关注如何先把推理性能做好。不过,随着端侧对低功耗和高效率的要求,大模型高度通用的特性将使NPU价值显著提升。
传统CNN时代,NPU因碎片化等问题未被充分利用,许多任务在GPU或CPU上即可满足性能。但在大模型时代,NPU的重要性将显著增强。此外,手机厂商与应用厂商的角色与合作模式也会影响生态发展,进而影响技术研究方向与成果转化。
朱世艾:从应用角度看,端侧模型在实际业务中面临的挑战,源于其能力与预期之间的差距。端侧的能力必须限定在“可控范围”内完成任务,主要指带参考的推理任务,例如总结摘要、翻译、自动语音识别,以及function call、MCP等工具调用。未来要解决这些问题,仍需要“端—云结合”的方案,这也将成为重要的技术方向。
从APP端视角看,我们还面临一些终端厂商所没有的特殊问题,其中之一是模型的部署与下发。首先,APP的安装包通常不能太大。然而,即便对模型进行了低比特量化,规模仍可能达到几百兆。如果要将这种体量的模型下发到手机端,即使不考虑其他APP的占用,仅就支付宝APP本身而言,内存压力也不容忽视。能否在保证用户体验的前提下,实现模型的即时触达、加载和初始化,是一项重要挑战。
对此,支付宝方面正尝试多种方案。首先,与多家终端厂商的思路一致,我们优先通过更低比特量化,尽量缩小模型尺寸。其次,我们将模型参数规模聚焦在0.5~1.5亿区间。同时,在终端框架和工程架构上,原本各业务独立调用推理引擎,如今逐步演进为统一的大模型运行时管理框架,类似于“端侧AI容器”。
朱世艾:针对这些挑战,目前业界有哪些破局思路和技术方案?请分享一些你们正在使用的、或认为最有潜力的技术方案和实战经验。
徐梦炜:手机及各类终端的内存容量非常有限,短期内难以大幅提升,这会制约端侧大模型的规模。但我认为,我们可以借鉴计算机“金字塔式”存储结构的理念,通过更精细的存储管理来突破限制。计算机从缓存到内存、外存形成分层体系,是基于时间和空间的局部性因此缓存技术才有效。
大模型也存在类似的局部性特征:部分参数被频繁激活,而另一些参数则很少使用。这可能来自训练时的MoE结构,其中attention参数几乎每次都会激活,而多数expert的调用频率较低。即便不是按MoE方式训练,标准Transformer的激活也呈现冷热分布,有些参数经常活跃,有些则很少。研究还表明,可以通过后处理增强这种稀疏性。
这种稀疏性可以与存储分层结合:把频繁激活的参数常驻内存,而不常用的参数按需加载。如果冷参数数量足够少,或IO速度足够快,就能与计算重叠,从而几乎不增加时间开销。
这一思想不仅适用于端侧,在云端或更大型设备上,主存与显存之间的交换也是常用技术。端上利用稀疏性同样重要,这是扩大端侧可运行模型规模的关键途径。量化当然必不可少,但其上限约在2–4比特,而稀疏加载仍有潜力,让更大的模型在有限算力上运行。MoE结构因算力需求较低,天然适合端上芯片。
我们团队一直尝试利用模型稀疏性与存储结构相结合,提升在NPU上高效部署模型的能力。虽然看似直接,但实际上在不同NPU上优化部署仍然是难题。去年我们发表了一篇SDOS论文,介绍在商用手机上实现端到端NPU推理的工作,当时使用的是高通芯片。今年也在研究华为平台。高通2023年发布的新SoC宣称是为生成式AI设计,但我们发现其与Transformer模型仍存在较大差距,例如缺乏对动态shape、group-level量化等的支持。传统CNN跑得很好,但大模型在硬件接口层仍有空白。
因此,我们从算法与系统协同设计角度优化,虽不能完全解决,但能缓解部分瓶颈并提升效率。然而,即便经过各种优化,decode阶段仍常受内存带宽限制,尚未实现理想加速。可以结合投机计算等手段,但系统复杂性也随之增加。总的来说,要想充分榨取硬件潜力,需要算法、系统与硬件的极致协同设计。这是我们在端侧模型部署上关注的两个关键方向。
章武:我想重点谈性能优化问题,因为端侧与云端的技术路径差异明显。云端算力充足,优化的核心是通过多用户会话实现Prefill和Decode的分离推理,最大化算力和带宽利用率。而端侧多为单会话场景,Prefill阶段算力受限,Decode阶段则受带宽限制,两者需采用不同策略。
在Prefill阶段,我们通过减少计算量来缓解算力瓶颈。例如利用prompt cache缓存通用token,避免重复推理;同时结合混合低比特量化、激活量化进一步发挥端侧算力。这些training-free技术无需重新训练模型,只需借助工具链简单调优,即可在端上显著提速。此外,部分研究提出基于训练的方法,如用小模型压缩输入token数量,进一步缩短Prefill推理时间。
对于Decode阶段的带宽瓶颈,目前业界的主要方案有两类:一是更低比特的量化,减小权重体积,提高带宽利用率;二是升级硬件,如使用更高规格的DDR内存。在固定硬件下,常见方法包括MoE、投机推理,以及近期热门的Diffusion LLM技术,它们将带宽瓶颈转化为算力瓶颈,从而加速Decode。但这些方法通常与模型训练密切相关,需要厂商与互联网企业合作,而非单靠工具链即可完成,我们也期待出现类似training-free的技术来解决带宽问题。
最后是异构架构。目前多IP协同往往带来额外调度开销,而大模型通常包含上千个算子,层间频繁切换会显著增加耗时。因此,现阶段异构并不能完全提升推理性能,但未来可能出现专门为大模型设计的新型推理架构,这仍是值得业界探索的方向。
朱世艾:我们与华为等厂商在早期合作时,就选择了低比特量化路线,这是与许多通用方案的显著差异。原因在于应用层面的大模型面临两大瓶颈:一是模型物理尺寸过大,影响下载;二是不同手机内存差异大且整体有限,约束了模型运行。因此,我们一开始便采用2比特量化,而非从4或8比特起步。
2比特量化涉及多种方案,如线性量化、基于码本的量化等。在探索过程中,我们将推理实现与压缩算法深度融合,既关注模型尺寸和内存占用,又平衡精度损失与实现友好性。例如,针对2比特较大的精度损失,我们选用更小的block size(如64,甚至32),而不是常见的128或更大值。但更小块也会增加量化参数存储开销,因此我们引入了二级量化(by-level count)来压缩scale,减少模型物理体积和加载内存。
在量化策略上,我们尝试了PTQ、training-free和QAT等方案。PTQ对4或8比特效果较好,但在2比特上表现有限,因此我们最终主要采用QAT,并将其推广至多模态模型和ASR模型。
关于NPU的使用,虽然手机每年迭代,但用户更换设备的周期较长,许多存量手机SoC并非为大模型推理设计,也缺乏足够的工具链支持。因此我们采用异构推理方案,充分利用CPU、GPU和NPU的优势。CPU具备良好的可编程性,GPU在浮点计算精度上表现出色,而NPU则在算力密度和功耗方面更优。我们基于自研量化算法,针对不同SoC进行优化。虽然部署复杂度有所增加,但收益明显。
另一方面,直接在模型计算图层面切分任务并不容易,收益可能抵消调度成本,因此我们也探索如VLM模型中将前置ViT子图下放到NPU,以减少调度并充分利用硬件计算资源。这些工作需要与硬件生态密切合作,才能将异构方案真正落地到端侧设备。
观众:IoT采集部分有端侧的案例吗?
朱世艾:车机、智能眼镜和机器人等设备,其实都属于“端侧”范畴。但今天的讨论主题更多聚焦在手机端。当前已有不少IoT案例,如各类新势力品牌的汽车,其车载终端往往包含交互场景,许多计算都基于端侧完成;机器人则更典型,它们需要实时动作反馈,因此端侧大模型推理是必不可少的。不过,这些设备的芯片往往可以采用更强大的设计,技术路线与手机或消费电子端侧推理存在显著差异。
朱世艾:哪些场景最有希望率先跑通端侧大模型?商业模式可能是什么样?
章武:从技术角度看,我们的工具链已适配业界主流的第三方模型,并提供详细的部署指导,大幅降低了中小开发者的研发成本。我们的开发网站不仅包含这些大模型样例,还提供计算机视觉、音频、自然语言处理、AIGC等领域的小模型库,帮助开发者快速找到适合其场景的模型。
这些模型大多经过端侧调优或选型优化,开发者在此基础上训练模型时,只要满足精度要求,就能自然解决端侧部署和性能适配问题。其次,工具链支持Ascend C自定义算子功能,开发者可在端侧调试自定义算子,并同步在云侧使用,实现一次开发多端迁移,从而显著提升AI研发效率。
此外,工具链还提供丰富的算子和算力调优工具,开发者可借助Profiling工具分析性能,调整模型结构,剔除端侧不适用的算子,替换为更优实现,从而快速设计出端侧友好的模型结构,兼顾部署性能与效果。
徐梦炜:在数字世界,我们近期重点研究Computer Use Agent,包括GUI Agent和Function Code Agent。这类Agent非常个性化,类似私人秘书,会访问大量本地数据或操作手机屏幕,因此隐私价值高,用户往往不愿把这些数据上传云端。尽管目前大家仍关注精度,需要使用最新的大模型,但我认为未来落地时,端侧将是主要方向。在物理世界,具身智能同样需要端侧大模型。一方面是隐私因素,例如设备采集的视频流用户不希望上传云端;另一方面是成本与可用性问题,如无人机在无网络环境下仍需自主决策。
朱世艾:从落地角度看,自去年起,端侧大模型已成为商业化技术方案,终端侧运行已基本成熟。华为、vivo、荣耀、苹果等厂商的新旗舰手机均具备端侧大模型能力,可处理文档、本地搜索、简单问答等任务,还支持相机算法优化和离线ASR等场景。Apple Intelligence也提供了较完整的端侧能力,供开发者和上层应用使用。然而,大规模应用仍有距离,目前主要集中在APP中,如支付宝等复杂业务场景。
在APP中应用大模型,需要关注机型覆盖和算力差异。我们不仅要跟进手机迭代速度,还需在技术和算法上优化旧设备的推理能力,这是当前投入较多的方向。今年我们计划在部分小场景做POC,但要将其发展为终端基础设施,可能还需一到两年。
另一方面,APP的产品设计对大模型的精度和能力依赖较强,纯端侧难以支撑如支付宝这类复杂场景,因此我们与内部云侧方案合作,同时也与终端厂商和芯片公司探索联合落地。在场景设计中,GUI Agent是重点方向。对于以GUI页面交互为主的APP,如何利用端侧大模型更便捷地服务用户,是我们端云协同技术方案的核心议题之一。这一方向涉及实时交互、隐私与安全,是端云结合中最容易形成实际应用和商业价值的领域,因此近期我们在这一技术方向上加大了投入。
朱世艾:未来3-5年,端侧智能的世界会变成什么样?端/边/云会如何分工协同?终端设备的形态是否会因大模型而改变?
章武:随着大模型的出现,用户越来越希望在手机中拥有一个“全能秘书”,即AI Agent,能够随时处理各种事务。这一场景对端侧的本地算力提出了很高要求。然而,由于端侧硬件的发展仍有限,我们认为“端云协同”将成为必然趋势。端侧AI的优势在于隐私保护和快速响应,云端AI则擅长利用大数据和强大算力。结合两者特点,未来大模型将在多种场景中深度赋能,端云协同无疑是理想方案。
端侧AI可作为“神经末梢”,负责大模型的部分token计算,以及采集用户情感、偏好与隐私相关数据,经过整合后交由云端“大脑”完成推理决策。云端运行完整的大模型,端侧运行轻量模型,实现从信息采集到推理决策再到快速响应的完整闭环。这种分工既能保证端侧的隐私与实时性,又能发挥云端在大数据和算力方面的优势。
针对端云协同的未来布局,华为提出了一些生态战略。我们计划在年底前完成“看”框架的开源与开放,通过定义统一的计算架构和开放的编程工具链,让开发者可以在端或云中灵活编写与调试算子,并在多端同步部署AI推理能力,从而显著提升端云分工下的应用开发效率。
徐梦炜:未来端和云必然都会运行大模型,但分工不同。云端大模型更接近AGI,致力于拓展人类知识边界,例如解决数学难题或研究蛋白质结构;端侧则更贴近生产力场景,处理与用户本地数据或上下文相关、需要个性化和隐私保护的任务。高通的白皮书中提到“未来的AI是混合式的”,我认为这一定会发生在端与云上。
至于如何协同,最简单也可能最合理的方式是“简单任务在端上处理,复杂任务交由云端”。但这并不容易,因为我们需要判断端侧模型能否正确完成任务,或何时应交由云端处理,这与“幻觉”检测及其边界问题密切相关。因此,端云协同是一个重要课题,值得学术界和工业界持续探索与研究。
朱世艾:大模型的建模方式和业务使用方式的发展,使过去复杂的业务逻辑得到简化。如今,将AI融入业务已无需过于繁重的产品设计,交互方式也逐渐统一,例如流式输入输出。产品设计中,我们常首先考虑“大模型能否胜任该功能”。端侧仍是智能化能力的主要入口,这一定位在未来三到五年不会改变。同时,端不仅是入口,还可能成为计算节点,承担部分智能化能力。
端的形态已不限于手机,还包括车机、机器人、智能眼镜和具身智能设备等,它们都是智能入口。部分设备如眼镜,因功耗、尺寸与佩戴舒适性限制,算力较弱;但其他设备算力正日益增强,未来端将成为应用中的重要计算节点。
端与边缘的协同仍是复杂问题,既与任务复杂度相关,也取决于环境变化。例如,机器人在无网络环境中执行排险任务,或手机在高铁、弱网等环境下,如何保持服务连续性与体验质量?这都需要端侧介入,且方式因应用场景不同而异,尚无统一范式。目前我们希望将部分功能独立部署在端,如离线ASR关键词识别或对话中的关键问题识别,同时将简单任务交由端处理。
当然,端侧决策需确保足够准确,而无法面面俱到的任务可交给云侧处理。这是我们正在探索的多种端云协作方式之一,目标是在保证端侧决策可靠性的同时,让云端补充其不足,从而实现更完整高效的系统。
观众:端侧大模型应该从哪个方面入手学习?
章武:端侧大模型的核心在于端侧推理。针对这一方向,我建议首先要读懂Transformer库的推理源码,这是理解端侧推理的根本。同时,可以从llama.cpp入手,它是一个面向CPU、GPU等多种硬件进行入端适配的优秀开源项目,通过参与其中,可以快速了解端侧推理模式,尤其是端侧优化的实现。
通过这些学习,大家能更快理解端侧推理与云侧推理的差异。LLaMA CPP还提供2~4bit等多种量化方案,包括group量化,并在设计文档和代码中都有详细实现,同时适配多种硬件平台,这些内容有助于深入理解端侧量化的重要性。
徐梦炜:从不同角度看端侧大模型也很有价值。门槛其实很高:首先要精通算法,例如Attention的数学形式必须熟悉;其次要看得懂Transformer库的底层源码,理解其中的数学原理,这是基本功。此外,作为系统方向,还需掌握底层kernel的编写,与硬件和高性能优化相关,并能在复杂系统架构中修改代码和调试。
刚才提到的LLaMA CPP是经典项目。如果觉得它代码量大、阅读门槛高,可以尝试我们开源的简化版本MLLM,在GitHub搜索即可找到。虽然只有约一千个star,只是LLaMA CPP的零头,但完全国产、代码简洁,便于学习,有问题也欢迎交流。
朱世艾:相较去年,今年从基础模型研发到推理引擎和量化算法,开源社区已更加繁荣。如果大家想投身这一方向,这是非常值得深耕的领域,它能让你全面了解模型从算法到底层实现的细节。此外,端侧与云侧技术并非完全割裂,尽管场景和硬件形态不同,很多技术理念是相通的。对端侧有较深入的理解,也便于转向云侧或其他相关赛道。
朱世艾:对于想投身于此的开发者和初创公司,现在的机会点在哪里?是做模型、做应用、还是做工具?
徐梦炜:大模型更像是一项具体技术,而非完整产品。如果想用它创业,当然有成功案例,尤其在硅谷,资本更看重技术并购,所以只要技术足够优秀就有机会。但在国内,软件创业并不容易,因此更适合将大模型与具体应用场景结合。例如,如果我在大模型上有积累,是否可以考虑把它与制造业、机器人或其他领域相结合?当然,这又涉及如何训练模型、优化推理等一系列问题。
如果真正想创业、寻求更高上限,仅依赖大模型本身会比较困难。研发大模型当然很重要,但要独立支撑一家公司的发展,还需结合实际场景,如应用开发、智能Agent、无人机或其他深度垂直领域。
朱世艾:无论是做模型、应用还是基础工具,都各有机会。但对普通开发者而言,做应用更容易取得成果。目前生态已相当繁荣,许多开源资源可以直接使用,降低了门槛。此外,许多OEM厂商和操作系统未来可能会开放端侧模型推理的API或工具链,开发者可以基于这些能力发挥创意,探索更多有趣的应用。这不仅有助于生态繁荣,也更容易取得成功。
本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115995.html