
随着大模型技术的深入发展,AI 应用的体验、成本及隐私保护成为至关重要的议题。若能在终端直接部署大模型,无疑将极大吸引产业应用。那么,如何克服庞大的模型尺寸与计算复杂度,实现端侧大模型的落地呢?
近期,InfoQ《极客有约》携手 AICon 直播栏目,特别邀请了蚂蚁集团 xNN 引擎负责人朱世艾博士与北京邮电大学副教授徐梦炜博士、华为 CANN 端侧生态技术专家章武,在 QCon 全球软件开发大会2025 上海站即将召开之际,共同探讨了端侧大模型的发展现状、实际进展及未来机遇。
部分精彩观点摘要如下:
以下内容基于直播速记整理,并经过 InfoQ 删减。
朱世艾:当前端侧大模型的发展现状如何?有哪些实际进展?
徐梦炜:端侧大模型指将大模型的推理直接部署在终端设备上。与之相对的是云端的大型 GPU 集群或数据中心。尽管大模型对端侧落地更具挑战,但随着生成式 AI 的发展,端侧 AI 也应不断突破。
我们团队早在二三年前开始研究端侧大模型时,很多人认为“模型放在端上”就不算“大”。实际上,只要它是 foundation model,能处理多种任务,就可以称为大模型。
为什么要在端侧部署大模型?首先是隐私保护。在大模型时代,模型可能利用终端产生的所有数据。其次,端侧推理可摆脱网络依赖,提升可用性。最后,从企业角度看,将计算分摊到用户终端,可减少维护超大 GPU 集群的成本。
章武:将云端大模型迁移到端侧面临诸多挑战。首先是内存问题,云端内存可扩展而手机等终端内存有限。其次是精度对齐和开发适配成本问题。华为 CANN 工具链为此提供了一系列解决方案。
朱世艾:支付宝作为互联网大厂,在实际应用中关注三大优势:实时性、隐私和成本。
在大模型时代,语音助手等交互场景对时延要求越来越高。端侧推理可显著提升响应速度。此外,个性化推荐和基于用户行为的实时决策涉及敏感数据,在端侧实现这些算法可降低数据风险并提升用户体验。
章武:“将大模型塞进手机”的过程与“将大象塞进冰箱”一样困难。我们需要解决内存占用、推理速度和功能泛化等问题。CANN 工具链为此提供了低 bit 量化、自定义算子能力等解决方案。
朱世艾:哪些场景最有希望率先跑通端侧大模型?商业模式可能是什么样?
章武:我们的工具链已适配业界主流的第三方模型,并提供详细的部署指导。此外,还支持 Ascend C 自定义算子功能,实现一次开发多端迁移。
徐梦炜:未来我们将重点研究 Computer Use Agent,包括 GUI Agent 和 Function Code Agent。这些 Agent 非常个性化且隐私价值高,用户往往不愿上传数据。尽管目前大家仍关注精度和使用最新大模型,但未来落地时端侧将是主要方向。
朱世艾:未来 3-5 年,端侧智能的世界会变成什么样?端 / 边 / 云会如何分工协同?
章武:“端云协同”将成为必然趋势。端侧 AI 负责部分 token 计算和隐私保护任务,而云端运行完整的大模型。
徐梦炜:未来端和云都会运行大模型但分工不同。云端更接近 AGI 而端侧更贴近生产力场景。
观众提问:对于想投身于此的开发者来说现在的机会点在哪里?
徐梦炜:若想用大模型创业需结合具体应用场景如制造业、机器人等。研发大模型固然重要但结合实际场景才能支撑公司发展。
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542635.html