当前位置：首页 > 科技资讯 > 正文

端侧AI重塑未来：从云端算力争霸到终端智能革命

主机测评网
科技资讯
2026-02-28
382

端侧AI重塑未来：从云端算力争霸到终端智能革命端侧AI 独立NPU 存算一体大模型第1张

2025年，当谷歌雄心勃勃地启动“捕日计划”，OpenAI揭开“星际之门”的序幕，全球人工智能产业似乎正沿着“算力至上”的云端轨道狂飙突进。然而，另一场更为深刻的革命正在终端设备上悄然酝酿，它不张扬，却将重塑智能的边界。

5月，OpenAI以65亿美元巨资收购了由苹果前首席设计官Jony Ive创立的AI硬件公司io，并计划于2026年底推出一款颠覆性的无屏幕AI硬件产品；11月，马斯克大胆预言，未来5-6年内，传统手机将彻底退出历史舞台，取而代之的将是仅作为“AI推理边缘节点”的轻量设备；12月，字节跳动悄然试水豆包AI手机，激起市场千层浪。大模型的战火，正从云端算力的“正面战场”蔓延至亿万终端设备的“毛细血管”，一场关乎AI未来格局的端侧竞速正式拉开帷幕。

01. 计算技术的史诗级跃迁，推动算力权杖的交接

计算技术的发展从来不是线性推进，而是由范式转换驱动的一次次飞跃：1945年，冯·诺依曼提出的“存储程序”理论为通用计算奠定了基石；1946年ENIAC的诞生，开启了通用计算时代，以CPU为核心解决了“计算有无”的问题；2006年，英伟达发布CUDA架构，将GPU从图形渲染推向通用计算，其并行能力较CPU提升百倍，标志着加速计算时代的到来；2012年，基于CUDA的AlexNet神经网络模型横空出世，将ImageNet图像识别错误率从26%骤降至15%，算力消耗较CPU方案锐减90%，宣告了深度学习时代的开启；2020年生成式AI的突破，将加速计算推向新高度——大语言模型（LLM）与视觉语言模型（VLM）的涌现，催生了“认知级计算”的迫切需求。

与传统任务截然不同，大模型计算对并行处理能力和海量数据吞吐有着近乎苛刻的追求，对算力与带宽提出了更高要求，尤其是VLM模型需同时处理视觉与语言数据，形成“视觉感知-语言理解-决策生成”的闭环，这极大地加速了云端AI芯片的迭代。大模型的快速演进打破了云端AI芯片的垄断格局，催生了“云端训练-端侧部署”的协同生态：云端算力持续堆叠，模型向超大参数规模挺进；端侧模型则聚焦极致压缩，在有限算力下释放最佳性能，形成“云端养兵，端侧用兵”的协作模式。云端作为AI智能的“大脑”，负责大模型训练、全局决策与知识管理；端侧作为AI智能的“神经末梢”，承担主动感知、实时决策与用户交互等功能。

今天，云端算力已基本完成从以CPU为主的通用计算到以GPU为核心的智能计算的华丽转身。根据国际TOP500组织数据，2019年TOP500超级计算机中近90%的算力完全依赖CPU，而到2025年这一比例已急剧下滑至不足15%。这意味着，短短六年间，Intel与英伟达的算力霸主地位便完成了历史性交接。

02. 端侧即将成为人工智能发展的新蓝海

AI的终极价值不在于实验室的参数，而在于对现实世界的改造能力，在于全社会对技术的采纳率。云端模型部署的高延迟和高成本，使其难以适配工业、消费等端侧场景，于是被誉为“让小模型拥有大智慧”的模型蒸馏技术应运而生。这项技术将千亿级模型压缩至百亿甚至十亿级，在保持较高性能的同时，大幅缩减模型尺寸和计算复杂度，使其能够部署在AI PC、本地会议纪要一体机、AI手机、AI网关等端边侧场景中。

据弗若斯特沙利文预测，2029年全球端侧AI市场规模将增至1.2万亿元，复合年增长率高达39.6%。联想AI PC渗透率已超过其PC总出货量的30%；智能会议设备Plaud年销量突破百万；Meta AI眼镜发布两天内即告售罄，预计2026年销量将破千万。端侧AI正日益成为科技巨头的必争之地。

我国在端侧AI领域拥有天然优势：一方面顶层设计高度重视，另一方面我们拥有全球最大的端侧市场和应用场景。根据弗若斯特沙利文预测，中国端侧AI市场2029年将实现3077亿元，复合年增长率高达39.9%。“十五五”规划建议、《人工智能+行动实施指导意见》等政策文件明确提出，要全面实施“人工智能+”行动，抢占人工智能产业应用制高点，全方位赋能千行百业。锚定2030年“十五五”收官节点，通过五年攻坚，实现智能终端普及率超90%、产业规模突破10万亿元的目标，为端侧AI规模化爆发注入强劲确定性动能。“量化指标”的政策指引，不仅让企业研发和市场推广有了明确方向，也推动端侧AI从“零散试点”走向“规模化落地”。

中国是全球最大的消费电子、家电和汽车生产国，为端侧AI芯片和解决方案提供了巨大的市场需求。国内已形成全球最完整的端侧AI产业链：上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商提供硬件支撑；中游有Deepseek、阿里、讯飞等企业提供算法模型；下游有荣耀、联想、小米等终端厂商负责产品落地，形成了难以复制的生态优势。政策支持与市场需求同频共振，将推动国内端侧AI市场规模快速增长，推动大模型从云端走向手机、PC、汽车、机器人等亿万终端设备。

03. 大模型下沉，与端侧算力实现双向奔赴

云端大模型已涌现出“杀手级应用”：ChatGPT最新披露的周活跃用户达8亿，豆包、Deepseek的月活也分别达到1.72亿和1.45亿，而端侧大模型的Killer App目前尚在孕育之中。这一差异的核心在于，一方面端侧功耗、成本受限，端侧算力芯片的性能决定了能承载的端侧模型的物理基础；另一方面，模型的量化、压缩能力迭代，决定了模型的软件上限。

云端CPU到GPU的霸权交替规律是否会延续到端侧？

让我们一起来审视两个底层逻辑：

1.AI主导计算在云端已经发生 如前所述，云端计算架构CPU:GPU已从2019年的9:1演变为2025年的1:9，2020年大模型的出现无疑加速了这一计算范式的革命。站在2025年的岁末展望未来，端侧的计算范式是否会延续云端以AI算力芯片为主导、CPU为辅助的新格局？类似云端已经发生的变革，端侧传统的数据处理、检索、查询、推荐等任务，若以AI计算的形式呈现，将给用户带来更优体验，用户自然会用脚投票。假如将Deepseek模型装入PC或手机，让它直接访问电脑中的重要工作文件、手机相册视频、聊天记录等（本地处理无隐私和延迟之忧），不仅能帮助我们更高效地完成工作，聊天也将更加深入有趣。在云端，大模型已彻底改变游戏规则，不断加速的AI飞轮势不可挡，那么端侧复制云端的故事就只是工程问题。

2.数据中心传输数据存在物理上限，端侧AI不是选择题而是必答题 马斯克在Joe Rogan Podcast上谈到，边缘节点处理本地推理并与服务器协作不是可选项，这是唯一在架构上可行的前进路径。业界一般按运营级4K流媒体每路约25–50Mbps带宽需求进行设计。按较保守的25 Mbps/用户和2023年997 Tbps（即997,000,000Mbps）海底光缆总带宽计算，理论最大同时4K流用户约为39,880,000（约4000万）。这个用户量级远不足以支撑目前的ChatGPT用户体量，更不用说像微信这样的超级APP了。所以完全由服务器端进行渲染和计算将需要不切实际的数据传输率，可能超出现有全球带宽容量，因此端侧AI的感知和计算让互联网和云去处理是不现实的。

综上，云端CPU与GPU的霸权交替，本质是“效率与场景适配”对计算范式的筛选。而这两大底层逻辑，在端侧同样成立——AI化体验的用户诉求不可逆，数据传输的物理上限不可破。因此，端侧计算架构的变革并非偶然，而是技术演进与现实需求共同作用的必然结果。

端侧复制：模型与算力的共生进化

1.模型“瘦身”落地加速 MoE架构让大模型在保持性能的同时实现“瘦身”，为端侧部署扫清了架构障碍；蒸馏后的模型在保持较高性能的同时，大幅缩减模型尺寸和计算复杂度。华为CBQ量化算法将模型压缩至原体积1/7，性能保留99%；阿里逆向蒸馏技术使2B模型性能反超7B模型8.8%。模型压缩技术的突破降低算力门槛，使其能够部署在AIPC、AI手机、创新AI硬件等端侧场景中。

2.端侧算力需求激增 随着VLM等多模态大模型的广泛应用，需要同时处理视觉细节和文本逻辑，多模态数据的处理复杂度远超纯文本数据，算力需求大幅攀升，比如Qwen3 VL 8B至少需要几十TOPS算力才能流畅运行。另外，智能体（agent）的快速发展，需要反复调用多个模型，推理算力将呈指数级增长。

3.端侧算力供给大幅跃迁 需求的增长刺激了算力供给，前大模型时代端侧芯片通常只有几TOPS的算力，AI PC出现后Intel和高通芯片达到几十TOPS。国产芯片中，瑞芯微RK182X作为独立NPU算力达20TOPS；后摩智能M50算力可高达160TOPS。端侧NPU算力首次突破100TOPS，预计将继续向高算力、高带宽、低功耗方向演进。

04. 当前，端侧算力以“SOC+NPU协同发展”为主要格局

1.端侧SOC芯片：提供通用基础型解决方案 这类芯片以ARM CPU为核心，集成轻量级NPU，主打“性价比+通用性”。架构设计普遍采用“CPU+GPU+NPU+ISP”的混合集成，适配1-10亿参数的端侧小模型，主要应用在智能音箱、定制平板、智能门锁等场景，对AI性能要求较低，注重成本控制。以瑞芯微RK3588为例，4个ARM A76大核+4个A55小核，6TOPS NPU，强大的CPU核搭配小算力NPU，这是典型的前大模型时代产品，以控制为主，附带少量AI能力处理图像为主的泛安防等场景。全志H88K、钜芯JX100、恒烁HS610等SOC的AI能力相对更弱。类比云端，当前端侧依然是CPU为主的计算范式，只是ARM替代了X86。

2.端侧NPU：提供极致性能解决方案 虽然GPU成为云端AI计算的核心，但其功耗劣势在端侧是明显短板，因此端侧AI计算逐渐以NPU为主流。GPU的存在形态分为iGPU（集显）和dGPU（独显），NPU也分为iNPU（集成加速卡）和dNPU（独立加速卡）。若追求极致AI性能，不仅需要芯片算力，还需足够带宽，dNPU是最优选择，无需与SOC里的CPU核、GPU核、ISP等争抢带宽。同时，dNPU具有灵活搭配的优点，可根据具体场景与不同性能的SOC组合使用。

目前市面上性能较强的NPU包括华为Atlas 200I A2、算能BM1684X、瑞芯微RK182X、后摩智能M50等，可适配30-1000亿参数的模型。

华为Atlas 200I A2：传统架构，最高20TOPS Int8算力，功耗25瓦，带宽最高51.2GB/s。可部署于无人机和机器人，优势在于高集成度和完整软硬件生态。

算能BM1684X：传统架构，单芯片32TOPS，功耗15-33瓦。以行业应用广度和成熟度见长，适合智慧安防、边缘计算服务器等需处理大量视频流的场景，已在270+城市项目中落地。

瑞芯微RK1820/1828：3D堆叠封装，最高20TOPS Int8算力，功耗未披露。3D堆叠理论带宽可达1TB/S，实测数据约百GB/s。协处理器定位，与主处理器（如RK3588）搭配，能以较低成本为现有设备快速增添大模型能力，但面对强AI场景算力或成瓶颈。

后摩智能M50：存算一体架构，单芯片算力160TOPS，功耗10W，带宽153GB/s。协处理器定位。得益于创新架构，算力优势显著，10W功耗可放入大部分消费电子产品，特别适合PC、机器人、智能语音设备等对功耗敏感、要求数据本地化处理的大模型应用场景。

05. 未来，端侧算力将形成以dNPU为主的新范式

1.端侧ARM+NPU镜像云端X86+GPGPU将是大趋势 端侧计算未来发展也会像云端异构计算变迁一样，从CPU计算为主，逐渐向AI计算为主迁移。大模型的出现和迭代是云端计算架构变迁的底层动能，也将是端侧计算架构变革的核燃料。端侧功耗的敏感性及散热条件的限制，让X86+GPGPU无法照搬迁移。端侧的CPU，取决于时间维度，ARM或RISC-V将取代X86的位置；端侧的AI计算，dNPU（也有人称为GPNPU，即通用AI计算单元）将取代GPGPU的位置，嵌入各种复杂的AI计算。CPU和NPU将根据场景需要协同前进，只是NPU在重要性和价值量上将逐渐接近云端GPGPU的比例。

2.端侧将形成低、中、高算力分层 低算力场景（<10TOPS）：SOC集成iNPU是最优解。用户对AI功能的需求集中在语音助手、简单图像识别等基础应用，SOC集成化设计可极大降低硬件成本，完美适配需求，如RK3588、全志V853、钜芯JX900，适配智能家电、入门级平板等。 中算力场景（10TOPS～50TOPS）：为追求较好AI性能需充足带宽，独立dNPU是最优方案。支持10亿～100亿参数量的模型，用户可能需要在本地设备运行7B的语言模型或多模态模型，如瑞芯微RK1820、算能BM1684X等，适配各类边缘推理场景。 高算力场景（>50TOPS）：追求AI性能极致表现和未来迭代需求，dNPU方案是最优解。支持100亿～1000亿参数量的大模型，随着大模型演进，算力需求无上限，供给侧瓶颈在于功耗限制。典型场景如高性能AI PC、陪伴机器人、高性能智能语音设备、边缘计算盒子等。目前国内只有后摩智能M50。

3.dNPU将成为端侧AI主导力量 传统端侧芯片设计理念认为SOC集成度越高越好，这符合大部分时间的发展经验。但当SOC内的某部分计算单元重要到需要独立配备带宽和存储资源时，集成在SOC内未必最优。典型案例是英伟达PC端的GPU显卡，作为独立dGPU，二十多年来一直在SOC外单独存在。尽管英特尔和AMD都试图在SOC里集成iGPU，但在高性能游戏显卡的竞争中，英伟达占到95%～98%的市场份额，占据绝对垄断地位。AI芯片的重要性将远超游戏显卡，使用人群基数也远超游戏发烧友，同理可推，独立NPU将成为更主导的端侧形态。

独立NPU更像是端侧场景下的GPGPU，在和SOC协同中有如下优势：

——适配操作系统和硬件的多样化：dNPU可以像U盘一样即插即用，无论CPU是X86、ARM还是RISC-V，操作系统是Windows、Android还是Linux，都可轻松适配，跨操作系统使用。这使得同一颗NPU可以跨手机、平板、PC等硬件平台使用。

——组合成本最优化：端侧场景分散且需求各异，简化到CPU和NPU都有各种组合。独立NPU使SOC可以按需扩展算力，当产品需要升级以支持大模型等更复杂功能时，再通过增加dNPU来提供强力AI算力；反之，根据具体场景，NPU也可以选择最合适的SOC配合，选取最适量的CPU核。例如RK3588+RK182X组合方案，较集成高算力NPU的OrinNX在成本上有明显优势。

——开发迭代灵活性：当某个端侧应用需要增加AI功能时，若迁移到新SOC工作量巨大，但不更换SOC，只增加一颗dNPU则可敏捷开发，主控芯片不变，快速升级AI功能。dNPU可根据算力需求单独升级，适配端侧AI模型3-6个月的迭代周期，而SOC研发周期一般需18-24个月。

——性能极致化：几乎100%的高性能显卡都是dGPU，为保证游戏体验需独立带宽保障。SOC中的iNPU需与其他计算单元争抢带宽，性能无法做到极致。独立NPU是实现极致AI性能的唯一方案。

06. 端侧AI的场景革命，正在重构生活与工作的智能体验

桌上那个比iPod Shuffle还小的无屏设备，正静静感知、规划着你的生活，让你彻底告别手机碎片化信息的干扰——这是IO计划颠覆手机、电脑的第三设备；未来的手机可能只有一个屏幕和基础联网功能，不再有操作系统和App，你想要的一切或AI预测你想要的一切，都将通过AI生成——这是马斯克对未来端侧AI的预言。

端侧AI如今正沿着一条清晰的路径进化，从简单的连接功能逐步走向与环境、用户的深度融合：

初级形态：联网节点，设备能联网，大部分设备算力不足1T，仅可通过手机简单控制。

二级形态：交互入口，全球首款智能音箱Echo能听懂“播放钢琴曲”，但无法理解“我心情不好”。二级形态算力一般在5Tops以内，重度依赖云端识别，用户的声纹数据需上传服务器，反馈速度极慢。

三级形态：推理节点，具备多模态感知、上下文记忆与单场景决策能力，从“听见”飞跃至“听懂、看懂并记住”。会议中走神的你突然被提问，智能会议设备捕捉到你慌乱的眼神，迅速结合前面讨论内容、分析当前投屏的PPT，本地数据库中的相关纪要，快速生成符合老板偏好的回答建议。在这一阶段，端侧AI算力达到百Tops，交互延迟可压至毫秒级，数据处理完全本地化，这种实时性与安全性让用户开始接纳并适应端侧AI融入生活。

四级形态：自主智能体，端侧AI跃升为你的生活和工作助理，能跨设备、跨场景自主规划，并能持续学习、自我迭代。当你说“请安排一下周末的Party”，无屏AI伴侣立刻查询你的聊天记录，确定参加人数、宾客口味，检查冰箱食物，规划菜谱并通过手机下单。本级形态的端侧AI已实现互联互通，算力500T以上，从智能家居到办公设备，超80%的数据将在端侧处理。用户的语音、图像、日常生活习惯、个性化需求在本地设备间安全流转，智能体则根据指令随时调用个人数据。

终极形态：目前无法预估，未来端侧AI或许是人类文明的延续，是碳基生命与硅基生命的共生......

端侧AI已迈入第三级形态，对计算芯片的要求呈指数级攀升，且必须在算力、功耗与成本之间找到最佳平衡点。传统冯诺依曼架构下，数据在存储与运算单元之间反复搬运，1w功耗限制下最多只能提供几Tops的算力。因此，为了突破这一限制，多种新型计算架构相继涌现：光子计算芯片利用光波传输信息，延迟可达皮秒级，功耗极低，但光源系统仍面临技术成熟度挑战；量子计算芯片借助量子并行与叠加态，可同时处理海量运算，速度远超经典计算机，目前尚处早期，错误率极高；可重构数据流用数据驱动计算过程，减少指令调度开销；Chiplet技术通过异构集成，将不同工艺、功能的芯片模块封装在一起，实现高性能与低成本的兼顾；存算一体技术通过融合计算与存储单元，将数据搬运路径缩至最短，大幅提升计算效率，是新型计算架构中更适合端侧AI、且能商业量产的方案之一。

目前，国内外众多芯片厂商都在积极布局存算一体技术：美国人工智能芯片初创公司D-Matrix第一款芯片Corsair已量产，主要用于聊天机器人等云端推理场景，公司估值达20亿美元；核心技术源于DARPA资助的研究项目Encharge AI则面向端侧AI场景，芯片算力高达200T，今年年底将送测客户。国内知存科技、后摩智能等初创公司，也已推出多款基于存算一体架构的AI芯片：知存科技深耕小算力场景，产品已广泛应用于可穿戴设备、AIoT等；后摩智能则主攻大算力端侧AI场景，已成功将大模型能力导入联想AI PC、讯飞智能语音设备、陪伴机器人等场景。

Sam Altman曾明确指出，当前AI发展的核心瓶颈已从算法转向算力、存储与能源构成的“三位一体”基础设施挑战。未来，无论是云端还是端侧AI，以存算一体为代表的新技术架构将逐步走向舞台中央，成为驱动AI全场景算力升级的核心引擎。

结语：端侧AI，定义智能时代的终极形态

端侧AI的崛起是技术发展的必然——从通用计算到AI计算，从云端到终端，从集成NPU到独立NPU，每一步都遵循“效率优化+场景适配”的逻辑。未来五年，所有终端都将经历一场深刻的大模型洗礼与蜕变，端侧AI将从高端走向普及，从单点功能走向全场景智能，真正开启“人人可用、万物智能”的时代。一个由端侧AI定义的、更高效、更普惠、更具想象力的智能终局，正在加速到来。