2025年,当谷歌雄心勃勃地启动“捕日计划”,OpenAI揭开“星际之门”的序幕,全球人工智能产业似乎正沿着“算力至上”的云端轨道狂飙突进。然而,另一场更为深刻的革命正在终端设备上悄然酝酿,它不张扬,却将重塑智能的边界。
5月,OpenAI以65亿美元巨资收购了由苹果前首席设计官Jony Ive创立的AI硬件公司io,并计划于2026年底推出一款颠覆性的无屏幕AI硬件产品;11月,马斯克大胆预言,未来5-6年内,传统手机将彻底退出历史舞台,取而代之的将是仅作为“AI推理边缘节点”的轻量设备;12月,字节跳动悄然试水豆包AI手机,激起市场千层浪。大模型的战火,正从云端算力的“正面战场”蔓延至亿万终端设备的“毛细血管”,一场关乎AI未来格局的端侧竞速正式拉开帷幕。
计算技术的发展从来不是线性推进,而是由范式转换驱动的一次次飞跃:1945年,冯·诺依曼提出的“存储程序”理论为通用计算奠定了基石;1946年ENIAC的诞生,开启了通用计算时代,以CPU为核心解决了“计算有无”的问题;2006年,英伟达发布CUDA架构,将GPU从图形渲染推向通用计算,其并行能力较CPU提升百倍,标志着加速计算时代的到来;2012年,基于CUDA的AlexNet神经网络模型横空出世,将ImageNet图像识别错误率从26%骤降至15%,算力消耗较CPU方案锐减90%,宣告了深度学习时代的开启;2020年生成式AI的突破,将加速计算推向新高度——大语言模型(LLM)与视觉语言模型(VLM)的涌现,催生了“认知级计算”的迫切需求。
与传统任务截然不同,大模型计算对并行处理能力和海量数据吞吐有着近乎苛刻的追求,对算力与带宽提出了更高要求,尤其是VLM模型需同时处理视觉与语言数据,形成“视觉感知-语言理解-决策生成”的闭环,这极大地加速了云端AI芯片的迭代。大模型的快速演进打破了云端AI芯片的垄断格局,催生了“云端训练-端侧部署”的协同生态:云端算力持续堆叠,模型向超大参数规模挺进;端侧模型则聚焦极致压缩,在有限算力下释放最佳性能,形成“云端养兵,端侧用兵”的协作模式。云端作为AI智能的“大脑”,负责大模型训练、全局决策与知识管理;端侧作为AI智能的“神经末梢”,承担主动感知、实时决策与用户交互等功能。
今天,云端算力已基本完成从以CPU为主的通用计算到以GPU为核心的智能计算的华丽转身。根据国际TOP500组织数据,2019年TOP500超级计算机中近90%的算力完全依赖CPU,而到2025年这一比例已急剧下滑至不足15%。这意味着,短短六年间,Intel与英伟达的算力霸主地位便完成了历史性交接。
AI的终极价值不在于实验室的参数,而在于对现实世界的改造能力,在于全社会对技术的采纳率。云端模型部署的高延迟和高成本,使其难以适配工业、消费等端侧场景,于是被誉为“让小模型拥有大智慧”的模型蒸馏技术应运而生。这项技术将千亿级模型压缩至百亿甚至十亿级,在保持较高性能的同时,大幅缩减模型尺寸和计算复杂度,使其能够部署在AI PC、本地会议纪要一体机、AI手机、AI网关等端边侧场景中。
据弗若斯特沙利文预测,2029年全球端侧AI市场规模将增至1.2万亿元,复合年增长率高达39.6%。联想AI PC渗透率已超过其PC总出货量的30%;智能会议设备Plaud年销量突破百万;Meta AI眼镜发布两天内即告售罄,预计2026年销量将破千万。端侧AI正日益成为科技巨头的必争之地。
我国在端侧AI领域拥有天然优势:一方面顶层设计高度重视,另一方面我们拥有全球最大的端侧市场和应用场景。根据弗若斯特沙利文预测,中国端侧AI市场2029年将实现3077亿元,复合年增长率高达39.9%。“十五五”规划建议、《人工智能+行动实施指导意见》等政策文件明确提出,要全面实施“人工智能+”行动,抢占人工智能产业应用制高点,全方位赋能千行百业。锚定2030年“十五五”收官节点,通过五年攻坚,实现智能终端普及率超90%、产业规模突破10万亿元的目标,为端侧AI规模化爆发注入强劲确定性动能。“量化指标”的政策指引,不仅让企业研发和市场推广有了明确方向,也推动端侧AI从“零散试点”走向“规模化落地”。
中国是全球最大的消费电子、家电和汽车生产国,为端侧AI芯片和解决方案提供了巨大的市场需求。国内已形成全球最完整的端侧AI产业链:上游有华为昇腾、地平线、瑞芯微、后摩智能等芯片厂商提供硬件支撑;中游有Deepseek、阿里、讯飞等企业提供算法模型;下游有荣耀、联想、小米等终端厂商负责产品落地,形成了难以复制的生态优势。政策支持与市场需求同频共振,将推动国内端侧AI市场规模快速增长,推动大模型从云端走向手机、PC、汽车、机器人等亿万终端设备。
云端大模型已涌现出“杀手级应用”:ChatGPT最新披露的周活跃用户达8亿,豆包、Deepseek的月活也分别达到1.72亿和1.45亿,而端侧大模型的Killer App目前尚在孕育之中。这一差异的核心在于,一方面端侧功耗、成本受限,端侧算力芯片的性能决定了能承载的端侧模型的物理基础;另一方面,模型的量化、压缩能力迭代,决定了模型的软件上限。
让我们一起来审视两个底层逻辑:
1.AI主导计算在云端已经发生 如前所述,云端计算架构CPU:GPU已从2019年的9:1演变为2025年的1:9,2020年大模型的出现无疑加速了这一计算范式的革命。站在2025年的岁末展望未来,端侧的计算范式是否会延续云端以AI算力芯片为主导、CPU为辅助的新格局?类似云端已经发生的变革,端侧传统的数据处理、检索、查询、推荐等任务,若以AI计算的形式呈现,将给用户带来更优体验,用户自然会用脚投票。假如将Deepseek模型装入PC或手机,让它直接访问电脑中的重要工作文件、手机相册视频、聊天记录等(本地处理无隐私和延迟之忧),不仅能帮助我们更高效地完成工作,聊天也将更加深入有趣。在云端,大模型已彻底改变游戏规则,不断加速的AI飞轮势不可挡,那么端侧复制云端的故事就只是工程问题。
2.数据中心传输数据存在物理上限,端侧AI不是选择题而是必答题 马斯克在Joe Rogan Podcast上谈到,边缘节点处理本地推理并与服务器协作不是可选项,这是唯一在架构上可行的前进路径。业界一般按运营级4K流媒体每路约25–50Mbps带宽需求进行设计。按较保守的25 Mbps/用户和2023年997 Tbps(即997,000,000Mbps)海底光缆总带宽计算,理论最大同时4K流用户约为39,880,000(约4000万)。这个用户量级远不足以支撑目前的ChatGPT用户体量,更不用说像微信这样的超级APP了。所以完全由服务器端进行渲染和计算将需要不切实际的数据传输率,可能超出现有全球带宽容量,因此端侧AI的感知和计算让互联网和云去处理是不现实的。
综上,云端CPU与GPU的霸权交替,本质是“效率与场景适配”对计算范式的筛选。而这两大底层逻辑,在端侧同样成立——AI化体验的用户诉求不可逆,数据传输的物理上限不可破。因此,端侧计算架构的变革并非偶然,而是技术演进与现实需求共同作用的必然结果。
1.模型“瘦身”落地加速 MoE架构让大模型在保持性能的同时实现“瘦身”,为端侧部署扫清了架构障碍;蒸馏后的模型在保持较高性能的同时,大幅缩减模型尺寸和计算复杂度。华为CBQ量化算法将模型压缩至原体积1/7,性能保留99%;阿里逆向蒸馏技术使2B模型性能反超7B模型8.8%。模型压缩技术的突破降低算力门槛,使其能够部署在AIPC、AI手机、创新AI硬件等端侧场景中。
2.端侧算力需求激增 随着VLM等多模态大模型的广泛应用,需要同时处理视觉细节和文本逻辑,多模态数据的处理复杂度远超纯文本数据,算力需求大幅攀升,比如Qwen3 VL 8B至少需要几十TOPS算力才能流畅运行。另外,智能体(agent)的快速发展,需要反复调用多个模型,推理算力将呈指数级增长。
3.端侧算力供给大幅跃迁 需求的增长刺激了算力供给,前大模型时代端侧芯片通常只有几TOPS的算力,AI PC出现后Intel和高通芯片达到几十TOPS。国产芯片中,瑞芯微RK182X作为独立NPU算力达20TOPS;后摩智能M50算力可高达160TOPS。端侧NPU算力首次突破100TOPS,预计将继续向高算力、高带宽、低功耗方向演进。
1.端侧SOC芯片:提供通用基础型解决方案 这类芯片以ARM CPU为核心,集成轻量级NPU,主打“性价比+通用性”。架构设计普遍采用“CPU+GPU+NPU+ISP”的混合集成,适配1-10亿参数的端侧小模型,主要应用在智能音箱、定制平板、智能门锁等场景,对AI性能要求较低,注重成本控制。以瑞芯微RK3588为例,4个ARM A76大核+4个A55小核,6TOPS NPU,强大的CPU核搭配小算力NPU,这是典型的前大模型时代产品,以控制为主,附带少量AI能力处理图像为主的泛安防等场景。全志H88K、钜芯JX100、恒烁HS610等SOC的AI能力相对更弱。类比云端,当前端侧依然是CPU为主的计算范式,只是ARM替代了X86。
2.端侧NPU:提供极致性能解决方案 虽然GPU成为云端AI计算的核心,但其功耗劣势在端侧是明显短板,因此端侧AI计算逐渐以NPU为主流。GPU的存在形态分为iGPU(集显)和dGPU(独显),NPU也分为iNPU(集成加速卡)和dNPU(独立加速卡)。若追求极致AI性能,不仅需要芯片算力,还需足够带宽,dNPU是最优选择,无需与SOC里的CPU核、GPU核、ISP等争抢带宽。同时,dNPU具有灵活搭配的优点,可根据具体场景与不同性能的SOC组合使用。
目前市面上性能较强的NPU包括华为Atlas 200I A2、算能BM1684X、瑞芯微RK182X、后摩智能M50等,可适配30-1000亿参数的模型。
华为Atlas 200I A2:传统架构,最高20TOPS Int8算力,功耗25瓦,带宽最高51.2GB/s。可部署于无人机和机器人,优势在于高集成度和完整软硬件生态。
算能BM1684X:传统架构,单芯片32TOPS,功耗15-33瓦。以行业应用广度和成熟度见长,适合智慧安防、边缘计算服务器等需处理大量视频流的场景,已在270+城市项目中落地。
瑞芯微RK1820/1828:3D堆叠封装,最高20TOPS Int8算力,功耗未披露。3D堆叠理论带宽可达1TB/S,实测数据约百GB/s。协处理器定位,与主处理器(如RK3588)搭配,能以较低成本为现有设备快速增添大模型能力,但面对强AI场景算力或成瓶颈。
后摩智能M50:存算一体架构,单芯片算力160TOPS,功耗10W,带宽153GB/s。协处理器定位。得益于创新架构,算力优势显著,10W功耗可放入大部分消费电子产品,特别适合PC、机器人、智能语音设备等对功耗敏感、要求数据本地化处理的大模型应用场景。
1.端侧ARM+NPU镜像云端X86+GPGPU将是大趋势 端侧计算未来发展也会像云端异构计算变迁一样,从CPU计算为主,逐渐向AI计算为主迁移。大模型的出现和迭代是云端计算架构变迁的底层动能,也将是端侧计算架构变革的核燃料。端侧功耗的敏感性及散热条件的限制,让X86+GPGPU无法照搬迁移。端侧的CPU,取决于时间维度,ARM或RISC-V将取代X86的位置;端侧的AI计算,dNPU(也有人称为GPNPU,即通用AI计算单元)将取代GPGPU的位置,嵌入各种复杂的AI计算。CPU和NPU将根据场景需要协同前进,只是NPU在重要性和价值量上将逐渐接近云端GPGPU的比例。
2.端侧将形成低、中、高算力分层 低算力场景(<10TOPS):SOC集成iNPU是最优解。用户对AI功能的需求集中在语音助手、简单图像识别等基础应用,SOC集成化设计可极大降低硬件成本,完美适配需求,如RK3588、全志V853、钜芯JX900,适配智能家电、入门级平板等。 中算力场景(10TOPS~50TOPS):为追求较好AI性能需充足带宽,独立dNPU是最优方案。支持10亿~100亿参数量的模型,用户可能需要在本地设备运行7B的语言模型或多模态模型,如瑞芯微RK1820、算能BM1684X等,适配各类边缘推理场景。 高算力场景(>50TOPS):追求AI性能极致表现和未来迭代需求,dNPU方案是最优解。支持100亿~1000亿参数量的大模型,随着大模型演进,算力需求无上限,供给侧瓶颈在于功耗限制。典型场景如高性能AI PC、陪伴机器人、高性能智能语音设备、边缘计算盒子等。目前国内只有后摩智能M50。
3.dNPU将成为端侧AI主导力量 传统端侧芯片设计理念认为SOC集成度越高越好,这符合大部分时间的发展经验。但当SOC内的某部分计算单元重要到需要独立配备带宽和存储资源时,集成在SOC内未必最优。典型案例是英伟达PC端的GPU显卡,作为独立dGPU,二十多年来一直在SOC外单独存在。尽管英特尔和AMD都试图在SOC里集成iGPU,但在高性能游戏显卡的竞争中,英伟达占到95%~98%的市场份额,占据绝对垄断地位。AI芯片的重要性将远超游戏显卡,使用人群基数也远超游戏发烧友,同理可推,独立NPU将成为更主导的端侧形态。
独立NPU更像是端侧场景下的GPGPU,在和SOC协同中有如下优势:
——适配操作系统和硬件的多样化:dNPU可以像U盘一样即插即用,无论CPU是X86、ARM还是RISC-V,操作系统是Windows、Android还是Linux,都可轻松适配,跨操作系统使用。这使得同一颗NPU可以跨手机、平板、PC等硬件平台使用。
——组合成本最优化:端侧场景分散且需求各异,简化到CPU和NPU都有各种组合。独立NPU使SOC可以按需扩展算力,当产品需要升级以支持大模型等更复杂功能时,再通过增加dNPU来提供强力AI算力;反之,根据具体场景,NPU也可以选择最合适的SOC配合,选取最适量的CPU核。例如RK3588+RK182X组合方案,较集成高算力NPU的OrinNX在成本上有明显优势。
——开发迭代灵活性:当某个端侧应用需要增加AI功能时,若迁移到新SOC工作量巨大,但不更换SOC,只增加一颗dNPU则可敏捷开发,主控芯片不变,快速升级AI功能。dNPU可根据算力需求单独升级,适配端侧AI模型3-6个月的迭代周期,而SOC研发周期一般需18-24个月。
——性能极致化:几乎100%的高性能显卡都是dGPU,为保证游戏体验需独立带宽保障。SOC中的iNPU需与其他计算单元争抢带宽,性能无法做到极致。独立NPU是实现极致AI性能的唯一方案。
桌上那个比iPod Shuffle还小的无屏设备,正静静感知、规划着你的生活,让你彻底告别手机碎片化信息的干扰——这是IO计划颠覆手机、电脑的第三设备;未来的手机可能只有一个屏幕和基础联网功能,不再有操作系统和App,你想要的一切或AI预测你想要的一切,都将通过AI生成——这是马斯克对未来端侧AI的预言。
端侧AI如今正沿着一条清晰的路径进化,从简单的连接功能逐步走向与环境、用户的深度融合:
初级形态:联网节点,设备能联网,大部分设备算力不足1T,仅可通过手机简单控制。
二级形态:交互入口,全球首款智能音箱Echo能听懂“播放钢琴曲”,但无法理解“我心情不好”。二级形态算力一般在5Tops以内,重度依赖云端识别,用户的声纹数据需上传服务器,反馈速度极慢。
三级形态:推理节点,具备多模态感知、上下文记忆与单场景决策能力,从“听见”飞跃至“听懂、看懂并记住”。会议中走神的你突然被提问,智能会议设备捕捉到你慌乱的眼神,迅速结合前面讨论内容、分析当前投屏的PPT,本地数据库中的相关纪要,快速生成符合老板偏好的回答建议。在这一阶段,端侧AI算力达到百Tops,交互延迟可压至毫秒级,数据处理完全本地化,这种实时性与安全性让用户开始接纳并适应端侧AI融入生活。
四级形态:自主智能体,端侧AI跃升为你的生活和工作助理,能跨设备、跨场景自主规划,并能持续学习、自我迭代。当你说“请安排一下周末的Party”,无屏AI伴侣立刻查询你的聊天记录,确定参加人数、宾客口味,检查冰箱食物,规划菜谱并通过手机下单。本级形态的端侧AI已实现互联互通,算力500T以上,从智能家居到办公设备,超80%的数据将在端侧处理。用户的语音、图像、日常生活习惯、个性化需求在本地设备间安全流转,智能体则根据指令随时调用个人数据。
终极形态:目前无法预估,未来端侧AI或许是人类文明的延续,是碳基生命与硅基生命的共生......
端侧AI已迈入第三级形态,对计算芯片的要求呈指数级攀升,且必须在算力、功耗与成本之间找到最佳平衡点。传统冯诺依曼架构下,数据在存储与运算单元之间反复搬运,1w功耗限制下最多只能提供几Tops的算力。因此,为了突破这一限制,多种新型计算架构相继涌现:光子计算芯片利用光波传输信息,延迟可达皮秒级,功耗极低,但光源系统仍面临技术成熟度挑战;量子计算芯片借助量子并行与叠加态,可同时处理海量运算,速度远超经典计算机,目前尚处早期,错误率极高;可重构数据流用数据驱动计算过程,减少指令调度开销;Chiplet技术通过异构集成,将不同工艺、功能的芯片模块封装在一起,实现高性能与低成本的兼顾;存算一体技术通过融合计算与存储单元,将数据搬运路径缩至最短,大幅提升计算效率,是新型计算架构中更适合端侧AI、且能商业量产的方案之一。
目前,国内外众多芯片厂商都在积极布局存算一体技术:美国人工智能芯片初创公司D-Matrix第一款芯片Corsair已量产,主要用于聊天机器人等云端推理场景,公司估值达20亿美元;核心技术源于DARPA资助的研究项目Encharge AI则面向端侧AI场景,芯片算力高达200T,今年年底将送测客户。国内知存科技、后摩智能等初创公司,也已推出多款基于存算一体架构的AI芯片:知存科技深耕小算力场景,产品已广泛应用于可穿戴设备、AIoT等;后摩智能则主攻大算力端侧AI场景,已成功将大模型能力导入联想AI PC、讯飞智能语音设备、陪伴机器人等场景。
Sam Altman曾明确指出,当前AI发展的核心瓶颈已从算法转向算力、存储与能源构成的“三位一体”基础设施挑战。未来,无论是云端还是端侧AI,以存算一体为代表的新技术架构将逐步走向舞台中央,成为驱动AI全场景算力升级的核心引擎。
端侧AI的崛起是技术发展的必然——从通用计算到AI计算,从云端到终端,从集成NPU到独立NPU,每一步都遵循“效率优化+场景适配”的逻辑。未来五年,所有终端都将经历一场深刻的大模型洗礼与蜕变,端侧AI将从高端走向普及,从单点功能走向全场景智能,真正开启“人人可用、万物智能”的时代。一个由端侧AI定义的、更高效、更普惠、更具想象力的智能终局,正在加速到来。
本文由主机测评网于2026-02-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260227690.html