当前位置:首页 > 科技资讯 > 正文

端侧AI:从云端依赖到万物智能的进化

在最近的两年里,全球科技界仿佛陷入了一场名为Scaling Law的狂热之中。在OpenAI和NVIDIA的引领下,参数量的指数级增长成为了所有人的焦点。从175B到万亿参数,从H100到Blackwell,似乎算力就是正义,规模就是真理。投资人和媒体热衷于讨论GPT-5何时通过图灵测试,仿佛只要堆足够多的卡,硅基生命就会在云端的数据中心里自然涌现。

然而,云端算力的狂飙背后,是物理世界工程界面临的一道严峻的高墙。

你或许有过这样的体验:对着智能音箱喊一声“关灯”,它却还要反应两秒钟,甚至因为Wi-Fi波动回你一句“网络连接中,请稍后再试”。在那个尴尬的瞬间,所谓的人工智能,表现得还不如一个五块钱的物理开关。

对于这种“云端依赖症”,消费者顶多抱怨两句。但对于自动驾驶、工业机器人、医疗急救设备等关键终端来说,完全依赖云端的“超级大脑”既不现实,也不安全。

想象一下,一辆时速100公里的自动驾驶汽车在识别到前方有障碍物时,如果需要将数据上传到千里之外的云计算中心,等待推理完成后再传回刹车指令——仅仅是数据在光纤里跑个来回的物理时间Latency,就足以酿成一场事故。更别提还有隐私泄露的风险:谁愿意把自己家里的摄像头画面、个人的医疗病历,毫无保留地传到公有云上?

端侧AI:从云端依赖到万物智能的进化 端侧AI 云端依赖 物理极限 垂直智能 第1张

于是,2025年的技术风向悄然逆转。相比于云端那些遥不可及、每秒烧掉几万美金电费的“超级大脑”,工程界开始死磕一个更性感、也更艰难的命题:端侧AI。

这并非简单的“减配”,而是一场极度反人性的工程恶战。我们要把吞噬几千张显卡算力的AGI,“暴力瘦身”塞进一颗面积仅数平方毫米、功耗仅几瓦的端侧芯片中,同时还要保持它的“智商”不掉线。

今天,我们剥离具体的商业包装,从底层架构视角,来复盘这场发生在芯片与算法上的“脑科学”革命。

当140GB撞上几百兆的物理极限

在讨论怎么做之前,我们必须先理解端侧AI面临的物理极限,那简直是一种令人绝望的算力悖论。

目前的通用大模型LLM是一个十足的“富贵病”患者,它对资源的索取是贪得无厌的。让我们看一组数据:以一个70B即700亿参数的模型为例,如果我们想要运行它,仅加载模型权重Weights就需要占用约140GB的显存。这还只是“静态”的占用,模型在推理过程中产生的KV Cache更是内存吞噬兽,且随着对话长度的增加呈线性增长。

而在端侧,现实是残酷的。目前主流的车载芯片、智能家居SoC,甚至是你手中最新的旗舰手机,留给NPU的专用内存往往只有几GB,抠门一点的入门级芯片甚至只有几百MB。

要把140GB的庞然大物塞进几百MB的狭小空间里,这不仅是“把大象装进冰箱”,简直是“把整个国家图书馆的藏书强行塞进一个随身携带的公文包里”。而且用户还提出了一个更变态的要求:你必须在0.1秒内从这个公文包里精准地翻出任意一本书的第32页。

端侧AI:从云端依赖到万物智能的进化 端侧AI 云端依赖 物理极限 垂直智能 第2张

这就是端侧AI面临的不可能三角:高智商、低延迟、低功耗,三者难以兼得。

为了打破这个悖论,行业目前普遍达成了一个共识:未来的AI架构必须是“人格分裂”的——也就是“云-边-端”三级分层架构。

单一的云端不够快,单一的端侧不够强。未来的智能系统会像人类的神经系统一样分工:云端是“大脑皮层”,部署千亿级参数的Teacher Model,负责处理极其复杂的、不着急的长尾问题;端侧是“脊髓”和“小脑”,直接运行在传感器旁边的芯片上,负责高频、实时、隐私敏感的任务。

三把手术刀下的暴力美学

要在端侧跑通大模型,算法工程师们不得不干起外科医生的活,对模型进行一场精密的手术。这其实是一门关于“妥协”的艺术,在精度和速度之间寻找微妙的平衡点。目前的行业主流路径主要包含三把手术刀。

第一把刀是知识蒸馏。这是端侧模型保持高智商的关键。我们不需要端侧模型去阅读所有的原始互联网数据,那需要海量算力。我们只需要它学会“怎么思考”。所以工程师让云端的超大模型Teacher先学一遍提炼出核心逻辑、特征分布和推理路径再传授给端侧的小模型Student。

端侧AI:从云端依赖到万物智能的进化 端侧AI 云端依赖 物理极限 垂直智能 第3张

第二把刀是极致量化。这可以说是工程界最“暴力”的美学。大模型通常使用FP16甚至FP32进行运算但在端侧每一比特的存储和传输都消耗电量。于是工程师们将模型权重从FP16直接压缩到INT8甚至INT4。

第三把刀是结构剪枝。通过结构化剪枝直接剔除对输出结果影响微乎其微的参数从而在物理层面减少计算量。

推倒那堵阻挡数据的内存墙

软件层面的“瘦身”只是第一步真正的硬仗在于硬件也就是芯片架构。

如果你去问芯片设计师大模型最让他们头疼的是什么?他们大概率会说是“访存”。数据在内存DRAM和计算单元之间疯狂往返。这就是著名的“内存墙”危机。在端侧大模型推理中甚至有超过80%的功耗不是花在计算上而是花在搬运数据的路上。

端侧AI:从云端依赖到万物智能的进化 端侧AI 云端依赖 物理极限 垂直智能 第4张

这种尴尬逼出了全新的架构思路:DSA领域专用架构。

从全知上帝到熟练工匠

除了在硬件上死磕另一个更务实的路径是承认AI的局限性从“通用”走向“专用”。

最后

在媒体的聚光灯下大家热衷于讨论OpenAI的Sora如何震惊世界或者为GPT-5何时通过图灵测试而争论不休并总将AGI与‘毁灭人类’的宏大叙事绑定。

但在聚光灯照不到的角落成千上万的工程师正在做着更枯燥但或许更具颠覆性的工作:将AI的价格打下来将AI的体积缩下去。

从云端到端侧从通用到垂直这不仅是技术架构的演进更是AI价值观的回归。