近日,英伟达发布的一项突破性研究结论在行业内引发广泛共鸣——小型语言模型(SLM)正成为智能体发展的关键方向。紧随其后,英伟达推出了其全新研发的小型语言模型:Nemotron-Nano-9B-V2,该模型在多项基准测试中表现卓越,刷新了同类产品的性能记录。
事实上,小型语言模型(SLM)的应用浪潮已迅速蔓延至微控制器(MCU)和微处理器(MPU)领域,为边缘计算带来新的智能可能。
小型语言模型(SLM)或许早已进入我们的视野。SLM的参数规模通常在几百万到几十亿之间,而大型语言模型(LLM)则拥有千亿乃至万亿级的参数量。
SLM通常通过对LLM进行压缩而获得,这一过程需要在缩减模型体量的同时,最大程度保持其准确性和性能。常用的压缩技术包括:
知识蒸馏:借助大型“教师”模型所蕴含的知识,来训练一个轻量化的“学生”模型;
剪枝:剔除神经网络架构中冗余或贡献度较低的参数;
量化:降低计算时使用的数值精度(例如,从浮点数转换为整数),以提升效率。
相比大型模型,小型语言模型更为紧凑和高效。因此,SLM对内存和计算资源的需求更低,特别适合部署在资源受限的边缘设备或嵌入式系统中。
目前,众多高效能的小型语言模型已经涌现,证明了模型性能并非完全取决于规模。常见的参数规模在10亿至40亿之间的SLM包括:Llama3.2-1B(Meta推出的10亿参数版本)、Qwen2.5-1.5B(阿里巴巴的15亿参数模型)、DeepSeek-R1-1.5B(深度求索的15亿参数模型)、SmolLM2-1.7B(HuggingFaceTB的17亿参数模型)、Phi-3.5-Mini-3.8B(微软的38亿参数模型)以及Gemma3-4B(Google DeepMind的40亿参数模型)。
对于MPU而言,运行SLM似乎并非难事。但对于开发人员来说,如何判断一款MCU是否支持生成式AI应用呢?
这个问题并没有单一而直接的答案,但有一个核心硬性条件:MCU的神经处理单元(NPU)必须能够高效加速Transformer架构的运行。
此外,成功运行生成式AI模型还对MCU的系统总线带宽、以及大容量、高速、紧密耦合的内存配置提出了更高要求。
当前,许多开发者习惯使用GOPS(十亿次运算每秒)或TOPS(万亿次运算每秒)来单纯比较微控制器的原始计算吞吐量。目前顶尖的MCU能提供高达250 GOPS的算力,而面向生成式AI的MCU预计将至少提供双倍于此的性能。然而,原始吞吐量并非衡量实际系统效能的最佳指标。
因为一个成功的生成式AI应用需要支撑Transformer运算,这会在系统内部——包括内存、神经处理单元、中央处理器以及图像信号处理器等外围组件——之间触发大规模的数据传输。因此,一个仅具备高原始吞吐量的系统,理论上或许能快速处理数据,但如果其架构无法将数据迅速馈送至神经处理单元,那么实际表现将远低于预期,变得迟缓而低效。
当然,对于MPU来说,高带宽、高效内存管理以及各总线间的紧密协作同样至关重要。
早在去年八月,Aizip便与瑞萨电子展开合作,在MPU平台上展示了专为边缘系统设计的超高效小型语言模型(SLM)和紧凑型AI智能体。这些小巧而强大的模型已成功集成到基于Arm Cortex-A55内核的瑞萨RZ/G2L和RZ/G3S开发板中。
Aizip开发了一系列名为Gizmo的超高效小型语言模型和AI智能体,参数规模覆盖3亿到20亿。这些模型支持多种平台,包括适用于广泛场景的MPU和应用处理器。
SLM使得部署在设备边缘的AI智能体能够提供与大型语言模型(LLM)相似的功能,但所需资源显著减少。本地化模型在隐私保护、运行可靠性以及成本控制方面具备显著优势。尽管已有公司成功压缩了手机端的语言模型,但确保这些SLM在低成本边缘设备上为自动化应用提供精确的工具调用能力,仍然是一个重大挑战。
据介绍,在运行频率为1.2 GHz的单核A55架构的RZ/G2L上,这些SLM能够实现低于3秒的响应时间。
Alif Semiconductor近期发布了其最新的MCU及融合处理器系列——Ensemble E4、E6和E8,这些产品主要针对运行包括SLM在内的生成式AI模型而优化。同时,Alif成为首家采用Arm Ethos-U85 NPU(神经处理单元)的芯片供应商,该NPU专为支持基于Transformer的机器学习网络而设计。
基准测试结果显示,该系列产品能效卓越:高精度物体检测耗时不足2毫秒,图像分类时间低于8毫秒。特别值得一提的是,在E4设备上运行的SLM,根据用户提示生成故事文本时,功耗仅36mW。
Ensemble E4(MCU)采用双Arm Cortex-M55内核,而Ensemble E6和E8融合处理器则分别基于Arm Cortex-A32内核和双Cortex-M55内核。值得注意的是,E4/E6/E8均配备了双Ethos-U55与Ethos-U85的组合,提供了异常强大的计算能力。
Alif认为,相较于其他厂商,其布局更为超前。因为第一代Ensemble MCU系列早在2021年就已发布,并从那时起开始批量出货E1、E3、E5和E7设备。当其他MCU厂商仍停留在第一代AI MCU阶段时,Alif已推出了第二代产品,并且是业界首款支持基于Transformer网络的MCU,这恰恰是LLM及其他生成式AI模型的基石。
SLM在显著压缩模型体积的同时,竭力保持了模型的准确性。这种高效、紧凑的特性,使其完美契合资源受限的边缘和嵌入式设备,为这些设备注入了前所未有的智能处理能力。
事实上,边缘AI的宏伟蓝图正在逐步展开,SLM无疑将成为MCU和MPU厂商竞相布局的核心领域之一。
例如,意法半导体的STM32N6、英飞凌的PSoC Edge新一代MCU、德州仪器的AM62A和TMS320F28P55x、恩智浦的i.MX RT700和i.MX 95、以及亚德诺半导体的MAX7800X等产品,都已开始强化其NPU的配置与性能。
嵌入式AI最初主要是在运行Linux系统的、相对高成本的微处理器产品上实现的功能。但市场很快意识到,AI在边缘和终端设备中同样拥有广阔天地——这其中许多设备都基于MCU。因此,预计到2025年下半年,主流的MCU厂商都将把具备AI功能的产品纳入其产品线。这些厂商的NPU方案主要分为两大阵营:采用Arm Ethos IP和坚持自研路径。目前来看,最新的Ethos-U85已开始支持Transformer架构,并在半年前展示了运行SLM的成效,其他厂商也正在快速跟进。展望未来,SLM必将深刻改变MCU和MPU的市场格局与技术生态。
参考文献
[1]IBM:https://www.ibm.com/cn-zh/think/topics/small-language-models
[2]Hugging-Face:https://hugging-face.cn/blog/jjokah/small-language-model
[3]Alif:https://alifsemi.com/comparing-mcus-for-generative-ai-its-not-just-about-the-gops/
[4]Alif:https://alifsemi.com/who-wins-in-the-race-to-make-ai-mcus/
[5]Arm:https://newsroom.arm.com/blog/small-language-model-generative-ai-edge
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212406.html