当前位置：首页 > 科技资讯 > 正文

小型语言模型（SLM）引领嵌入式智能革命：MCU与MPU的新前沿

主机测评网
科技资讯
2025-12-25
588

近日，英伟达发布的一项突破性研究结论在行业内引发广泛共鸣——小型语言模型（SLM）正成为智能体发展的关键方向。紧随其后，英伟达推出了其全新研发的小型语言模型：Nemotron-Nano-9B-V2，该模型在多项基准测试中表现卓越，刷新了同类产品的性能记录。

事实上，小型语言模型（SLM）的应用浪潮已迅速蔓延至微控制器（MCU）和微处理器（MPU）领域，为边缘计算带来新的智能可能。

小型模型：大型模型的精炼与压缩

小型语言模型（SLM）或许早已进入我们的视野。SLM的参数规模通常在几百万到几十亿之间，而大型语言模型（LLM）则拥有千亿乃至万亿级的参数量。

SLM通常通过对LLM进行压缩而获得，这一过程需要在缩减模型体量的同时，最大程度保持其准确性和性能。常用的压缩技术包括：

知识蒸馏：借助大型“教师”模型所蕴含的知识，来训练一个轻量化的“学生”模型；

剪枝：剔除神经网络架构中冗余或贡献度较低的参数；

量化：降低计算时使用的数值精度（例如，从浮点数转换为整数），以提升效率。

相比大型模型，小型语言模型更为紧凑和高效。因此，SLM对内存和计算资源的需求更低，特别适合部署在资源受限的边缘设备或嵌入式系统中。

目前，众多高效能的小型语言模型已经涌现，证明了模型性能并非完全取决于规模。常见的参数规模在10亿至40亿之间的SLM包括：Llama3.2-1B（Meta推出的10亿参数版本）、Qwen2.5-1.5B（阿里巴巴的15亿参数模型）、DeepSeek-R1-1.5B（深度求索的15亿参数模型）、SmolLM2-1.7B（HuggingFaceTB的17亿参数模型）、Phi-3.5-Mini-3.8B（微软的38亿参数模型）以及Gemma3-4B（Google DeepMind的40亿参数模型）。

运行SLM：超越单纯算力的系统需求

对于MPU而言，运行SLM似乎并非难事。但对于开发人员来说，如何判断一款MCU是否支持生成式AI应用呢？

这个问题并没有单一而直接的答案，但有一个核心硬性条件：MCU的神经处理单元（NPU）必须能够高效加速Transformer架构的运行。

此外，成功运行生成式AI模型还对MCU的系统总线带宽、以及大容量、高速、紧密耦合的内存配置提出了更高要求。

当前，许多开发者习惯使用GOPS（十亿次运算每秒）或TOPS（万亿次运算每秒）来单纯比较微控制器的原始计算吞吐量。目前顶尖的MCU能提供高达250 GOPS的算力，而面向生成式AI的MCU预计将至少提供双倍于此的性能。然而，原始吞吐量并非衡量实际系统效能的最佳指标。

因为一个成功的生成式AI应用需要支撑Transformer运算，这会在系统内部——包括内存、神经处理单元、中央处理器以及图像信号处理器等外围组件——之间触发大规模的数据传输。因此，一个仅具备高原始吞吐量的系统，理论上或许能快速处理数据，但如果其架构无法将数据迅速馈送至神经处理单元，那么实际表现将远低于预期，变得迟缓而低效。

当然，对于MPU来说，高带宽、高效内存管理以及各总线间的紧密协作同样至关重要。

Aizip与瑞萨电子携手推进SLM边缘应用

早在去年八月，Aizip便与瑞萨电子展开合作，在MPU平台上展示了专为边缘系统设计的超高效小型语言模型（SLM）和紧凑型AI智能体。这些小巧而强大的模型已成功集成到基于Arm Cortex-A55内核的瑞萨RZ/G2L和RZ/G3S开发板中。

Aizip开发了一系列名为Gizmo的超高效小型语言模型和AI智能体，参数规模覆盖3亿到20亿。这些模型支持多种平台，包括适用于广泛场景的MPU和应用处理器。

SLM使得部署在设备边缘的AI智能体能够提供与大型语言模型（LLM）相似的功能，但所需资源显著减少。本地化模型在隐私保护、运行可靠性以及成本控制方面具备显著优势。尽管已有公司成功压缩了手机端的语言模型，但确保这些SLM在低成本边缘设备上为自动化应用提供精确的工具调用能力，仍然是一个重大挑战。

据介绍，在运行频率为1.2 GHz的单核A55架构的RZ/G2L上，这些SLM能够实现低于3秒的响应时间。

MCU厂商加速布局SLM生态

Alif Semiconductor近期发布了其最新的MCU及融合处理器系列——Ensemble E4、E6和E8，这些产品主要针对运行包括SLM在内的生成式AI模型而优化。同时，Alif成为首家采用Arm Ethos-U85 NPU（神经处理单元）的芯片供应商，该NPU专为支持基于Transformer的机器学习网络而设计。

基准测试结果显示，该系列产品能效卓越：高精度物体检测耗时不足2毫秒，图像分类时间低于8毫秒。特别值得一提的是，在E4设备上运行的SLM，根据用户提示生成故事文本时，功耗仅36mW。

Ensemble E4（MCU）采用双Arm Cortex-M55内核，而Ensemble E6和E8融合处理器则分别基于Arm Cortex-A32内核和双Cortex-M55内核。值得注意的是，E4/E6/E8均配备了双Ethos-U55与Ethos-U85的组合，提供了异常强大的计算能力。

小型语言模型（SLM）引领嵌入式智能革命：MCU与MPU的新前沿小型语言模型 MCU MPU 嵌入式AI 第1张

Alif认为，相较于其他厂商，其布局更为超前。因为第一代Ensemble MCU系列早在2021年就已发布，并从那时起开始批量出货E1、E3、E5和E7设备。当其他MCU厂商仍停留在第一代AI MCU阶段时，Alif已推出了第二代产品，并且是业界首款支持基于Transformer网络的MCU，这恰恰是LLM及其他生成式AI模型的基石。

SLM：塑造嵌入式智能的未来

SLM在显著压缩模型体积的同时，竭力保持了模型的准确性。这种高效、紧凑的特性，使其完美契合资源受限的边缘和嵌入式设备，为这些设备注入了前所未有的智能处理能力。

事实上，边缘AI的宏伟蓝图正在逐步展开，SLM无疑将成为MCU和MPU厂商竞相布局的核心领域之一。

例如，意法半导体的STM32N6、英飞凌的PSoC Edge新一代MCU、德州仪器的AM62A和TMS320F28P55x、恩智浦的i.MX RT700和i.MX 95、以及亚德诺半导体的MAX7800X等产品，都已开始强化其NPU的配置与性能。

嵌入式AI最初主要是在运行Linux系统的、相对高成本的微处理器产品上实现的功能。但市场很快意识到，AI在边缘和终端设备中同样拥有广阔天地——这其中许多设备都基于MCU。因此，预计到2025年下半年，主流的MCU厂商都将把具备AI功能的产品纳入其产品线。这些厂商的NPU方案主要分为两大阵营：采用Arm Ethos IP和坚持自研路径。目前来看，最新的Ethos-U85已开始支持Transformer架构，并在半年前展示了运行SLM的成效，其他厂商也正在快速跟进。展望未来，SLM必将深刻改变MCU和MPU的市场格局与技术生态。

参考文献

[1]IBM：https://www.ibm.com/cn-zh/think/topics/small-language-models

[2]Hugging-Face：https://hugging-face.cn/blog/jjokah/small-language-model

[3]Alif：https://alifsemi.com/comparing-mcus-for-generative-ai-its-not-just-about-the-gops/

[4]Alif：https://alifsemi.com/who-wins-in-the-race-to-make-ai-mcus/

[5]Arm：https://newsroom.arm.com/blog/small-language-model-generative-ai-edge