当前位置：首页 > 科技资讯 > 正文

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来

主机测评网
科技资讯
2026-01-10
924

近日，谷歌公司异常忙碌，一系列人工智能创新成果接连亮相，引发全球科技界广泛关注。

一方面，谷歌与耶鲁大学合作，基于Gemma模型研发的Cell2Sentence-Scale 27B (C2S-Scale)首次预测出一种新型潜在癌症疗法，为医疗领域带来突破。另一方面，谷歌更新上线了Veo 3.1，大幅提升视频生成能力，直接对标Sora 2，相关报道《刚刚，谷歌 Veo 3.1 迎来重大更新，硬刚 Sora 2》已引发热议。

此外，谷歌还正式推出了 Coral NPU，这是一个专为低功耗设备设计的AI平台，旨在构建可持续运行的边缘智能系统。具体而言，该平台能在可穿戴设备上本地运行小型Transformer模型和大型语言模型（LLM），并通过IREE和TFLM编译器支持TensorFlow、JAX和PyTorch等主流框架。

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第1张

与前两项新闻类似，Coral NPU的发布迅速在开发者社区中激起热烈讨论。

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第2张

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第3张

Coral NPU：一个为边缘设备打造的全栈开源 AI 平台

谷歌将Coral NPU定位为“一个全栈、开源的平台，致力于解决性能、碎片化和隐私三大核心挑战，这些挑战此前限制了强大且始终在线的AI技术在低功耗边缘设备和可穿戴设备上的广泛应用。”

这意味着，借助Coral NPU，未来有望在智能手表等设备上实现本地持续运行的高效AI，将智能能力无缝嵌入用户的个人环境中。

然而，实现这一目标面临显著挑战。谷歌总结了三大难题：

性能差距：先进复杂的机器学习模型需要大量计算资源，远超边缘设备有限的功率、散热和内存预算。

碎片化成本：为多样化专有处理器编译和优化机器学习模型既困难又昂贵，阻碍了跨设备性能的一致性。

用户信任缺失：个人AI要真正发挥作用，必须优先保障个人数据与情境的隐私安全。

今天发布的Coral NPU基于谷歌早期Coral项目演进而来，“为硬件设计者和机器学习开发者提供了构建下一代私密、高效边缘AI设备所需的完整工具链。”

具体来说，Coral NPU是与Google Research和Google DeepMind合作设计的AI优先硬件架构，支持下一代超低功耗、始终在线的边缘AI应用。

它提供统一的开发者体验，简化环境感知等应用的部署过程。该架构专为可穿戴设备全天候AI运行而优化，最大限度减少电池消耗，并可通过配置适配更高性能场景。

谷歌已发布相关文档和工具，方便开发者和设计者立即开始构建项目。

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第4张

项目主页：https://developers.google.com/coral

代码库：https://github.com/google-coral/coralnpu

技术细节

顾名思义，Coral NPU采用NPU（神经处理单元）架构，为下一代高能效、机器学习优化的片上系统（SoC）提供核心构建模块。

该架构基于一套符合RISC-V指令集架构（RISC-V ISA）的IP模块，专为最低功耗设计，是始终在线环境感知应用的理想选择。

其基础设计在仅消耗几毫瓦功率的情况下，可提供512 GOPS（每秒十亿次操作）级别的性能，从而为边缘设备、耳戴式设备、AR眼镜和智能手表带来强大的端侧AI能力。

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第5张

Coral NPU生态系统统一视图，展示了为SoC设计者和机器学习开发者提供的端到端技术栈。

这种基于RISC-V的开放可扩展架构为SoC设计者提供了灵活性，允许他们修改基础设计或直接将其作为预配置NPU使用。

Coral NPU架构包含以下组件：

一个标量核心（scalar core）：一个轻量级、可C语言编程的RISC-V前端，负责管理向后端核心的数据流。它采用简单的“运行到完成”模型，以实现超低功耗和传统CPU功能。

一个向量执行单元（vector execution unit）：一个强大的单指令多数据（SIMD）协处理器，符合RISC-V向量指令集（RVV）v1.0规范，能够对大型数据集进行同步操作。

一个矩阵执行单元（matrix execution unit）：一个高效的量化外积乘积累加（MAC）引擎，专为加速神经网络基本运算而构建。请注意，该矩阵执行单元仍在开发中，计划于今年晚些时候在GitHub上发布。

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第6张

从传统设计到Coral NPU的架构转变示意图。

统一的开发者体验

Coral NPU架构是一个简单、可C语言编程的目标平台，可与IREE和TFLM等现代编译器无缝集成，从而轻松支持TensorFlow、JAX和PyTorch等机器学习框架。

Coral NPU包含全面的软件工具链，涵盖针对TensorFlow的TFLM编译器、通用MLIR编译器、C编译器、自定义内核和模拟器，为开发者提供灵活路径。

例如，来自JAX等框架的模型首先使用StableHLO方言导入为MLIR格式。随后，该中间文件被送入IREE编译器，编译器通过硬件特定插件识别Coral NPU架构。接着，编译器执行渐进式降低——这是一个关键优化步骤，代码通过一系列方言被系统翻译，逐步接近机器本地语言。优化后，工具链生成最终紧凑的二进制文件，以便在边缘设备上高效执行。

下表展示了Coral NPU的软件开发优势：

谷歌发布Coral NPU：全栈开源平台重塑边缘AI未来 Coral NPU 边缘计算 RISC-V架构低功耗AI 第7张