近日,谷歌公司异常忙碌,一系列人工智能创新成果接连亮相,引发全球科技界广泛关注。
一方面,谷歌与耶鲁大学合作,基于Gemma模型研发的Cell2Sentence-Scale 27B (C2S-Scale)首次预测出一种新型潜在癌症疗法,为医疗领域带来突破。另一方面,谷歌更新上线了Veo 3.1,大幅提升视频生成能力,直接对标Sora 2,相关报道《刚刚,谷歌 Veo 3.1 迎来重大更新,硬刚 Sora 2》已引发热议。
此外,谷歌还正式推出了 Coral NPU,这是一个专为低功耗设备设计的AI平台,旨在构建可持续运行的边缘智能系统。具体而言,该平台能在可穿戴设备上本地运行小型Transformer模型和大型语言模型(LLM),并通过IREE和TFLM编译器支持TensorFlow、JAX和PyTorch等主流框架。
与前两项新闻类似,Coral NPU的发布迅速在开发者社区中激起热烈讨论。
谷歌将Coral NPU定位为“一个全栈、开源的平台,致力于解决性能、碎片化和隐私三大核心挑战,这些挑战此前限制了强大且始终在线的AI技术在低功耗边缘设备和可穿戴设备上的广泛应用。”
这意味着,借助Coral NPU,未来有望在智能手表等设备上实现本地持续运行的高效AI,将智能能力无缝嵌入用户的个人环境中。
然而,实现这一目标面临显著挑战。谷歌总结了三大难题:
性能差距:先进复杂的机器学习模型需要大量计算资源,远超边缘设备有限的功率、散热和内存预算。
碎片化成本:为多样化专有处理器编译和优化机器学习模型既困难又昂贵,阻碍了跨设备性能的一致性。
用户信任缺失:个人AI要真正发挥作用,必须优先保障个人数据与情境的隐私安全。
今天发布的Coral NPU基于谷歌早期Coral项目演进而来,“为硬件设计者和机器学习开发者提供了构建下一代私密、高效边缘AI设备所需的完整工具链。”
具体来说,Coral NPU是与Google Research和Google DeepMind合作设计的AI优先硬件架构,支持下一代超低功耗、始终在线的边缘AI应用。
它提供统一的开发者体验,简化环境感知等应用的部署过程。该架构专为可穿戴设备全天候AI运行而优化,最大限度减少电池消耗,并可通过配置适配更高性能场景。
谷歌已发布相关文档和工具,方便开发者和设计者立即开始构建项目。
项目主页:https://developers.google.com/coral
代码库:https://github.com/google-coral/coralnpu
顾名思义,Coral NPU采用NPU(神经处理单元)架构,为下一代高能效、机器学习优化的片上系统(SoC)提供核心构建模块。
该架构基于一套符合RISC-V指令集架构(RISC-V ISA)的IP模块,专为最低功耗设计,是始终在线环境感知应用的理想选择。
其基础设计在仅消耗几毫瓦功率的情况下,可提供512 GOPS(每秒十亿次操作)级别的性能,从而为边缘设备、耳戴式设备、AR眼镜和智能手表带来强大的端侧AI能力。
Coral NPU生态系统统一视图,展示了为SoC设计者和机器学习开发者提供的端到端技术栈。
这种基于RISC-V的开放可扩展架构为SoC设计者提供了灵活性,允许他们修改基础设计或直接将其作为预配置NPU使用。
Coral NPU架构包含以下组件:
一个标量核心(scalar core): 一个轻量级、可C语言编程的RISC-V前端,负责管理向后端核心的数据流。它采用简单的“运行到完成”模型,以实现超低功耗和传统CPU功能。
一个向量执行单元(vector execution unit): 一个强大的单指令多数据(SIMD)协处理器,符合RISC-V向量指令集(RVV)v1.0规范,能够对大型数据集进行同步操作。
一个矩阵执行单元(matrix execution unit): 一个高效的量化外积乘积累加(MAC)引擎,专为加速神经网络基本运算而构建。请注意,该矩阵执行单元仍在开发中,计划于今年晚些时候在GitHub上发布。
从传统设计到Coral NPU的架构转变示意图。
Coral NPU架构是一个简单、可C语言编程的目标平台,可与IREE和TFLM等现代编译器无缝集成,从而轻松支持TensorFlow、JAX和PyTorch等机器学习框架。
Coral NPU包含全面的软件工具链,涵盖针对TensorFlow的TFLM编译器、通用MLIR编译器、C编译器、自定义内核和模拟器,为开发者提供灵活路径。
例如,来自JAX等框架的模型首先使用StableHLO方言导入为MLIR格式。随后,该中间文件被送入IREE编译器,编译器通过硬件特定插件识别Coral NPU架构。接着,编译器执行渐进式降低——这是一个关键优化步骤,代码通过一系列方言被系统翻译,逐步接近机器本地语言。优化后,工具链生成最终紧凑的二进制文件,以便在边缘设备上高效执行。
下表展示了Coral NPU的软件开发优势:
这套行业标准开发者工具有助于简化机器学习模型的编程,并在各种硬件目标上提供一致体验。
Coral NPU编译器工具链,展示了从机器学习模型创建、优化、编译到设备端部署的完整流程。
Coral NPU的协同设计过程聚焦于两个关键领域。
这种双重关注意味着Coral NPU有望成为首个开放、基于标准、专为将大语言模型(LLM)引入可穿戴设备而设计的低功耗NPU。
对于开发者而言,这提供了一条单一且经过验证的路径,能以最低功耗和最高性能部署当前及未来模型。
Coral NPU旨在支持超低功耗、始终在线的边缘AI应用,尤其侧重于环境感知系统。其主要目标是在可穿戴设备、手机和物联网(IoT)设备上实现全天候AI体验,同时最小化电池消耗。
潜在用例包括:
Coral NPU的一个核心原则是通过硬件强制的安全性建立用户信任。
谷歌表示:“我们的架构正在被设计用来支持CHERI等新兴技术,该技术提供细粒度的内存级安全和可扩展的软件分区。我们希望通过这种方法,将敏感的AI模型和个人数据隔离在硬件强制的沙箱中,以抵御基于内存的攻击。”
开源硬件项目的成功依赖于强大的合作伙伴关系。
为此,谷歌宣布与Synaptics建立合作关系,这是其“第一个战略芯片合作伙伴”,也是物联网领域嵌入式计算、无线连接和多模态传感的领导者。
今天,Synaptics在其技术日活动上宣布了新的Astra SL2610系列AI原生物联网处理器。该产品线采用了其Torq NPU子系统,这是业界首个Coral NPU架构的量产实现。该NPU设计支持Transformer并支持动态算子,使开发者能够为消费和工业物联网构建面向未来的边缘AI系统。
Astra SL2610,来自X用户 @TekStrategist
谷歌表示Coral NPU有望“解决边缘计算的核心危机”:“借助Coral NPU,我们正在为个人AI的未来构建一个基础层。我们的目标是通过提供一个通用的、开源的、安全的平台供业界在此基础上发展,从而催生出一个充满活力的生态系统。”
对此,你怎么看?有兴趣尝试基于这个平台进行开发吗?
参考链接
https://x.com/GoogleResearch/status/1978449643437539378
https://research.google/blog/coral-npu-a-full-stack-platform-for-edge-ai
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116291.html