当前位置：首页 > 科技资讯 > 正文

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命

主机测评网
科技资讯
2026-01-13
996

2024年10月，以色列芯片初创企业NextSilicon正式结束隐身模式，宣布其即将推出的Maverick-2成为全球首款智能计算加速器（ICA），专为满足高性能计算与人工智能融合应用的需求而设计。该公司称这是一种“新颖且原创的计算架构”，能够在提升性能的同时显著降低功耗与成本。

历经八年研发、获得3.03亿美元种子资金并完成三轮风险投资后，NextSilicon终于推出了多个版本的64位数据流引擎。同时，公司还发布了一款自主研发的RISC-V处理器Arbel，该芯片有望与Maverick-2协同工作，打造类似英伟达“Superchip”的集成产品。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第1张

从左至右依次为：NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP以及适用于OAM插座的双芯片Maverick-2。

NextSilicon成立于2017年，远早于生成式AI热潮兴起之时，但当时业界已意识到高性能计算与AI计算架构即将分化——这对专注于64位和32位浮点运算的HPC仿真与建模领域并不利。尽管没有像Cerebras Systems、Graphcore等公司那样直接进军AI市场，NextSilicon仍在三轮融资中筹集了2.026亿美元，其中C轮融资于2021年6月完成，金额达1.2亿美元。

当时，NextSilicon估值约为15亿美元，资金与原型设计的完成为美国能源部提供了合作契机。桑迪亚国家实验室已与NextSilicon合作设计并测试了Maverick-1数据流引擎，目前正基于其Vanguard-II计划构建名为“Spectra”的新型架构超级计算机。据推测，该超级计算机将采用今日发布的Maverick-2数据流引擎。

一条全新的道路

在英伟达主导市场的背景下，为何需要打造新芯片？NextSilicon创始人兼首席执行官Elad Raz此前接受采访时指出：“主因在于市场上缺乏专为高性能计算设计的加速器。”他表示，众多公司专注于AI与机器学习加速，大型供应商纷纷转向AI领域，但高性能计算领域却面临成本与功耗翻倍而FP64浮点性能停滞的困境。NextSilicon则是一家“以高性能计算为先”的企业。

他们选择了一条创新之路。

尽管GPU与CPU推动了高性能计算与AI领域的重大突破，但它们正面临收益递减的未来。NextSilicon的创始人并未沿袭旧路，投入巨资构建规模更大、GPU更强（并配备更先进电源与冷却系统）的AI工厂，而是决定探索全新路径。

Elad Raz指出，拥有80年历史的冯·诺依曼架构虽奠定了通用可编程计算的基础，但也带来了巨大开销。他表示，芯片中98%的资源用于控制开销任务（如分支预测、乱序逻辑和指令处理），仅2%用于执行应用程序核心的实际计算。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第2张

为此，Raz及其团队构想了一种名为“智能计算架构”（ICA）的新架构，使芯片能根据工作负载动态重构，最小化开销并最大化计算能力，以处理 demanding AI与HPC应用背后的数学运算。这便是NextSilicon专利技术“可重构硬件的运行时优化”的基础，也是其Maverick-2处理器中非冯·诺依曼数据流架构的指导原则。

“NextSilicon的宗旨是通过软件加速应用程序，”Raz解释道，“其核心是一种复杂软件算法，能理解代码关键部分并进行加速。相比之下，大多数CPU与GPU都是处理器核心的组合，它们接收指令，试图构建复杂流水线与矢量指令集，并采用乱序执行来减少延迟。我们认为这是错误的方法。更好的方式是应用帕累托原则，找出占用80%运行时间的20%代码。为何不对计算与内存应用80/20规则？为何不能自动识别关键计算内核并专注优化它们？”

Raz进一步揭示了其技术秘诀：“应用程序在主机上启动后，我们会自动识别代码中计算密集的部分。我们保留计算图的中间表示，而非将其转换为指令。这可以视为硬件的即时编译器。我们将计算图保留并放置到数据流硬件上，从硬件获取遥测数据，并以递归方式在程序运行时持续优化计算与内存。”

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第3张

“先进的软件分析器像精准定位系统，持续监控应用程序。它能精确定位影响性能的关键代码片段，然后以纳秒级粒度重构硬件本身，构建针对该代码优化的自定义数据流水线。这种非对称执行模型将卓越效率精准导向效能最大之处，同时让大部分代码正常运行。”Raz总结道。

Raz同时指出，英伟达的CUDA生态将用户锁定在其GPU上，削弱了主动性与议价权。为此，NextSilicon制定了革命性愿景：构建全新游戏规则，使计算基础设施能够：

1、无缝运行一切：现有CPU代码、复杂GPU内核、 demanding HPC任务及尖端AI/ML模型——均无需代码修改。

2、提供极致速度：实现高达10倍的加速，功耗仅需四分之一。通过实时动态优化芯片，针对应用程序最热门的资源密集型代码路径进行优化。

3、消除供应商锁定：告别专有领域特定语言（DSL）、繁琐移植流程与框架维护难题。用户可用原有代码与语言加速开发。

4、确保创新永不过时：ICA能随工作负载演变而调整，避免“重写瓶颈”。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第4张

总之，NextSilicon的数据流架构基于图结构构建。数据流处理器不像冯·诺依曼架构那样逐条处理指令，而是由一系列以图结构互联的计算单元（称为ALU）组成。每个ALU处理特定类型函数（如乘法或逻辑运算）。当输入数据到达时，计算自动触发，结果流向图中下一单元。与串行数据处理相比，这种方法优势显著，因为芯片无需处理数据提取、解码或调度等消耗周期的开销任务。

在预告Maverick-2一年后，NextSilicon终于披露了这颗革命性芯片的详细信息。

一颗与众不同的芯片

如图所示，Maverick-2芯片包含四个计算区域，32个RISC-V E核位于芯片左右边缘。计算块网格由七列组成，每列八个计算块，芯片上总计224个计算块。每个计算块包含数百个ALU，因此ALU总数可达数万至近十万。这颗采用台积电5纳米工艺制造、集成540亿晶体管的芯片，其设计显得格外独特。

若按NextSilicon图表所示的14x14网格计算，每个计算块可能有196个ALU；但每个计算块中浮点单元数量未知。每个ALU配备一个FPU是合理的。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第5张

对比来看，英伟达“Ampere” A100 GPU采用台积电7纳米工艺，拥有542亿晶体管和6912个FP32 CUDA核心；而“Hopper” H100和H200 GPU采用4纳米工艺，拥有800亿晶体管和18432个FP32核心。Blackwell B200插槽包含两个芯片组，每个芯片组集成1040亿晶体管，但仅含16896个CUDA核心，采用4纳米工艺。推测ALU比CUDA核心更小，且Maverick-2芯片上的ALU数量可能超过英伟达GPU的CUDA核心数。

归根结底，ALU数量不如每组mill核心支持的线程数重要。NextSilicon联合创始人兼架构副总裁Ilan Tayari（前Mellanox软件总监）表示，典型CPU支持两个线程，GPU支持32到64个线程，而一个mill核心可同时支持数百个线程。mill核心的规模与形态各异，但每个计算块可能有数十个mill核心，每个Maverick-2拥有224个计算块，因此可轻松支持数千个线程，所有线程以1.5 GHz频率运行——相当于慢速CPU或普通GPU速度——并通过HBM3E内存实现高速带宽连接。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第6张

如图右侧所示，主逻辑单元连接至内存总线，其上设有保留站，用于在ALU调用数据前临时存储数据。（NextSilicon已获得这种保留站、调度器与数据流计算块组合的专利。）与常规CPU类似，Maverick ICA也使用内存管理单元和表后备缓冲区，但这些单元使用频率低，仅在ALU调用特定数据时激活。它不进行推测或预测，仅执行数据提取。

Tayari自豪地表示：“NextSilicon的数据流架构使我们能显著降低与传统CPU和GPU相比的开销。我们重新分配了硅资源，将大部分资源用于实际计算而非控制开销。独特的方法消除了指令处理开销，最小化了不必要的数据移动，确保计算单元高效利用。我们并非试图隐藏延迟，而是通过设计容忍并最小化延迟。”

当应用程序为数据流引擎编译时，它实际上被映射到数据流引擎上，形成称为mill core的图结构。该图类似于编译前程序的中间表示图，被放置于ALU上。NextSilicon联合创始人兼首席执行官Elad Raz表示，多个mill core可像俄罗斯方块一样在同一计算块上放置，并可根据工作负载需求在纳秒级时间内加载或删除。

据介绍，Maverick-2提供单芯片和双芯片两种配置。单芯片Maverick-2集成32个RISC-V核心，采用台积电5纳米工艺，主频1.5GHz。该卡支持PCIe Gen5x16，配备96GB HBM3E内存，带宽高达每秒3.2TB。它拥有128MB一级缓存、100GbE网卡，热设计功耗为400W，采用风冷散热。双芯片Maverick-2则将所有功能翻倍，需接入OAM总线，配备双100GbE网卡，支持风冷或液冷散热，热设计功耗750W。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第7张

NextSilicon还分享了Maverick-2的内部基准测试数据。在每秒千兆次更新（GUPS）方面，Maverick-2以460瓦功耗提供32.6 GUPS，据称比CPU快22倍，比GPU快近6倍。在HPCG（高性能共轭梯度）测试中，Maverick-2以750瓦功耗实现600 GFLOPS性能，据称与领先GPU相当，但功耗仅为其一半。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第8张

NextSilicon研发副总裁Eyal Nagar表示：“我们今天详细探讨的不仅是芯片，更是一种基础、一种计算思维的新方式。它为工程师和科学家开启了一个充满可能性与优化的全新世界。”

一颗意外的RISC-V芯片

NextSilicon在发布会上还意外披露了名为Arbel的RISC-V CPU。该公司对RISC-V CPU设计并不陌生，如上文所述，Maverick-2已使用定制RISC-V内核处理难以并行化的串行代码。该内核表现出色，促使公司开发独立芯片。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第9张

NextSilicon表示，该核心已在台积电5纳米工艺中实现，支持高达2.5 GHz时钟频率，具备10宽发射流水线、480条目重排序缓冲区，支持16条标量指令，并集成四个128位矢量单元用于单指令多数据工作负载。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第10张

具体而言，Arbel核心在整数端配备10位宽发射解码器和6个ALU，在矢量端配备4个128位FPU。该核心可并行支持16条标量指令，拥有靠近ALU的64 KB L1指令缓存和64 KB L1数据缓存，以及靠近FPU的1 MB L2缓存（这些缓存均与所有计算单元交叉链接）。每个核心配备2 MB缓存，但Arbel芯片的核心数量未披露。

NextSilicon称Arbel核心可与英特尔的“LionCove”Xeon核心及AMD的“Zen5”Epyc核心“相媲美”。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命智能计算加速器高性能计算数据流架构 RISC-V 第11张