当前位置:首页 > 科技资讯 > 正文

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命

2024年10月,以色列芯片初创企业NextSilicon正式结束隐身模式,宣布其即将推出的Maverick-2成为全球首款智能计算加速器(ICA),专为满足高性能计算与人工智能融合应用的需求而设计。该公司称这是一种“新颖且原创的计算架构”,能够在提升性能的同时显著降低功耗与成本。

历经八年研发、获得3.03亿美元种子资金并完成三轮风险投资后,NextSilicon终于推出了多个版本的64位数据流引擎。同时,公司还发布了一款自主研发的RISC-V处理器Arbel,该芯片有望与Maverick-2协同工作,打造类似英伟达“Superchip”的集成产品。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第1张

从左至右依次为:NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP以及适用于OAM插座的双芯片Maverick-2。

NextSilicon成立于2017年,远早于生成式AI热潮兴起之时,但当时业界已意识到高性能计算与AI计算架构即将分化——这对专注于64位和32位浮点运算的HPC仿真与建模领域并不利。尽管没有像Cerebras Systems、Graphcore等公司那样直接进军AI市场,NextSilicon仍在三轮融资中筹集了2.026亿美元,其中C轮融资于2021年6月完成,金额达1.2亿美元。

当时,NextSilicon估值约为15亿美元,资金与原型设计的完成为美国能源部提供了合作契机。桑迪亚国家实验室已与NextSilicon合作设计并测试了Maverick-1数据流引擎,目前正基于其Vanguard-II计划构建名为“Spectra”的新型架构超级计算机。据推测,该超级计算机将采用今日发布的Maverick-2数据流引擎。

一条全新的道路

在英伟达主导市场的背景下,为何需要打造新芯片?NextSilicon创始人兼首席执行官Elad Raz此前接受采访时指出:“主因在于市场上缺乏专为高性能计算设计的加速器。”他表示,众多公司专注于AI与机器学习加速,大型供应商纷纷转向AI领域,但高性能计算领域却面临成本与功耗翻倍而FP64浮点性能停滞的困境。NextSilicon则是一家“以高性能计算为先”的企业。

他们选择了一条创新之路。

尽管GPU与CPU推动了高性能计算与AI领域的重大突破,但它们正面临收益递减的未来。NextSilicon的创始人并未沿袭旧路,投入巨资构建规模更大、GPU更强(并配备更先进电源与冷却系统)的AI工厂,而是决定探索全新路径。

Elad Raz指出,拥有80年历史的冯·诺依曼架构虽奠定了通用可编程计算的基础,但也带来了巨大开销。他表示,芯片中98%的资源用于控制开销任务(如分支预测、乱序逻辑和指令处理),仅2%用于执行应用程序核心的实际计算。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第2张

为此,Raz及其团队构想了一种名为“智能计算架构”(ICA)的新架构,使芯片能根据工作负载动态重构,最小化开销并最大化计算能力,以处理 demanding AI与HPC应用背后的数学运算。这便是NextSilicon专利技术“可重构硬件的运行时优化”的基础,也是其Maverick-2处理器中非冯·诺依曼数据流架构的指导原则。

“NextSilicon的宗旨是通过软件加速应用程序,”Raz解释道,“其核心是一种复杂软件算法,能理解代码关键部分并进行加速。相比之下,大多数CPU与GPU都是处理器核心的组合,它们接收指令,试图构建复杂流水线与矢量指令集,并采用乱序执行来减少延迟。我们认为这是错误的方法。更好的方式是应用帕累托原则,找出占用80%运行时间的20%代码。为何不对计算与内存应用80/20规则?为何不能自动识别关键计算内核并专注优化它们?”

Raz进一步揭示了其技术秘诀:“应用程序在主机上启动后,我们会自动识别代码中计算密集的部分。我们保留计算图的中间表示,而非将其转换为指令。这可以视为硬件的即时编译器。我们将计算图保留并放置到数据流硬件上,从硬件获取遥测数据,并以递归方式在程序运行时持续优化计算与内存。”

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第3张

“先进的软件分析器像精准定位系统,持续监控应用程序。它能精确定位影响性能的关键代码片段,然后以纳秒级粒度重构硬件本身,构建针对该代码优化的自定义数据流水线。这种非对称执行模型将卓越效率精准导向效能最大之处,同时让大部分代码正常运行。”Raz总结道。

Raz同时指出,英伟达的CUDA生态将用户锁定在其GPU上,削弱了主动性与议价权。为此,NextSilicon制定了革命性愿景:构建全新游戏规则,使计算基础设施能够:

1、无缝运行一切:现有CPU代码、复杂GPU内核、 demanding HPC任务及尖端AI/ML模型——均无需代码修改。

2、提供极致速度:实现高达10倍的加速,功耗仅需四分之一。通过实时动态优化芯片,针对应用程序最热门的资源密集型代码路径进行优化。

3、消除供应商锁定:告别专有领域特定语言(DSL)、繁琐移植流程与框架维护难题。用户可用原有代码与语言加速开发。

4、确保创新永不过时:ICA能随工作负载演变而调整,避免“重写瓶颈”。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第4张

总之,NextSilicon的数据流架构基于图结构构建。数据流处理器不像冯·诺依曼架构那样逐条处理指令,而是由一系列以图结构互联的计算单元(称为ALU)组成。每个ALU处理特定类型函数(如乘法或逻辑运算)。当输入数据到达时,计算自动触发,结果流向图中下一单元。与串行数据处理相比,这种方法优势显著,因为芯片无需处理数据提取、解码或调度等消耗周期的开销任务。

在预告Maverick-2一年后,NextSilicon终于披露了这颗革命性芯片的详细信息。

一颗与众不同的芯片

如图所示,Maverick-2芯片包含四个计算区域,32个RISC-V E核位于芯片左右边缘。计算块网格由七列组成,每列八个计算块,芯片上总计224个计算块。每个计算块包含数百个ALU,因此ALU总数可达数万至近十万。这颗采用台积电5纳米工艺制造、集成540亿晶体管的芯片,其设计显得格外独特。

若按NextSilicon图表所示的14x14网格计算,每个计算块可能有196个ALU;但每个计算块中浮点单元数量未知。每个ALU配备一个FPU是合理的。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第5张

对比来看,英伟达“Ampere” A100 GPU采用台积电7纳米工艺,拥有542亿晶体管和6912个FP32 CUDA核心;而“Hopper” H100和H200 GPU采用4纳米工艺,拥有800亿晶体管和18432个FP32核心。Blackwell B200插槽包含两个芯片组,每个芯片组集成1040亿晶体管,但仅含16896个CUDA核心,采用4纳米工艺。推测ALU比CUDA核心更小,且Maverick-2芯片上的ALU数量可能超过英伟达GPU的CUDA核心数。

归根结底,ALU数量不如每组mill核心支持的线程数重要。NextSilicon联合创始人兼架构副总裁Ilan Tayari(前Mellanox软件总监)表示,典型CPU支持两个线程,GPU支持32到64个线程,而一个mill核心可同时支持数百个线程。mill核心的规模与形态各异,但每个计算块可能有数十个mill核心,每个Maverick-2拥有224个计算块,因此可轻松支持数千个线程,所有线程以1.5 GHz频率运行——相当于慢速CPU或普通GPU速度——并通过HBM3E内存实现高速带宽连接。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第6张

如图右侧所示,主逻辑单元连接至内存总线,其上设有保留站,用于在ALU调用数据前临时存储数据。(NextSilicon已获得这种保留站、调度器与数据流计算块组合的专利。)与常规CPU类似,Maverick ICA也使用内存管理单元和表后备缓冲区,但这些单元使用频率低,仅在ALU调用特定数据时激活。它不进行推测或预测,仅执行数据提取。

Tayari自豪地表示:“NextSilicon的数据流架构使我们能显著降低与传统CPU和GPU相比的开销。我们重新分配了硅资源,将大部分资源用于实际计算而非控制开销。独特的方法消除了指令处理开销,最小化了不必要的数据移动,确保计算单元高效利用。我们并非试图隐藏延迟,而是通过设计容忍并最小化延迟。”

当应用程序为数据流引擎编译时,它实际上被映射到数据流引擎上,形成称为mill core的图结构。该图类似于编译前程序的中间表示图,被放置于ALU上。NextSilicon联合创始人兼首席执行官Elad Raz表示,多个mill core可像俄罗斯方块一样在同一计算块上放置,并可根据工作负载需求在纳秒级时间内加载或删除。

据介绍,Maverick-2提供单芯片和双芯片两种配置。单芯片Maverick-2集成32个RISC-V核心,采用台积电5纳米工艺,主频1.5GHz。该卡支持PCIe Gen5x16,配备96GB HBM3E内存,带宽高达每秒3.2TB。它拥有128MB一级缓存、100GbE网卡,热设计功耗为400W,采用风冷散热。双芯片Maverick-2则将所有功能翻倍,需接入OAM总线,配备双100GbE网卡,支持风冷或液冷散热,热设计功耗750W。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第7张

NextSilicon还分享了Maverick-2的内部基准测试数据。在每秒千兆次更新(GUPS)方面,Maverick-2以460瓦功耗提供32.6 GUPS,据称比CPU快22倍,比GPU快近6倍。在HPCG(高性能共轭梯度)测试中,Maverick-2以750瓦功耗实现600 GFLOPS性能,据称与领先GPU相当,但功耗仅为其一半。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第8张

NextSilicon研发副总裁Eyal Nagar表示:“我们今天详细探讨的不仅是芯片,更是一种基础、一种计算思维的新方式。它为工程师和科学家开启了一个充满可能性与优化的全新世界。”

一颗意外的RISC-V芯片

NextSilicon在发布会上还意外披露了名为Arbel的RISC-V CPU。该公司对RISC-V CPU设计并不陌生,如上文所述,Maverick-2已使用定制RISC-V内核处理难以并行化的串行代码。该内核表现出色,促使公司开发独立芯片。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第9张

NextSilicon表示,该核心已在台积电5纳米工艺中实现,支持高达2.5 GHz时钟频率,具备10宽发射流水线、480条目重排序缓冲区,支持16条标量指令,并集成四个128位矢量单元用于单指令多数据工作负载。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第10张

具体而言,Arbel核心在整数端配备10位宽发射解码器和6个ALU,在矢量端配备4个128位FPU。该核心可并行支持16条标量指令,拥有靠近ALU的64 KB L1指令缓存和64 KB L1数据缓存,以及靠近FPU的1 MB L2缓存(这些缓存均与所有计算单元交叉链接)。每个核心配备2 MB缓存,但Arbel芯片的核心数量未披露。

NextSilicon称Arbel核心可与英特尔的“LionCove”Xeon核心及AMD的“Zen5”Epyc核心“相媲美”。

NextSilicon发布Maverick-2智能计算加速器与Arbel RISC-V处理器引领计算革命 智能计算加速器 高性能计算 数据流架构 RISC-V 第11张

NextSilicon强调,这一突破主要归功于Arbel的四项关键架构创新:

1、大规模指令流水线具备10宽发射宽度和480条目重排序缓冲区,使Arbel能同时发现更多问题并最大化核心利用率。

2、2.5 GHz核心频率在保持功率效率的同时提供高单线程性能。

3、宽执行单元支持并行16条标量指令,加上四个集成128位矢量单元,在数据并行工作负载上实现卓越性能。

4、先进内存子系统配备64KB L1缓存和大型共享L3缓存,保持数据就近且核心持续供电——解决限制现代应用程序的内存带宽与延迟瓶颈。

5、精英TAGE分支预测器确保更快、更准确的决策,减少误预测和资源浪费。

“这是基于台积电5纳米工艺打造的真实硅片——这是我们自主研发的专利IP,非授权或借用。由NextSilicon工程师设计,旨在实现公司未来愿景。”他们强调。

那么,NextSilicon是否会成为一家CPU公司?

公司回应:“不完全是,但我们正在探索更富趣味的可能性。”

NextSilicon表示,客户对Arbel表现出浓厚兴趣,这让他们看到了AMD与NVIDIA已意识到的机遇:CPU与加速器技术垂直整合的强大潜力。当同时掌控通用计算与专用加速时,能够以依赖外部CPU架构无法实现的方式优化整个堆栈。

这种做法类似于Nvidia在其GH200与GB200超级芯片中对Grace CPU的整合。

“当同时控制通用计算与专用加速时,可以优化整个堆栈,而依赖他人CPU架构则无法实现,”Raz解释道。

NextSilicon声称,对于应对现代AI与HPC基础设施复杂性的企业而言,计算难题不再不可避免。Maverick-2代表了最佳平衡:工作负载优化性能与通用可编程性、ASIC级效率(无需漫长开发周期)以及即时加速,摆脱数十年来困扰业界的供应商锁定。

Maverick-2的数据流架构已彻底改变计算领域,而Arbel展现了我们从零开始设计世界一流芯片的能力。我们正在证明,计算的未来无需妥协,而需从头重新思考架构。