当前位置:首页 > 科技资讯 > 正文

英伟达AI芯片弃HBM,GDDR7崛起背后的内存变革

英伟达AI芯片弃HBM,GDDR7崛起背后的内存变革 英伟达 HBM GDDR7 AI芯片 第1张

曾经备受瞩目的HBM内存,似乎在一夜之间黯然失色。最新发布的英伟达Rubin CPX GPU,一款针对预填充阶段优化的芯片,出人意料地选择了成本更为亲民的GDDR7内存,而非业界习以为常的高端HBM方案,在行业内引发了一场热议。

回顾过去几年,英伟达的AI芯片几乎无一例外地搭载最新一代HBM内存,以满足AI训练和推理对超高内存带宽的严苛要求。如今,Rubin CPX GPU却反其道而行之,转向带宽相对较低的GDDR7,这不禁让人产生疑问:曾经的“内存之王”HBM,是否会迎来新的威胁?

放弃HBM的AI芯片

今年9月10日,英伟达正式推出Rubin CPX GPU,这是一款专为长上下文AI工作负载而设计的GPU。值得注意的是,Rubin CPX并非普通的Rubin GPU简化版,而是一款针对推理性能深度优化的AI加速器/GPU,定位于即将登场的Vera Rubin NVL144 CPX机架。

随着AI应用的不断演进,底层计算架构也必须随之变化。英伟达在此次产品中提出了全新的推理加速理念——“解耦推理”。这一策略的核心是将不同类型的GPU各司其职:计算型GPU负责处理庞大的“上下文阶段”,而高带宽GPU则专注于“生成阶段”的吞吐量密集计算。

这种任务分工的设计正是应对新一代AI模型的复杂需求。如今,大模型推理已取代训练,成为硬件架构优化的前沿战场。在这个体系中,Rubin CPX GPU是上下文阶段的“主力担当”。它在英伟达新引入的NVFP4数据格式下,能够提供高达30 PFLOPs的原始算力,并搭载128 GB GDDR7显存。

从架构角度看,Rubin CPX GPU与标准版Rubin GPU的差异也十分明显:Rubin CPX采用单芯片设计,强调成本效率与计算密度;而标准版Rubin GPU则采用双芯片Chiplet架构,更加复杂昂贵,但能提供更极致的性能。

有分析指出,既然Rubin GPU单芯片算力约为25 PFLOPs FP4,那么Rubin CPX很可能是Rubin GPU单芯片的“高优化版”,专门针对解耦推理中的计算任务做了调优。

为什么是GDDR7

事实上,长期以来内存瓶颈一直是人工智能发展的最大制约因素。在大模型不断膨胀的背景下,如何将更庞大的参数量加载到加速器中,成为产业最关心的问题之一。模型规模越大,对内存容量的要求就越高。因此,近几代GPU的高带宽内存(HBM)容量和带宽得以快速提升。

然而,如果把推理拆解为预填充(pre-fill)和解码(decode)两个阶段,就会发现HBM并非在整个推理链路中都“物尽其用”。鉴于其价格远高于其他DRAM,如果带宽闲置,就意味着成本的浪费。这正是Rubin CPX选择GDDR7而不是HBM4的原因。

选择GDDR7的好处也十分明显:它大幅降低了显存在系统总成本中的比重;在推理性能近乎相当的前提下,成本优势显著;为更多企业降低了进入门槛,推动AI基础设施更广泛的普及。

内存供应商的新机遇

随着对GDDR7的需求激增,内存供应链正在迎来新的格局变化。在RTX Pro 6000以及最新的Rubin CPX等产品带动下,英伟达对GDDR7的需求急速上升。近期,英伟达更是要求三星将GDDR7产量翻倍。作为回应,三星不仅扩大了生产设施,还增加了必要的材料与组件。

市场分析机构预测,B40出货量今年可能达到100万片。由此,三星电子有望凭借大规模订单巩固其在图形DRAM市场的地位。

结语:时代的转折点

虽然英伟达的决定给HBM带来了新的威胁。但这并不影响巨头们在这个赛道继续掘金。日前,SK海力士公司宣布已完成全球首款超高性能人工智能下一代存储产品HBM4的开发,并已完成量产准备。

“HBM4开发的完成将是行业的一个新里程碑。”领导此次开发的SK海力士HBM开发负责人Joohwan Cho说。通过这个事可以看到,寻找更好性价比是行业的永恒旋律。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点。