当前位置：首页 > 科技资讯 > 正文

英伟达AI芯片弃HBM，GDDR7崛起背后的内存变革

英伟达AI芯片弃HBM，GDDR7崛起背后的内存变革英伟达 HBM GDDR7 AI芯片第1张

曾经备受瞩目的HBM内存，似乎在一夜之间黯然失色。最新发布的英伟达Rubin CPX GPU，一款针对预填充阶段优化的芯片，出人意料地选择了成本更为亲民的GDDR7内存，而非业界习以为常的高端HBM方案，在行业内引发了一场热议。

回顾过去几年，英伟达的AI芯片几乎无一例外地搭载最新一代HBM内存，以满足AI训练和推理对超高内存带宽的严苛要求。如今，Rubin CPX GPU却反其道而行之，转向带宽相对较低的GDDR7，这不禁让人产生疑问：曾经的“内存之王”HBM，是否会迎来新的威胁？

放弃HBM的AI芯片

今年9月10日，英伟达正式推出Rubin CPX GPU，这是一款专为长上下文AI工作负载而设计的GPU。值得注意的是，Rubin CPX并非普通的Rubin GPU简化版，而是一款针对推理性能深度优化的AI加速器/GPU，定位于即将登场的Vera Rubin NVL144 CPX机架。

随着AI应用的不断演进，底层计算架构也必须随之变化。英伟达在此次产品中提出了全新的推理加速理念——“解耦推理”。这一策略的核心是将不同类型的GPU各司其职：计算型GPU负责处理庞大的“上下文阶段”，而高带宽GPU则专注于“生成阶段”的吞吐量密集计算。

这种任务分工的设计正是应对新一代AI模型的复杂需求。如今，大模型推理已取代训练，成为硬件架构优化的前沿战场。在这个体系中，Rubin CPX GPU是上下文阶段的“主力担当”。它在英伟达新引入的NVFP4数据格式下，能够提供高达30 PFLOPs的原始算力，并搭载128 GB GDDR7显存。

从架构角度看，Rubin CPX GPU与标准版Rubin GPU的差异也十分明显：Rubin CPX采用单芯片设计，强调成本效率与计算密度；而标准版Rubin GPU则采用双芯片Chiplet架构，更加复杂昂贵，但能提供更极致的性能。

有分析指出，既然Rubin GPU单芯片算力约为25 PFLOPs FP4，那么Rubin CPX很可能是Rubin GPU单芯片的“高优化版”，专门针对解耦推理中的计算任务做了调优。

事实上，长期以来内存瓶颈一直是人工智能发展的最大制约因素。在大模型不断膨胀的背景下，如何将更庞大的参数量加载到加速器中，成为产业最关心的问题之一。模型规模越大，对内存容量的要求就越高。因此，近几代GPU的高带宽内存（HBM）容量和带宽得以快速提升。

然而，如果把推理拆解为预填充（pre-fill）和解码（decode）两个阶段，就会发现HBM并非在整个推理链路中都“物尽其用”。鉴于其价格远高于其他DRAM，如果带宽闲置，就意味着成本的浪费。这正是Rubin CPX选择GDDR7而不是HBM4的原因。

选择GDDR7的好处也十分明显：它大幅降低了显存在系统总成本中的比重；在推理性能近乎相当的前提下，成本优势显著；为更多企业降低了进入门槛，推动AI基础设施更广泛的普及。

随着对GDDR7的需求激增，内存供应链正在迎来新的格局变化。在RTX Pro 6000以及最新的Rubin CPX等产品带动下，英伟达对GDDR7的需求急速上升。近期，英伟达更是要求三星将GDDR7产量翻倍。作为回应，三星不仅扩大了生产设施，还增加了必要的材料与组件。

市场分析机构预测，B40出货量今年可能达到100万片。由此，三星电子有望凭借大规模订单巩固其在图形DRAM市场的地位。

虽然英伟达的决定给HBM带来了新的威胁。但这并不影响巨头们在这个赛道继续掘金。日前，SK海力士公司宣布已完成全球首款超高性能人工智能下一代存储产品HBM4的开发，并已完成量产准备。

“HBM4开发的完成将是行业的一个新里程碑。”领导此次开发的SK海力士HBM开发负责人Joohwan Cho说。通过这个事可以看到，寻找更好性价比是行业的永恒旋律。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点。

本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441328.html