近期,英伟达对AI推理新星Groq的收购,犹如科技界的一颗深水炸弹,引发了广泛震荡。这一举动不仅将LPU(张量流处理器)背后的SRAM技术推向了前台,还引发了一场关于“SRAM是否会取代HBM”的激烈讨论。
在最近的CES 2026大会上,当被问及这一问题时,黄仁勋表示:“如果一切都能装进SRAM,那确实不需要HBM,然而……”
要理解黄仁勋这句话的深意,我们首先要明确这两个缩写分别代表什么。
在计算机领域中,数据存储遵循一个不变的法则:速度越快的东西通常越昂贵、占用空间越大;反之,容量越大的东西速度越慢。
SRAM(静态随机存取存储器)是目前世界上最快的存储介质之一,直接集成在CPU/GPU核心旁边。它无需像DRAM那样定时“刷新”电量,只要有电,数据就稳如泰山。形象地说,它就像你的“衬衫口袋”,伸手即得,速度极快(纳秒级),但空间极小,只能放几张名片(几百MB)。
HBM(高带宽存储器)本质上仍是DRAM(动态随机存取存储器),是我们电脑/服务器里最常见的内存条,容量大、价格便宜。它采用3D堆叠+超宽接口“贴着”GPU/加速器封装在一起,追求的是带宽,而不是将“每次访问的延迟”降到SRAM那个级别。它就像你家楼下的“大型仓库”,容量巨大(几十GB),搬运货物的“门”(带宽)也非常宽,但你得走一段路才能到,存在物理延迟。
过去十年,AI芯片的核心战场集中在训练上。模型参数动辄百亿甚至千亿级,计算强度极高,数据复用率高、可批量处理。在这种模式下:容量第一,带宽第二,延迟反而不敏感,这正是HBM的舒适区。大容量、堆叠封装、极高顺序带宽,与GPU的大规模并行计算天然匹配。这也是为什么HBM几乎成为“AI芯片=GPU”的默认前提。
然而,当AI走向“推理”阶段(即真实世界的使用),规则变了。在应用端,特别是人机交互和实时控制场景,延迟才是生命线。
根据Groq的技术文献,传统GPU架构(如NVIDIA A100/H100)高度依赖HBM。虽然HBM带宽惊人,但在存取权重时仍会引入数百纳秒的延迟。在Batch Size=1(即单次请求、零等待处理)的实时推理场景中,GPU必须频繁重新加载权重,导致执行停滞,性能剧烈下滑。
这里有一个“出身”问题:在传统GPU内存结构中,当处理单元引用本地缓存时,会开始繁琐的缓存填充和回写过程。这些处理单元属于流式多处理器(SM)核心,所有核心都在动态竞争共享的DRAM控制器。这意味着总共有2560个线程在竞争共享DRAM控制器中的16个HBM2e伪通道。这导致了漫长的等待时间,并因为对共享资源的动态竞争导致了重测序、延迟波动和不可预测的性能。
为了掩盖这种延迟,传统架构被迫增加“批大小”(Batch Size),即攒够256个请求再一起处理。这在训练中很有效,但在推理中却导致了明显的延迟。
那么,为何SRAM作为“主存”,会在推理中突然变得合理呢?
SRAM并非因AI才出现,它一直存在,但长期只被当作“缓存(Cache)”使用。过去没有人敢、也没必要把SRAM当作“主内存”。原因很现实:面积太大、成本太高、工艺缩放比逻辑电路慢。
但Groq采取了“反向思维”。既然SRAM缩放慢,那我就不再把它当作“昂贵的缓存”,而是利用它在先进制程下极高的开关速度和确定性。Groq芯片目前主要采用台积电14nm/7nm。在这些节点上,SRAM的技术非常成熟。但Groq官方路线图是计划走向4nm。到了4nm或更先进的GAA(全环绕栅极)架构下,虽然SRAM单元面积缩小依然缓慢,但由于静噪边际改善,大规模SRAM的读写稳定性反而更高了。
在技术本质上,SRAM相比DRAM的访问延迟不是“更快一点”,而是“快一个数量级”。HBM/DRAM的典型访问延迟大约在100ns,而SRAM仅需1ns。当权重直接常驻在SRAM中,不需要Cache猜测、预取、等待。
Groq LPU的核心是将数百MB的片上SRAM存放模型权重,完全抛弃HBM作为主存储。Groq的芯片将SRAM集成在处理器内部,访问延迟仅为HBM的几分之一。据Groq官方数据显示,其片上带宽高达80TB/s。
进一步的,下图展示了GroqChip如何高效地展现指令级并行(ILP)、内存级并行(MLP)和数据级并行(DLP),采用独特的同步计算与通信方法。在开发完成后,控制权交给了软件端,通过大规模并行编译器来利用所有这些形式的并发。
所以,SRAM真正的隐性优势是其确定性。“快”和“每次都一样快”,是两件完全不同的事。
在近日的CES 2026大会期间,有采访者问黄仁勋:英伟达已经拥有CPX技术,并通过收购Groq获得了推理所需的SRAM访问权限。展望未来,“Grok(=SRAM)+内部CPX”的组合是否能让HBM使用量控制在更“可控”的水平?这会对利润率产生积极影响吗?
对于上述提问,黄仁勋的答复是:“先解释各自的优势,再说明为什么没那么简单。”CPX在单位成本的预填充(Prefill)性能上更优。如果一切都能装进SRAM,HBM确实没必要。然而,问题是这会使模型尺寸缩小约100倍。”这就是SRAM的致命伤:太占地方、太贵了。
黄仁勋强调,“灵活性使我们成为了通用答案。”面对不断变化的MoE(混合专家模型)、多模态、甚至是SSM(状态空间模型),能够灵活切换压力点(NVLink、HBM或计算单元)的架构才是数据中心TCO的最优解。
SRAM并不是突然崛起的新技术,而是在AI推理时代被放到了一个从未承担过的位置。它的优势不在于容量或性价比,而在于确定性、能效和极低延迟;它的限制也同样明确——面积、成本以及对模型规模的天然约束。
“SRAM取代HBM”是一个伪命题。真正的命题是「AI推理如何实现TCO最优解」。推理不是“算力终点”,而是“用量起点”。一个常被忽略的事实是:训练只发生一次,推理会发生数十亿次。
因此,在追求极致速度的边缘侧(如AI眼镜、工业实时控制)和特定高性能推理场景,SRAM确实在通过ASIC架构蚕食HBM的份额;但在大规模数据中心中,HBM依然是承载海量参数的基石;此外,SSD/NAND则要负责模型分发、冷数据与长上下文存储扩展。
本文由主机测评网于2026-06-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260647920.html