当前位置：首页 > 科技资讯 > 正文

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发

主机测评网
科技资讯
2025-12-29
854

在最近的Hot Chips大会上，谷歌Gemini工程副总裁Noam Shazeer以“人工智能下一阶段的预测”为主题发表演讲，分享了他自2017年发明Transformer模型以来，在大型语言模型（LLM）领域深耕十年的见解。他的演讲指出，LLM可以通过利用硬件等多种资源来显著提升性能和准确性。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第1张

Noam Shazeer在演讲中强调了几个核心观点。首先，他认为语言建模是“有史以来最好的问题”，因此专门用一张幻灯片和部分内容深入探讨了这一概念。时隔一周多，看到他对此话题的热情依旧，令人印象深刻。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第2张

接着，他讨论了“LLM想要什么”，这类似于常说的“核心越多越好”，但他更关注FLOPS（浮点运算每秒）的提升。这一点至关重要，因为随着LLM规模的扩大——包括更多参数、更深层次、更强非线性和信息流——计算需求也随之激增。同时，高质量的训练数据也对构建更优秀的LLM起到关键作用。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第3张

他还回顾了发展历程：2015年，在32块GPU上进行训练被视为重大突破，而十年后，训练规模可能扩展到数十万块GPU。另一个有趣轶事是，他提到谷歌在2018年打造了专门用于人工智能的计算舱（compute pods），这标志着从过去在数千CPU上运行工作负载（如网页爬取）的分散模式，转向专为深度学习/AI优化的集中式大型机器，从而实现了性能的巨大飞跃。

这引出了芯片会议上的一张重要幻灯片，展示了大型模型对硬件的具体需求。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第4张

这张幻灯片的亮点在于，它强调了更高的计算能力、内存容量、内存带宽和网络带宽对于驱动未来AI模型至关重要。或许少数人认同这一观点。在“所有层级”中，不仅包括DDR5容量和带宽，还涵盖HBM（高带宽内存）和片上SRAM。降低计算精度有助于更高效地利用这些资源，通常被视为积极进展，而确定性则能改进编程体验。

回顾主题演讲，核心思想是：更大、更快的计算集群将直接推动LLM性能提升。这对谷歌等公司是利好消息。如果你对“感谢超级计算机！”幻灯片感到好奇，那是因为加速器、网络和集群规模的增长，使得当前AI浪潮比过去基于32 GPU集群训练的模型更为实用。

坦白说，最大收获是业内杰出人物Noam Shazeer坚信更多计算能力将带来更好的AI模型。看到他语言建模的热情，确实鼓舞人心。

值得注意的是，就在六个月前，英伟达CEO黄仁勋曾预测到2028年数据中心资本支出将超过1万亿美元。在最近的财报电话会议上，他进一步预计未来五年AI基础设施支出将达到3万亿至4万亿美元！对于一个本已庞大的市场，这种增长率令人震惊，堪称我们一生中难得的“淘金热”。

让我们深入探讨为何LLM对计算和连接能力如此渴求，以及那些提供“更多”选择的创新。新想法正层出不穷。

LLM正重塑数据中心格局

ChatGPT、Claude、Gemini、Llama等LLM模型是数据中心资本支出爆炸式增长的核心驱动力。这些基础模型因其卓越效果而备受青睐。年度经常性收入（ARR）正呈指数级增长：例如，OpenAI的ARR从2025年初的每年50亿美元翻倍至2025年中期的100亿美元以上；Anthropic的ARR则从每年10亿美元增长五倍至50亿美元。

Gemini（谷歌）和Llama（Meta）也在快速发展。它们使用海量参数，上下文窗口大小（模型单次可处理的文本token量，影响文档或代码处理上限）持续扩大，KV缓存需求（存储先前token的键值向量以提升生成效率）不断增长。深度研究模式要求模型“思考更长时间”并进行多模型交叉验证，以获得更精准结果。所有这些都加剧了对硬件的需求。

尽管复杂性和计算量大幅增加，但每个查询的成本却在下降，这反过来推动了更多查询需求。

LLM虽简单易用，但充分发挥其潜力需要技巧。提示工程已成为专家们的新领域，他们通过高效方式利用模型获得最佳结果。

最近有文章指出，大型企业超过90%的AI实验失败。但这不意味着AI无效，而是存在学习曲线——一些公司更快掌握了诀窍。竞争优势将转向快速学习者。例如，Salesforce刚宣布裁员4000名客服岗位，因为AI客服能胜任工作；其他公司也表示AI工具将提升生产力，减少未来招聘需求。

训练LLM的硬件需求与推理截然不同：训练需要大量GPU跨数据中心协作，且“全收集”周期可能导致数千GPU闲置等待同步；而推理所需GPU较少，但需同时处理更多模型。过去训练占主导，但现在ChatGPT等应用激增，推理工作负载未来占比可能达80%。

并非所有LLM都属前沿。许多公司会构建专用模型，例如博世基于内部文档训练模型，以提升客服效率——这比购买通用模型更经济高效。

Sebastian Raschka的《Build an LLM from Scratch》是深入理解LLM架构驱动硬件需求的好书。我正研读此书以增强认知。

最近还出现了新型扩散LLM（Diffusion LLM），如Mercury Coder称其token处理速度提升5-10倍。一位风险投资家透露，AMD在GPU销售上的初步成功与此相关，因为这些模型对GPU需求较低，缓解了AMD在大规模扩展上的劣势。可通过搜索“What is Diffusion LLM and what it matters”了解更多。

追求更高PetaFlops（每秒千万亿次浮点运算）

这是AI硬件中最受关注的部分——由英伟达GPU、AMD GPU及超大规模厂商定制加速器提供的巨大算力。

英伟达在财报中披露，数据中心收入超一半来自三家可能为亚马逊AWS、谷歌云和微软的公司，它们年购英伟达GPU价值超100亿美元。这些公司有能力构建定制加速器以降低成本并优化硬件。

超大规模企业开发定制加速器的原因有二：利用ASIC公司降低利润率以获取谈判优势，以及根据自身LLM需求优化硬件。尽管客户工作负载多基于Pytorch且兼容英伟达/AMD GPU，它们仍受激励将业务转向AMD以促竞争。

一些初创公司如D-Matrix和Positron也获资助，专注于为本地小型LLM等利基市场优化AI计算。

扩大内存容量与带宽（全层级优化）

观察AI加速器芯片照片，总能看到GPU两侧配备的HBM。HBM与GPU的连接既宽又快，避免数据瓶颈，因此其成本约为DDR DRAM的10倍。HBM已是工程奇迹，堆叠达16层，并持续通过增加连接数和数据速率提升带宽。

内存专家指出，加速器上内存的晶体管数量常超过GPU（考虑HBM多芯片堆叠的总硅面积）。HBM与GPU在硅中介层上的集成推动了台积电多芯片封装技术。尽管提升容量和带宽面临挑战，但巨额资金投入料将催生更多创新。

有趣的是，传言OpenAI在推理中使用8层HBM以追求更高带宽。由于内存需求巨大——数十亿权重、扩大的上下文窗口和KV缓存——内存层次结构应运而生：常用KV存于HBM，其他则根据需求存于更远内存，类似CPU缓存层级。英伟达的Dynamo分布式KV缓存管理器便智能分配KV至HBM、DRAM或NVMe，提升token/美元效率。

当前DRAM通过PCIe连接CPU再至GPU，传输速率较慢。Eliyan提议将定制HBM背面连接LPDDR，为加速器DRAM提供更高带宽。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第5张

此外，“内存设备”概念近期兴起：用比HBM廉价的DRAM构建大型内存池，并通过高带宽连接至GPU集群。Enfabrica刚宣布用于LLM推理的内存结构系统，以400/800 Gb/秒速率连接CPU CXL接口，单个节点可提供高达18 TB DDR5 DRAM。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第6张

增强网络带宽（全层级互联）

AI数据中心涉及多种网络：纵向扩展（scale up）、横向扩展（scale out），以及英伟达在Hot Chips提到的跨规模网络。

过去，以太网连接数据中心所有设备，从机架顶部交换机（TOR）到更高级交换机。如今，网络创新迅猛，因为运行前沿LLM需在数百数千GPU间进行高速高带宽传输。

谷歌在Hot Interconnects大会上展示了训练与网络挑战：训练需数千加速器协同，定期同步权重，而最后一个响应的加速器会造成尾部延迟。理想训练网络需可调度且可预测。Firefly提供跨数据中心同步的10纳秒以下时钟，充当通用节拍器。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第7张

谷歌另一创新Falcon集成于英特尔SmartNIC E2100，启用“定时轮”调节数据包速度以减少拥堵，类似交通信号灯。

在以太网领域，博通Tomahawk芯片主导市场，用于Arista等交换机。Hot Chips上，博通表示Tomahawk Ultra已上市，具512个100G-PAM4端口，将为横向扩展网络提供更快超级以太网交换机。

博通也推广用于扩展网络的Tomahawk Ultra SUE，添加链路层重试、基于信用的流量控制等功能，延迟接近UALink。博通暗示有客户设计1K-2K GPU集群，并考虑两层交换机。

其他聚焦扩展的厂商包括Marvell、Astera Labs及Xconn等初创公司。

UALink是AMD等公司推广的非英伟达生态系统互连技术，规范详细，旨在连接多达1,024 GPU（取决于互连介质，铜缆可能受限）。

超大规模厂商的定制纵向扩展互连市场也存在，例如AWS可能为其Trainum加速器优化交换机。

华为在Hot Chips提出基于以太网的统一总线，无需协议转换以降低延迟，因法规限制无法使用最新英伟达技术。

谷歌TPU采用独特网络方案，新Ironwood TPU及其互连在大会上亮相。TPU传统上使用超立方体互连，每个TPU有6个高速连接，现通过可插拔光纤和光开关连接至共享内存池。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第8张

“跨规模网络”是新术语，英伟达在Hot Chips演讲“共封装硅光交换机用于吉瓦级AI工厂”中首次提出。这是共封装光学器件（CPO）的首次部署，旨在相比可插拔光学器件大幅降低功耗，节省的每瓦特都可在数据中心功耗预算内安装更多GPU。光学器件还支持数公里距离的数据中心交换机互操作，这对训练庞大LLM常属必需。

LLM驱动硬件革命：AI下一阶段的计算、内存与网络需求爆发 LLM 硬件需求计算能力网络带宽第9张