在最近的Hot Chips大会上,谷歌Gemini工程副总裁Noam Shazeer以“人工智能下一阶段的预测”为主题发表演讲,分享了他自2017年发明Transformer模型以来,在大型语言模型(LLM)领域深耕十年的见解。他的演讲指出,LLM可以通过利用硬件等多种资源来显著提升性能和准确性。
Noam Shazeer在演讲中强调了几个核心观点。首先,他认为语言建模是“有史以来最好的问题”,因此专门用一张幻灯片和部分内容深入探讨了这一概念。时隔一周多,看到他对此话题的热情依旧,令人印象深刻。
接着,他讨论了“LLM想要什么”,这类似于常说的“核心越多越好”,但他更关注FLOPS(浮点运算每秒)的提升。这一点至关重要,因为随着LLM规模的扩大——包括更多参数、更深层次、更强非线性和信息流——计算需求也随之激增。同时,高质量的训练数据也对构建更优秀的LLM起到关键作用。
他还回顾了发展历程:2015年,在32块GPU上进行训练被视为重大突破,而十年后,训练规模可能扩展到数十万块GPU。另一个有趣轶事是,他提到谷歌在2018年打造了专门用于人工智能的计算舱(compute pods),这标志着从过去在数千CPU上运行工作负载(如网页爬取)的分散模式,转向专为深度学习/AI优化的集中式大型机器,从而实现了性能的巨大飞跃。
这引出了芯片会议上的一张重要幻灯片,展示了大型模型对硬件的具体需求。
这张幻灯片的亮点在于,它强调了更高的计算能力、内存容量、内存带宽和网络带宽对于驱动未来AI模型至关重要。或许少数人认同这一观点。在“所有层级”中,不仅包括DDR5容量和带宽,还涵盖HBM(高带宽内存)和片上SRAM。降低计算精度有助于更高效地利用这些资源,通常被视为积极进展,而确定性则能改进编程体验。
回顾主题演讲,核心思想是:更大、更快的计算集群将直接推动LLM性能提升。这对谷歌等公司是利好消息。如果你对“感谢超级计算机!”幻灯片感到好奇,那是因为加速器、网络和集群规模的增长,使得当前AI浪潮比过去基于32 GPU集群训练的模型更为实用。
坦白说,最大收获是业内杰出人物Noam Shazeer坚信更多计算能力将带来更好的AI模型。看到他语言建模的热情,确实鼓舞人心。
值得注意的是,就在六个月前,英伟达CEO黄仁勋曾预测到2028年数据中心资本支出将超过1万亿美元。在最近的财报电话会议上,他进一步预计未来五年AI基础设施支出将达到3万亿至4万亿美元!对于一个本已庞大的市场,这种增长率令人震惊,堪称我们一生中难得的“淘金热”。
让我们深入探讨为何LLM对计算和连接能力如此渴求,以及那些提供“更多”选择的创新。新想法正层出不穷。
ChatGPT、Claude、Gemini、Llama等LLM模型是数据中心资本支出爆炸式增长的核心驱动力。这些基础模型因其卓越效果而备受青睐。年度经常性收入(ARR)正呈指数级增长:例如,OpenAI的ARR从2025年初的每年50亿美元翻倍至2025年中期的100亿美元以上;Anthropic的ARR则从每年10亿美元增长五倍至50亿美元。
Gemini(谷歌)和Llama(Meta)也在快速发展。它们使用海量参数,上下文窗口大小(模型单次可处理的文本token量,影响文档或代码处理上限)持续扩大,KV缓存需求(存储先前token的键值向量以提升生成效率)不断增长。深度研究模式要求模型“思考更长时间”并进行多模型交叉验证,以获得更精准结果。所有这些都加剧了对硬件的需求。
尽管复杂性和计算量大幅增加,但每个查询的成本却在下降,这反过来推动了更多查询需求。
LLM虽简单易用,但充分发挥其潜力需要技巧。提示工程已成为专家们的新领域,他们通过高效方式利用模型获得最佳结果。
最近有文章指出,大型企业超过90%的AI实验失败。但这不意味着AI无效,而是存在学习曲线——一些公司更快掌握了诀窍。竞争优势将转向快速学习者。例如,Salesforce刚宣布裁员4000名客服岗位,因为AI客服能胜任工作;其他公司也表示AI工具将提升生产力,减少未来招聘需求。
训练LLM的硬件需求与推理截然不同:训练需要大量GPU跨数据中心协作,且“全收集”周期可能导致数千GPU闲置等待同步;而推理所需GPU较少,但需同时处理更多模型。过去训练占主导,但现在ChatGPT等应用激增,推理工作负载未来占比可能达80%。
并非所有LLM都属前沿。许多公司会构建专用模型,例如博世基于内部文档训练模型,以提升客服效率——这比购买通用模型更经济高效。
Sebastian Raschka的《Build an LLM from Scratch》是深入理解LLM架构驱动硬件需求的好书。我正研读此书以增强认知。
最近还出现了新型扩散LLM(Diffusion LLM),如Mercury Coder称其token处理速度提升5-10倍。一位风险投资家透露,AMD在GPU销售上的初步成功与此相关,因为这些模型对GPU需求较低,缓解了AMD在大规模扩展上的劣势。可通过搜索“What is Diffusion LLM and what it matters”了解更多。
这是AI硬件中最受关注的部分——由英伟达GPU、AMD GPU及超大规模厂商定制加速器提供的巨大算力。
英伟达在财报中披露,数据中心收入超一半来自三家可能为亚马逊AWS、谷歌云和微软的公司,它们年购英伟达GPU价值超100亿美元。这些公司有能力构建定制加速器以降低成本并优化硬件。
超大规模企业开发定制加速器的原因有二:利用ASIC公司降低利润率以获取谈判优势,以及根据自身LLM需求优化硬件。尽管客户工作负载多基于Pytorch且兼容英伟达/AMD GPU,它们仍受激励将业务转向AMD以促竞争。
一些初创公司如D-Matrix和Positron也获资助,专注于为本地小型LLM等利基市场优化AI计算。
观察AI加速器芯片照片,总能看到GPU两侧配备的HBM。HBM与GPU的连接既宽又快,避免数据瓶颈,因此其成本约为DDR DRAM的10倍。HBM已是工程奇迹,堆叠达16层,并持续通过增加连接数和数据速率提升带宽。
内存专家指出,加速器上内存的晶体管数量常超过GPU(考虑HBM多芯片堆叠的总硅面积)。HBM与GPU在硅中介层上的集成推动了台积电多芯片封装技术。尽管提升容量和带宽面临挑战,但巨额资金投入料将催生更多创新。
有趣的是,传言OpenAI在推理中使用8层HBM以追求更高带宽。由于内存需求巨大——数十亿权重、扩大的上下文窗口和KV缓存——内存层次结构应运而生:常用KV存于HBM,其他则根据需求存于更远内存,类似CPU缓存层级。英伟达的Dynamo分布式KV缓存管理器便智能分配KV至HBM、DRAM或NVMe,提升token/美元效率。
当前DRAM通过PCIe连接CPU再至GPU,传输速率较慢。Eliyan提议将定制HBM背面连接LPDDR,为加速器DRAM提供更高带宽。
此外,“内存设备”概念近期兴起:用比HBM廉价的DRAM构建大型内存池,并通过高带宽连接至GPU集群。Enfabrica刚宣布用于LLM推理的内存结构系统,以400/800 Gb/秒速率连接CPU CXL接口,单个节点可提供高达18 TB DDR5 DRAM。
AI数据中心涉及多种网络:纵向扩展(scale up)、横向扩展(scale out),以及英伟达在Hot Chips提到的跨规模网络。
过去,以太网连接数据中心所有设备,从机架顶部交换机(TOR)到更高级交换机。如今,网络创新迅猛,因为运行前沿LLM需在数百数千GPU间进行高速高带宽传输。
谷歌在Hot Interconnects大会上展示了训练与网络挑战:训练需数千加速器协同,定期同步权重,而最后一个响应的加速器会造成尾部延迟。理想训练网络需可调度且可预测。Firefly提供跨数据中心同步的10纳秒以下时钟,充当通用节拍器。
谷歌另一创新Falcon集成于英特尔SmartNIC E2100,启用“定时轮”调节数据包速度以减少拥堵,类似交通信号灯。
在以太网领域,博通Tomahawk芯片主导市场,用于Arista等交换机。Hot Chips上,博通表示Tomahawk Ultra已上市,具512个100G-PAM4端口,将为横向扩展网络提供更快超级以太网交换机。
博通也推广用于扩展网络的Tomahawk Ultra SUE,添加链路层重试、基于信用的流量控制等功能,延迟接近UALink。博通暗示有客户设计1K-2K GPU集群,并考虑两层交换机。
其他聚焦扩展的厂商包括Marvell、Astera Labs及Xconn等初创公司。
UALink是AMD等公司推广的非英伟达生态系统互连技术,规范详细,旨在连接多达1,024 GPU(取决于互连介质,铜缆可能受限)。
超大规模厂商的定制纵向扩展互连市场也存在,例如AWS可能为其Trainum加速器优化交换机。
华为在Hot Chips提出基于以太网的统一总线,无需协议转换以降低延迟,因法规限制无法使用最新英伟达技术。
谷歌TPU采用独特网络方案,新Ironwood TPU及其互连在大会上亮相。TPU传统上使用超立方体互连,每个TPU有6个高速连接,现通过可插拔光纤和光开关连接至共享内存池。
“跨规模网络”是新术语,英伟达在Hot Chips演讲“共封装硅光交换机用于吉瓦级AI工厂”中首次提出。这是共封装光学器件(CPO)的首次部署,旨在相比可插拔光学器件大幅降低功耗,节省的每瓦特都可在数据中心功耗预算内安装更多GPU。光学器件还支持数公里距离的数据中心交换机互操作,这对训练庞大LLM常属必需。
英伟达展示新交换机与现成以太网交换机相比,在10公里距离上带宽翻倍,尤其对大消息尺寸。
对能创新并提供更高算力、更大内存、更宽带宽(且成本功耗竞争力强)解决方案的半导体和系统公司,这无疑是“淘金热”。市场增长至少在未来十年保持惊人态势,赢家将快速扩张并形成巨大规模。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213842.html