当前位置：首页 > 科技资讯 > 正文

谷歌TPU崛起：挑战英伟达，重塑AI计算版图

主机测评网
科技资讯
2026-04-29
584

谷歌TPU崛起：挑战英伟达，重塑AI计算版图谷歌TPU 英伟达 AI计算芯片竞争第1张

9月3日，一则重磅消息在科技界掀起波澜：谷歌正式对外销售TPU。

据报，谷歌正积极接触那些主要依赖英伟达芯片的小型云服务提供商，鼓励他们也在其数据中心托管谷歌自家的AI处理器——TPU。

谷歌已与至少一家云服务提供商——位于伦敦的Fluidstack——达成协议，将在新泽西的数据中心部署其TPU。

不仅如此，谷歌还向其他以英伟达为核心的服务商寻求合作，包括正在为OpenAI建造数据中心的Crusoe，以及向微软租赁芯片并与OpenAI签有供应合同的英伟达“亲儿子”CoreWeave。

9月9日，花旗分析师因TPU竞争加剧将英伟达目标价下调至200美元，预计2026年GPU销售额将因此减少约120亿美元。

显而易见，谷歌与英伟达之间的大战已经打响。而它们争夺的，正是那庞大的AI计算市场。

其实，谷歌对这场战役的准备，远比我们想象的更早。

TPU：AI计算的最优解？

早在2006年，谷歌内部就讨论过在数据中心部署GPU、FPGA或ASIC的可能性。然而，当时只有少数应用程序能在这些特殊硬件上运行，且谷歌大型数据中心的过剩算力也足够使用。因此，部署计划被搁置。

但到了2013年，谷歌研究人员发现：如果人们每天使用语音搜索并通过深度神经网络进行3分钟的语音识别，那么当时的数据中心需要双倍的算力才能满足需求。

仅靠扩大数据中心规模来应对算力需求既耗时又成本高昂。于是，在此背景下，谷歌开始了TPU的设计。

谷歌的TPU是为AI计算而生的ASIC芯片，专注于实现高矩阵乘法吞吐量与卓越能效。

为了实现高吞吐量，TPU采用“脉动阵列”（Systolic Array）架构。该架构由大量简单的处理单元（PE）构成网格。数据流从阵列边缘输入，每个时钟周期同步流经相邻单元。每个单元执行一次乘法累加运算，并将中间结果直接传递给下一个单元。

这种设计使得数据在阵列内部被高度复用，大幅减少了对高延迟、高功耗主内存的访问，从而实现惊人的处理速度。

其卓越能效的秘诀在于软硬件协同的“提前编译”（Ahead-of-Time Compilation）策略。传统通用芯片需要高能耗缓存应对多样、不可预测的数据访问。而TPU则不同，其编译器在程序运行前完整规划所有数据路径，这种确定性使其无需复杂缓存机制，从而大幅降低能耗。

在TPU的设计上，谷歌主导整体架构与功能定义，博通Broadcom参与部分芯片的中后端设计。目前，Google TPU主要由台积电代工生产。

随着大语言模型参数急剧扩张，AI计算任务从“训练”转向“推理”。这时，作为通用算力单元的GPU开始显露出成本及功耗过高的问题。

而TPU从设计之初就专门瞄准AI计算，具有很高的性价比优势。据报道，谷歌TPU算力成本仅为OpenAI使用GPU成本的1/5，性能功耗比优于同代GPU。

为了抓住市场，谷歌围绕自己的TPU架构打造了一系列产品与生态。

谷歌造芯这十年

谷歌第一代TPU (v1) 于2015年推出，通过高度简化的专用设计实现超越同期CPU与GPU的能效比。并在AlphaGo等项目中展示高效能，验证AI ASIC技术路径。

随着研发深入，训练环节算力瓶颈日益凸显。2017年发布的TPU v2引入BF16数据格式支持模型训练并配置高带宽内存（HBM）。

v2通过定制高速网络将256个芯片单元互联构建TPU Pod系统。随后的TPU v3增加计算单元数量并引入大规模液冷技术实现性能显著提升。

TPU v4发布带来互联技术重大革新采用光学电路交换（OCS）技术实现Pod内部网络拓扑动态重构提升大规模训练任务容错能力与执行效率。进入v5与v6 (Trillium) 阶段形成分别侧重极致性能'p'系列与能效比'e'系列适应多样化AI应用场景。

2025年Google TPU预计全年出货量250万片。v5系列总出货量预计190万片其中v5e占比约120万片v5p占比约70万片v6系列预计总出货量60万片目前仅v6e上市v6p将在第四季度上市约10-20万片左右。预计到2026年总体TPU销量将超过300万片。

今年谷歌云大会上谷歌发布第七代TPU代号“Ironwood”。

Ironwood是谷歌迄今为止性能最强、能效最高且最节能的TPU芯片其峰值算力达到4614 TFLOPs内存容量192GB带宽高达7.2 Tbps每瓦峰值算力为29.3 TFLOPs。此外Ironwood首次支持FP8计算格式并在张量核和矩阵数学单元中实现这一功能使其在处理大规模推理任务时更加高效。Ironwood最高配集群可拥有9216个液冷芯片峰值算力可达42.5 ExaFLOPS是世界上最大超级计算机El Capitan的24倍以上。其支持大规模并行处理和高效内存访问适用于复杂推理任务如大型语言模型和混合专家模型。

事实上Ironwood整体性能已非常接近英伟达B200甚至在某些方面有所超越。

当然英伟达统治力不仅在于其硬件性能更在于整个CUDA生态。因此谷歌也构建JAX这样能在TPU上运行的高性能计算Python库。

谷歌还发布其模型流水线解决方案“Pathway”用于向外部开发者训练大型语言模型（LLM）。将其作为训练模型必备手册研究人员无需重新设计模型即可开发Gemini等LLM。

谷歌vs英伟达

投资银行D.A. Davidson分析师Gil Luria在最新报告中指出：过去一年来谷歌母公司Alphabet大幅缩小与英伟达差距如今已成为“最好的英伟达替代方案”。

报告显示过去半年围绕Google Cloud TPU的开发者活跃度激增约96%。

Gil Luria与前沿AI实验室研究人员和工程师交流后发现业内普遍看好谷歌TPU。因此Luria认为若谷歌将TPU业务与DeepMind部门合并并分拆上市估值或将高达9000亿美元。

结语

谷歌TPU崛起：挑战英伟达，重塑AI计算版图谷歌TPU 英伟达 AI计算芯片竞争第2张市场对谷歌TPU的积极接受反映出越来越多公司想摆脱英伟达“一卡难求”困境寻求更高性价比和更多元、稳定供应链。挑战英伟达的也不只有谷歌一家公司。供应链数据显示Meta将于2025年第四季度推出其首款ASIC芯片MTIA T-V1。它由博通设计具有复杂主板架构并采用液冷和风冷混合技术。到2026年年中MTIA T-V1.5将进行进一步升级芯片面积将翻倍超过英伟达下一代GPU Rubin的规格其计算密度将直接接近英伟达的 GB200 系统。报告指出根据供应链估计Meta的目标是到2025年底至2026年实现100万至150万件ASIC出货量。微软、亚马逊同样有自研ASIC芯片正在对这片被GPU霸占的市场虎视眈眈。谷歌TPU崛起：挑战英伟达，重塑AI计算版图谷歌TPU 英伟达 AI计算芯片竞争第4张