Alphabet兼谷歌首席执行官桑达尔·皮查伊,股价“跌跌不休”,英伟达都站出来表态,“我们领先了全行业一代”。
从巴菲特“谢幕之作”说起——伯克希尔·哈撒韦公司首次建仓谷歌母公司Alphabet股票,市场又传出英伟达大客户Meta考虑在2027年其数据中心部署谷歌TPU,并于2026年通过谷歌云租用TPU算力。
英伟达在声明中强调GPU在性能、通用性和可移植性方面“远优于”ASIC,并重申自研TPU无法替代GPU的灵活性。谷歌发言人也表示继续和英伟达保持合作关系,并强调公司致力于同时支持TPU和英伟达GPU。
TPU,从解决AI计算效率瓶颈的“救命项目”,如今已发展为谷歌的“经济支柱”。
作为自研ASIC芯片的代表,TPU已具备动摇英伟达根基的潜力,谷歌用一套完全不同的超大规模系统哲学,重新定义AI基础设施的未来。
谷歌在2015年启动TPU项目,并非出于炫技或彰显技术实力,而是被逼入了一个现实:不自研将难以支撑未来业务规模。
深度学习在谷歌内部应用扩散,谷歌工程团队意识到,如果全面采用深度学习模型,全球数据中心的功耗将暴涨至难以承受的程度,即使采购再多GPU也无法满足需求。
彼时GPU更适合训练大规模神经网络,但其能效并非针对实时在线推理设计。谷歌内部预测:如果未来所有核心业务上线深度模型,电力成本会增长十倍。高层意识到,依赖CPU和GPU的现有路线不可持续。
因此,谷歌决定自研ASIC加速器,目标不是造一个“最强通用芯片”,而是造一个“可大量部署在数据中心、用于特定矩阵运算的高能效芯片”。最终,TPU v1在2016年正式投入使用。
2017年Transformer论文发表后,谷歌意识到新架构的计算模式高度规则、矩阵密度极高、并行度惊人,简直是为TPU量身定做。于是,TPU升级为谷歌AI基础设施的底座。
从v2、v3开始,谷歌逐步开放TPU给谷歌云客户,正式进入商业化阶段。虽然早期生态和兼容性逊于GPU,但谷歌用XLA编译器、高效Pod架构、液冷数据中心等蹚出一条差异化道路。
2021年,TPU v4横空出世,首次把4096颗芯片组成一个超节点。2023到2024年,TPU v5p成为转折点,大规模进入谷歌广告系统、搜索核心排序等赚钱产品线。
从解决AI计算效率到成为战略级武器,TPU用了十年时间。
2025年,第七代TPU(代号Ironwood)成为全球AI基础设施领域最受关注的硬件产品。Ironwood是首款专用推理芯片。
单芯片层面,Ironwood的FP8稠密算力达到4.6 petaFLOPS。一个Ironwood Pod可集成9216颗芯片,FP8峰值性能超过42.5 exaFLOPS。这一规模的核心是谷歌十年磨一剑的网络拓扑结合光路交换网络。
Ironwood的诞生宣告TPU从“追赶者时代”迈入“进攻时代”,也标志着谷歌将推理时代视为未来十年的决战主战场。
CNBC指出,谷歌、英伟达和亚马逊三大玩家在大规模投入研发时追求的目标、商业模式等均有不同。这些差异深刻影响了芯片的形态和客户采用路径。
英伟达的路线始终围绕GPU推进,注重通用性。谷歌不追求硬件通用性,而是追求深度学习特别是Transformer负载的极致效率。亚马逊则关注降低基础设施成本并减少对外部供应商的依赖。
谷歌通过全栈垂直整合策略避免了昂贵的“CUDA税”。所谓CUDA税是指GPU芯片从生产到销售过程中所叠加的高额利润。
由于不需要支付英伟达税,谷歌的算力成本结构天生比OpenAI更具优势。这种优势使谷歌能够为客户提供更低价格的推理能力。
回顾TPU的发展史可见其“追赶到领先”的演变轨迹。早期TPU在生态成熟度等方面落后于GPU,但随着Gemini系列模型逐代升级,谷歌逐步证明其仍可实现训练稳定性、推理成本控制和全栈性能优化。
随着公司进入推理时代,TPU的作用从支持内部模型转向支持全球企业客户。谷歌云的AI收入大幅增加,云部门的财报显示全年化收入达到440亿美元。
未来几年,AI行业竞争将从模型维度转向成本维度。谷歌凭借TPU、全球数据中心布局等有望在这一新周期中构建更牢固的竞争壁垒。
本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545148.html