当前位置:首页 > 科技资讯 > 正文

谷歌AI基建帝国:TPU十年进化与全栈优势

英伟达在舞台中央闪耀,而谷歌则在幕后悄然构建了自己的AI基础设施王国。当其他企业还在争抢GPU时,谷歌早已实现自给自足和闭环生长——低调行事,这正是谷歌的一贯风格。

英伟达明修栈道,谷歌暗渡陈仓。

当你回头审视时,谷歌在AI基础设施方面的优势已经势不可挡。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第1张

近日,谷歌终于释放了酝酿已久的大招,CEO劈柴正式宣布自研第七代TPU Ironwood投入商业应用。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第2张

这是谷歌第七代TPU,单颗算力达到4614 TFLOPS(FP8精度),配备192GB的HBM3E内存,带宽高达7.37 TB/s。

与上一代TPU v5p相比,峰值性能提升了10倍!

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第3张

对于Google Cloud客户,Ironwood根据工作负载需求提供两种配置:256芯片和9216芯片。

这意味着一个pod最多可容纳9216个TPU,总算力惊人地达到42.5 ExaFLOPS。

相比之下,英伟达目前主推的GB300 NVL72系统仅提供0.36 ExaFLOPS。

这正是Anthropic直接采购100万颗TPU的核心原因。

谷歌是真正低调盈利的企业,有人总结了AI价值链上所有公司涉足的领域。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第4张

谷歌是唯一一家,没有例外,全栈人工智能公司:覆盖数据→算法→硬件→云服务器。

它利用自身数据训练自家算法;这些算法部署在自家云服务的自研芯片上;随后开发出自主应用程序。

如果说谷歌目前唯一的短板,那或许是「苹果」,更准确地说,是客户端设备,如手机。

尽管安卓系统归谷歌所有,但谷歌恰恰缺乏自有手机品牌(如果拥有手机,谷歌可能成为地球上最垄断的公司,或许没有之一)。

虽然Pixel系列销量不及三星和国产安卓机,但用户普遍对Pixel赞誉有加。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第5张

谷歌TPU十年演进

谷歌TPU,全称张量处理单元,从早期几代主要作为内部优化工具,发展到最新迭代已构成一个成熟且极具竞争力的产品组合。

当英伟达在横向扩展加速器市场占据主导时,谷歌已经构建了全球唯一专为训练和运行前沿模型而设计的高容错超大规模系统。

2013年,谷歌面临关键转折点。

公司意识到,神经网络日益增长的计算需求(尤其在语音识别领域)可能迫使数据中心规模翻倍

这一预测使AI计算不再仅是机遇,更成为对运营支出的生存威胁。

尽管谷歌早在2006年就考虑构建专用集成电路,但直到2013年,这才成为紧迫任务。

TPU v1 的开发周期极快:从设计、验证、制造到部署至数据中心仅用15个月!

TPU v1 于2015年在谷歌内部部署,并于2016年Google I/O大会公开发布。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第6张

TPU v1的诞生过程非常规。

它并非渐进研发项目,更像紧急「救火」措施。

据报道,谷歌在构建芯片的同时才开始组建团队,显示该项目风险极高,但优先级最高。

这种「冲刺」塑造了TPU的DNA:实用主义和领域特定优化压倒一切。

谷歌为成功牺牲了所有与神经网络无关的功能。

当AI由神经网络驱动,TPU便为AI而生。

架构哲学,摒弃通用性

谷歌TPU v1是一款「仅限推理」的ASIC,专为TensorFlow框架设计。(另一个深度学习框架是Meta的PyTorch)

它与CPU和GPU的关键区别在于:TPU专为高吞吐量的低精度计算(如8位整数)而优化。

与CPU(通用处理器)和GPU(当时主要为图形渲染优化)不同,TPU彻底摒弃非必需硬件,如缓存、乱序执行和纹理映射单元。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第7张

该芯片核心是庞大矩阵乘法单元,拥有65,536个(256x256)8位MAC单元,峰值性能达每秒92万亿次操作。

v1采用28nm工艺,时钟频率700MHz,热设计功耗仅40W,远低于同期GPU。

它被设计为PCIe卡,可安装于SATA硬盘插槽,以便快速集成到现有服务器。

早期胜利,AlphaGo与惊人能效比

2016年,DeepMind的AlphaGo击败世界围棋冠军李世石,背后正是TPU v1提供算力支持。

2017年发表的一篇里程碑论文详述其性能。

在谷歌生产工作负载(占数据中心NN推理需求的95%)中,TPU v1 比同期Intel Haswell CPU和英伟达 K80 GPU快15至30倍

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第8张

但更关键指标是能效比,TPU v1 比CPU和GPU高出30至80倍

这一数据揭示谷歌从一开始的战略意图。

在超大规模数据中心环境中,成本不仅由芯片采购成本决定,更由其运行电力成本决定。

TPU v1 的胜利不仅在于速度,更在于解决了AI计算的总体拥有成本问题。

中期规模化演进

TPU v1 验证了ASIC概念,但其「仅限推理」特性意味着谷歌在模型训练方面仍依赖英伟达。

TPU v2 (2017年推出) 标志谷歌向训练领域的战略转向。

关键架构转变是:从8位整数计算转向浮点计算,特别是引入并推广了由Google Brain发明的 bfloat16 格式。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第9张

bfloat16 是巧妙的工程妥协:它保留与32位浮点数相同的8位指数,但将尾数截短至7位。

这一设计在大幅降低内存占用和带宽需求的同时,保留了训练所需动态范围,有效防止梯度消失或爆炸。

规格方面,v2采用16nm工艺,搭载16GB高带宽内存(HBM)(v1为DDR3),内存带宽飙升至600 GB/s,算力达45 TFLOPS。

TPU v2引入了Pod(集群)概念,但在此之前与之后,GPU长期以集群/超算形态扩展

英伟达随后在2018年推出DGX POD参考架构,2019年起推出DGX SuperPOD并在2020–2025年持续更新(H200/GB200等版本),这些都属于标准化GPU集群解决方案。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第10张

谷歌不再将TPU视为独立加速器,而是设计了4芯片模块(180 TFLOPS)。

64个这样的模块被组装成一个256芯片的Pod,总性能达11.5 PFLOPS。

这是TPU历史上最重要时刻之一。

谷歌停止了在「芯片竞赛」中追赶,转而开辟了「系统竞赛」的新战场。

TPU v3 (2018年) 延续这一思路。

芯片性能提升至123T-ops,HBM增加到32GB。更重要的是,Pod规模扩大4倍,达1024个芯片,使每个Pod性能增加8倍。

为应对急剧增加的功率密度,液冷技术被引入并成为TPU Pod标准配置,使谷歌能进一步挑战性能极限。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第11张

到了第四代,TPU v4 (2021)可与A100并驾齐驱,实现规模化领先。

TPU v4(2021年)是一次重大飞跃。采用7nm工艺,性能提升至275T-ops(T-ops 是 tera-operations per second的缩写,表示每秒执行的万亿次操作)。

Pod规模再次扩大,达4096个芯片。

关键改进在于互连:v4芯片互连带宽达上一代10倍。

到2021年,TPU不再只是「高TCO效益」选项。

它在原始性能上已可与英伟达最佳产品正面竞争。

现代TPU产品,多元化和专业化

TPU v5 发布标志谷歌从单一架构转向成熟、多元化产品线。

v5有两个版本TPU v5e(Efficiency)和TPU v5p(Performance),v5e针对主流推理、微调和中小型训练负载设计;TPU v5p是训练谷歌Gemini 1.0模型所使用的核心系统。

与TPU v4相比,TPU v5p的FLOPS提高2倍以上,高带宽内存(HBM)提高3倍

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第12张

TPU v5p专为性能、灵活性和规模设计,可以训练大型LLM模型,速度比上一代TPU v4快2.8倍。

TPU v6,代号Trillium,于2024年5月宣布,并于同年10月提供预览。

v6性能实现918TFLOPS和1836TOPS (Int8) 的巨大飞跃。

这比v5e高4.7倍,比v5p高约2倍。规格32GB HBM,1600 GB/s带宽。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第13张

v6引入关键架构:第三代SparseCore

SparseCore 引入表明谷歌正在解决Transformer模型中特定瓶颈。

SparseCore是专门用于处理嵌入 (embeddings) 的加速器。

嵌入在排名和推荐模型中普遍存在,并对传统MXU计算效率低下。

Trillium 是专为训练Transformer和MoE(Mixture of Experts)模型打造的芯片。

谷歌的Gemini 2.0是在Trillium (v6) 上训练的

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第14张

谷歌CEO劈柴明确表示:「TPU为Gemini 2.0的训练和推理提供100%动力」。

TPU v7推理时代的专业芯片

TPU v7,代号Ironwood,于2025年4月发布。

Ironwood是首款专为推理设计的TPU,而Trillium则是训练冠军。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第15张

在战略和资本层面,这反映钟摆策略。谷歌使用v6 (Trillium) 构建前沿模型 (CapEx投入),现在发布v7 (Ironwood) 规模化服务这些模型 (OpEx消耗)。

Ironwood 旨在优化推理的TCO。(毕竟我们已进入AI推理时代)

Ironwood达4614 TFLOPS (FP8),比Trillium的Int8性能高2.5倍以上。能效比是Trillium的2倍

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第16张

Ironwood将在未来几周年内全面上市。市场对Ironwood早期反响极为热烈。

例如,谷歌列出已下订单企业,如Anthropic、Lightricks、essential AI。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第17张

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第18张

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第19张

CPU也造,还有最新虚拟机

除了TPU,谷歌还造了首颗通用处理器Axion。

用谷歌自己的话:构建和运维现代应用既需高度专业化加速器,也离不开强大高效通用计算能力。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第20张

基于这颗CPU,谷歌还发布最新Axion虚拟机,N4A。

基于Arm架构的全新Axion实例现已开放预览。

与当前同代基于x86架构虚拟机相比,N4A可提供高达2倍的价格性能优势。

除了虚拟机,还推出裸金属实例,C4A。

C4A裸金属实例(即将进入预览阶段)是谷歌首款基于Arm架构的裸金属实例,为专用工作负载提供专属物理服务器,适用于Android开发、汽车车载系统、严格许可要求的软件、规模化测试农场或运行复杂模拟等场景。

谷歌云服务在2025年3季度位居世界第3,前面是亚马逊和微软。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第21张

正如文章开头所说,谷歌是现在AI领域唯一一家全栈技术公司,覆盖数据、算法、模型、云服务、CPU、GPU,需要什么就自研什么。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第22张

尽管在很多领域,谷歌并非排名第一,但在任何相关领域,谷歌都占有一席之地。

或许这才是真正的闷声发大财。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第23张

2025年10月,Anthropic宣布扩大合作,获得高达100万个TPU芯片使用权。

该协议价值数百亿美元,并将在2026年提供超过1吉瓦计算容量。

虽然全球聚光灯几乎都照在英伟达身上,但在聚光之外,谷歌的AI基础设施版图已悄然成形,甚至形成自己独立的「气候系统」。

谷歌给这套系统起名:AI Hypercomputer。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第24张

英伟达是舞台中央的光芒,谷歌则隐藏在大幕之后。

当所有AI公司都在抢购H系列GPU时,谷歌早已在自家TPU集群上完成自我造血循环——训练、部署、推理、优化,全都在自己系统内部完成。

谷歌AI基金(Google AI Infrastructure Fund)便是在这种体系下自然诞生的产物。

它不仅是投资基金,更像生态基金池,用以扶持所有基于谷歌云与TPU生态的AI公司。

谷歌AI基建帝国:TPU十年进化与全栈优势 谷歌TPU  AI基础设施 全栈人工智能 Ironwood芯片 第25张

Anthropic、Cohere、Character.AI、Essential AI……

这些名字在外界看来是独立创业公司,但它们在算力与模型底座上,都深度绑定谷歌TPU集群与Gemini模型家族。

换句话说,谷歌AI基金并非简单「投资人」,而是用资本作为粘合剂,将算力、云服务与生态绑定在一起

当这些公司成长、融资、甚至上市时,谷歌都在背后分得红利。

这就是谷歌真正的护城河:

不是某一代TPU芯片的领先;

也不是Gemini模型的参数量;(Gemini 3即将发布)

而是一个可自我进化、自我繁殖的AI生态系统

在未来几年中,当市场仍在讨论GPU供需、算力溢价、芯片带宽时,谷歌TPU与AI基金正以稳健方式持续扩张。

它的节奏不快,但势能深厚,气候已成。

参考资料

https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads