当前位置:首页 > 科技资讯 > 正文

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局

在聚光灯下,英伟达狂飙猛进,而谷歌却在幕后悄然构建起自己的AI基建帝国。当业界还在争抢GPU时,谷歌早已实现自给自足,闭环生长——低调而稳健,这就是谷歌的风格。

英伟达在前台张扬,谷歌却在后台默默耕耘。

当你回望时,会发现谷歌在AI基础设施上的优势已难以撼动。

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局 谷歌 TPU 全栈AI AI基础设施 第1张

近日,谷歌终于放出了憋了很久的大招,CEO劈柴官宣了自研第七代TPU Ironwood正式商用。

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局 谷歌 TPU 全栈AI AI基础设施 第2张

这是谷歌第七代TPU,单颗算力达4614 TFLOPS(FP8精度),配备192GB的HBM3E内存,带宽高达7.37 TB/s。

与上一代TPU v5p相比,性能峰值提升达10倍!

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局 谷歌 TPU 全栈AI AI基础设施 第3张

对于Google Cloud客户,Ironwood根据工作负载需求提供两种尺寸:256芯片配置和9216芯片配置。

也就是说,一个pod最多可塞下9216个TPU,总算力达到惊人的42.5 ExaFLOPS。

相比之下,英伟达目前主推的的GB300 NVL72系统仅有0.36 ExaFLOPS。

这便是Anthropic直接购买100万颗TPU的根本原因。

谷歌才是那个真正低调发财的公司。有人总结了AI价值链上所有公司涉足的领域。

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局 谷歌 TPU 全栈AI AI基础设施 第4张

谷歌是唯一一家,没有之二,全栈人工智能公司:数据→算法→硬件→云服务器。

它使用自己的数据训练自己的算法;这些算法部署在自己的云上,运行在自家的芯片上;并开发了自家的应用程序。

如果说现在谷歌唯一的弱点,那可能是「苹果」,准确地说,是客户端设备,手机。

尽管安卓系统是谷歌的,但谷歌偏偏没有自己的手机(如果手机也有,谷歌堪称地球上最垄断的公司)。

虽然Pixel系列出货量未能排在三星和国产等安卓机前面,但用过Pixel的人都说好。

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局 谷歌 TPU 全栈AI AI基础设施 第5张

谷歌TPU十年进化

谷歌TPU,全称张量处理单元 (Tensor Processing UnitT), 从早期几代主要作为内部优化工具,到最新的迭代已构成一个成熟且极具竞争力的产品组合。

当英伟达在横向扩展(scale-out) 加速器市场占据主导地位时,谷歌已构建了全球唯一一个专为训练和运行前沿模型而设计、具有高容错性的超大规模系统。

2013年,谷歌面临一个关键时刻。

公司意识到,神经网络日益增长的计算需求(尤其是在语音识别领域)可能迫使他们将数据中心的规模翻倍

这一预测使AI计算不再是一个机遇,而是对运营支出 (OpEx) 的生存威胁。

尽管谷歌早在2006年就考虑过构建专用集成电路 (ASIC),但直到2013年,这才真正成为一项迫在眉睫的任务。

TPU v1 的开发周期之快是前所未有的:从设计、验证、制造到部署至数据中心仅用了15个月!

TPU v1 于2015年在谷歌内部署,并于2016年的Google I/O大会上公开发布。

谷歌AI基建帝国:从TPU到全栈技术的隐秘布局 谷歌 TPU 全栈AI AI基础设施 第6张

TPU v1的诞生过程极不寻常。

它并非一个循序渐进的研发项目,更像是一项紧急的「救火」措施。

据报道,谷歌在构建芯片的同时才开始招聘团队,这表明该项目风险极高,但也具有最高优先级。

这种「冲刺」塑造了TPU的DNA:实用主义和领域特定优化压倒一切。

架构哲学,摒弃通用性

谷歌TPU v1是一款「仅限推理」的ASIC,专为TensorFlow框架设计。(另一个深度学习框架就是Meta的PyTorch)

它与CPU和GPU的关键区别在于:TPU专为高吞吐量的低精度计算(如8位整数)而设计。

早期胜利,AlphaGo与惊人的能效比

在谷歌的生产工作负载中(占数据中心NN推理需求的95%),TPU v1 的速度比同期的Intel Haswell CPU和英伟达 K80 GPU 快15至30倍

中期规模化演进

TPU v2标志着谷歌向训练领域的战略转向。关键的架构转变是从8位整数计算转向浮点计算。

...(中间部分省略)...