在聚光灯下,英伟达狂飙猛进,而谷歌却在幕后悄然构建起自己的AI基建帝国。当业界还在争抢GPU时,谷歌早已实现自给自足,闭环生长——低调而稳健,这就是谷歌的风格。
英伟达在前台张扬,谷歌却在后台默默耕耘。
当你回望时,会发现谷歌在AI基础设施上的优势已难以撼动。
近日,谷歌终于放出了憋了很久的大招,CEO劈柴官宣了自研第七代TPU Ironwood正式商用。
这是谷歌第七代TPU,单颗算力达4614 TFLOPS(FP8精度),配备192GB的HBM3E内存,带宽高达7.37 TB/s。
与上一代TPU v5p相比,性能峰值提升达10倍!
对于Google Cloud客户,Ironwood根据工作负载需求提供两种尺寸:256芯片配置和9216芯片配置。
也就是说,一个pod最多可塞下9216个TPU,总算力达到惊人的42.5 ExaFLOPS。
相比之下,英伟达目前主推的的GB300 NVL72系统仅有0.36 ExaFLOPS。
这便是Anthropic直接购买100万颗TPU的根本原因。
谷歌才是那个真正低调发财的公司。有人总结了AI价值链上所有公司涉足的领域。
谷歌是唯一一家,没有之二,全栈人工智能公司:数据→算法→硬件→云服务器。
它使用自己的数据训练自己的算法;这些算法部署在自己的云上,运行在自家的芯片上;并开发了自家的应用程序。
如果说现在谷歌唯一的弱点,那可能是「苹果」,准确地说,是客户端设备,手机。
尽管安卓系统是谷歌的,但谷歌偏偏没有自己的手机(如果手机也有,谷歌堪称地球上最垄断的公司)。
虽然Pixel系列出货量未能排在三星和国产等安卓机前面,但用过Pixel的人都说好。
谷歌TPU,全称张量处理单元 (Tensor Processing UnitT), 从早期几代主要作为内部优化工具,到最新的迭代已构成一个成熟且极具竞争力的产品组合。
当英伟达在横向扩展(scale-out) 加速器市场占据主导地位时,谷歌已构建了全球唯一一个专为训练和运行前沿模型而设计、具有高容错性的超大规模系统。
2013年,谷歌面临一个关键时刻。
公司意识到,神经网络日益增长的计算需求(尤其是在语音识别领域)可能迫使他们将数据中心的规模翻倍。
这一预测使AI计算不再是一个机遇,而是对运营支出 (OpEx) 的生存威胁。
尽管谷歌早在2006年就考虑过构建专用集成电路 (ASIC),但直到2013年,这才真正成为一项迫在眉睫的任务。
TPU v1 的开发周期之快是前所未有的:从设计、验证、制造到部署至数据中心仅用了15个月!
TPU v1 于2015年在谷歌内部署,并于2016年的Google I/O大会上公开发布。
TPU v1的诞生过程极不寻常。
它并非一个循序渐进的研发项目,更像是一项紧急的「救火」措施。
据报道,谷歌在构建芯片的同时才开始招聘团队,这表明该项目风险极高,但也具有最高优先级。
这种「冲刺」塑造了TPU的DNA:实用主义和领域特定优化压倒一切。
谷歌TPU v1是一款「仅限推理」的ASIC,专为TensorFlow框架设计。(另一个深度学习框架就是Meta的PyTorch)
它与CPU和GPU的关键区别在于:TPU专为高吞吐量的低精度计算(如8位整数)而设计。
在谷歌的生产工作负载中(占数据中心NN推理需求的95%),TPU v1 的速度比同期的Intel Haswell CPU和英伟达 K80 GPU 快15至30倍。
TPU v2标志着谷歌向训练领域的战略转向。关键的架构转变是从8位整数计算转向浮点计算。
...(中间部分省略)...本文由主机测评网于2026-05-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544323.html