示意图
若论上个月科技巨头中的最大赢家,谷歌无疑是最热门的人选。
凭借性能炸裂的 Gemini 3 模型,谷歌在短短半个月内股价飞涨,不仅在AI竞技场上力压OpenAI,场外也让英伟达感受到了威胁。
小幅回调,影响有限
谷歌股价
至于为何英伟达也受到波及,原因很简单:谷歌宣布 Gemini 3 Pro 是在其自研 TPU(Tensor Processing Unit)上完成训练的,至少公开声明中未提及英伟达。
随后,媒体和网友纷纷猜测,谷歌这次或许真的要打破 CUDA 的护城河了。
媒体报道
那么问题来了:这个看似要让英伟达日子难过的 TPU,究竟是什么?
从名称可以推断,它属于一种芯片,与 GPU 是近亲,但专门为 AI 应用优化。
尽管 TPU 最近才进入公众视野,但它其实是一个始于 2015 年的长期项目。
初代 TPU 外观
第一代 TPU
当时谷歌正处于技术转型的阵痛期,计划将传统搜索推荐算法全面替换为深度学习。结果发现,GPU 不仅数量不足,而且功耗极高,成本难以承受。
GPU 的问题在于其追求全能。为了适应各种任务,它采用了硬盘、内存、显存、核心等多层次复杂架构。
这导致一个严重问题:在芯片领域,数据搬运的成本远高于计算本身。数据从显存到核心,虽然物理距离仅几厘米,但电子却需经历漫长路径。
GPU 运作原理
GPU
因此,大部分电力并未用于计算,而是消耗在数据搬运上,最终转化为热量,需要风扇散热。
对于图形渲染,这没问题,因为画面内容随机性强,无法预知所需素材,只能从显存实时读取。
但 AI 的矩阵运算中,每个数据的计算方式、对象和次数都是确定的。既然知道某个数据计算后还会被复用,GPU 却仍要将其存回,再等待下次读取,这无疑是巨大的浪费。
GPU
因此,作为 AI 专用芯片,TPU 应运而生。它去除了 GPU 中不必要的图形、控制流和调度模块,进行了精简。
核心思想是针对 AI 最频繁的矩阵乘法进行优化,采用了名为“脉动阵列”的技术。
采用这种方法后,每个数据一旦开始计算,就会在密集排列的计算单元间传递,未完成前不得返回存储单元,从而避免了频繁读写。
TPU
如此一来,TPU 每个周期的计算操作次数可达数十万次,接近 GPU 的十倍。初代 TPU v1 的能效比是同期 NVIDIA Tesla K80 的 30 倍,性价比非常突出。
当然,初期谷歌只是谨慎尝试,并未大举投入。当时的 TPU 仅支持推理,无法训练,功能单一,无法与 GPU 匹敌。
从第二代产品开始,谷歌才加强内存配置,提升容量和数据传输速率,使 TPU 能够一边计算一边快速记录和更新大量中间数据(如梯度和权重),从而具备了训练能力。
TPUv3 规模扩大,训练速度随之提升
TPU
然而多年来,尽管 TPU 在训练和推理上的成本更低,性能与 GPU 相当,为何科技巨头仍争相采购英伟达芯片?
事实上,并非大家不心动,而是谷歌的策略限制:所有 TPU 只租不售,且与谷歌云绑定。大公司无法将 TPU 部署在自己的数据中心,意味着要将核心业务托付给谷歌云,这让他们心存顾虑。担心英伟达尚未卡住的脖子,在谷歌这里会直接勒紧。
即便如此,苹果也没能抵挡住高性价比的诱惑,还是租用了一些。
此次 TPU 引起广泛关注,一方面是因为 Gemini 3 验证了 TPU 的成功,品质可靠;另一方面,谷歌终于开放销售第七代 TPU Ironwood。
第七代 TPU Ironwood
据 The Information 报道,Meta 正与谷歌洽谈一份价值数十亿美元的协议,计划从 2027 年起在其数据中心部署 TPU,并打算最早明年开始租用。
消息公布后,谷歌股价随即上涨 2.1%,英伟达则下跌 1.8%。
甚至有谷歌内部人士透露,此次开放销售可能从英伟达手中夺走数十亿美元的市场,相当于削减其年收入的 10%。
媒体报道
华尔街对 TPU 也极为看好,认为其前景广阔。连负责设计和制造的博通也受益,业绩预期被上调。
然而,要说 TPU 将取代 GPU,还为时过早。
TPU 是一种 ASIC(专用集成电路),通俗地说,它除了擅长 AI 相关的矩阵计算外,其他能力有限。
这既是它的优势,也是它的短板。
TPU 运作方式
TPU
正值大模型盛行,对矩阵计算的需求激增,TPU 因此迅速崛起。但若未来出现新的 AI 技术路线,不再依赖当前模式,TPU 可能很快被淘汰。
此外,TPU 过于专业化,一旦在计算上失去性能优势,便会彻底失去价值。四年前的 TPU v4 如今已难觅踪影。
相比之下,GPU 则不同。以五年前大模型浪潮前发布的 RTX 3090 为例,凭借 24GB 大显存和 CUDA 强大的向下兼容生态,至今仍是普通用户运行 AI 的高性价比选择,足以支持 Llama 8B 等小模型。
退一步说,即使 AI 热潮退去,GPU 仍可回归游戏和设计领域,继续发挥价值。
此外,CUDA 生态仍是英伟达最强大的护城河。
这就像习惯了 iOS 的用户,尽管安卓也很优秀,但若要迁移十年积累的照片、操作习惯和购买的应用,大多数人还是会选择留在原地。
如今的 AI 开发者同样如此,他们的代码基于 CUDA,调用的库由英伟达优化,甚至遇到报错也只习惯搜索 CUDA 的解决方案。
要转向 TPU?可以,但需要重构代码并适应新的开发环境。
即使兼容 PyTorch,许多底层优化和自定义算子仍需在 TPU 上重新调试。而专用的 JAX 语言也提高了人才招聘的门槛。
对于大多数希望快速部署模型的中小企业,与其费力适配 TPU(甚至难以获得),直接购买英伟达芯片反而是最便捷的路径。
社媒截图
且不说谷歌自身仍在大量采购英伟达 GPU,即使内部不用,其云服务的大量客户也需要。
因此,TPU 此次开放销售,确实在大模型训练领域以性价比给英伟达上了一课,但远未达到取代 GPU 的地步。
未来算力市场更可能形成 TPU 满足头部大厂专用需求,而 GPU 继续主导通用市场的格局。
但只要巨头之间展开竞争,就有望拉低算力成本,这对行业无疑是好事。
撰文:莫莫莫甜甜
编辑:江江 & 面线
美编:萱萱
图片、资料来源:
Google Cloud 官网
EITC、FUTUBULL、雅虎金融、The informaiton、Reddit、X、CNBC
https://arxiv.org/abs/1704.04760
本文由主机测评网于2026-03-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260327864.html