当前位置：首页 > 科技资讯 > 正文

谷歌TPU挑战英伟达：双引擎驱动AI算力新生态

主机测评网
科技资讯
2026-05-14
154

在上一期深度文章中，我们剖析了谷歌作为最具潜力超越英伟达5万亿美元市值的公司，其后谷歌利好频传，巴菲特入股，发布顶尖AI模型。

在“英伟达占据主导地位”的普遍预期下，谷歌连续签订两项关键合作，再度引发行业对其算力布局的关注：

与Meta洽谈数十亿美元级TPU采购，Meta考虑自2027年起将部分推理算力从英伟达迁移至Google TPU。

与Anthropic确立“最高百万颗TPU”的扩容计划，规模直指数百亿美元。

值得注意的是，Meta是英伟达最大的客户之一。谷歌云内部高管明确表示，若TPU采用率持续扩大，有能力从英伟达手中夺走约10%的年收入份额。

谷歌TPU挑战英伟达：双引擎驱动AI算力新生态谷歌TPU 英伟达 AI算力多层次算力池第1张

换言之，谷歌正从“模型+云”两端同时发力，正面冲击英伟达的芯片帝国。一条全新的“谷歌链”正在迅速成形，硅谷的AI供应链版图随时可能被彻底改写。

那么，最关键的问题来了：

当数百亿美元的算力订单流向谷歌，这是否宣告英伟达的芯片暴利时代正在走向拐点？

谷歌TPU单卡性能不如英伟达，为何能靠“系统级性价比”撬走Meta、Anthropic等巨头？

一旦资金撤离“英伟达链”，万亿级“谷歌链”中，除了谷歌，谁最有可能成为下一只被疯抢的超级强势股？

面对“英伟达链VS谷歌链”，投资者该如何配置资金，以获取万亿级产业扩张的红利？

理解谷歌为何能撬动整个算力市场，需先明确一个大前提：英伟达在“单芯片性能”和“整柜峰值算力”上的统治力从未被撼动。

Blackwell架构产品，尤其是B200/GB200，训练猛、推理快、能效高。一个整柜GB200 NVL72能做到1.4 EFLOPS——这是为“万亿参数模型”打造的核武器。

谷歌TPU挑战英伟达：双引擎驱动AI算力新生态谷歌TPU 英伟达 AI算力多层次算力池第2张

因此，只要讨论“单卡性能”和“极限峰值”，英伟达永远是行业标杆。

但谷歌并未打算在英伟达最擅长的领域硬碰硬。它选择的是规模、效率、成本和稳定性。谷歌要做的是系统级算力平台，而非GPU替代品。

从TPU的演进中可看出端倪。第六代TPU Trillium旨在大幅降低训练成本。谷歌云测算，在训练Llama2、Llama3等主流大模型时，“性能/成本比”比上一代最高提升约2.1倍。这意味着相同预算可训练两倍规模的模型。Trillium的分布式扩展效率极高，成千上万颗芯片组成的集群依然能接近满载运行。

到了第七代TPU Ironwood，谷歌不再走“堆更多显卡”之路，而是将几千颗TPU整合成“一台巨型超级计算机”。一个Pod最多可塞入9,216颗TPU，背后还有1.77PB的共享HBM内存。这已不像服务器集群，更像一台把机房装进机柜的电脑。

谷歌TPU挑战英伟达：双引擎驱动AI算力新生态谷歌TPU 英伟达 AI算力多层次算力池第3张

配合谷歌自研的光交换网络，芯片间通信延迟极低。超大模型在Ironwood上运行，无需在几千张卡间搬数据——如在一台巨型电脑里运行般顺滑，“内存墙”被跳过，推理速度更快。

若暂时放下复杂技术参数，回到企业最关心的事——三到五年的总拥有成本（TCO），谷歌和英伟达间的差别一目了然。

从谷歌测试来看，在不少主流大模型任务上，TPU v5e/v6在合适负载下，“性能/成本比”相比传统高端GPU方案，往往可做 2–4 倍 的提升。换句话说，同样预算可产出数倍成果，或更少预算完成同样训练。在实际业务中，很多公司整体算力成本保守看也能降低 30%–40% ，部分场景甚至更低。

谷歌TPU挑战英伟达：双引擎驱动AI算力新生态谷歌TPU 英伟达 AI算力多层次算力池第4张