当前位置：首页 > 科技资讯 > 正文

AI云决战Infra之巅：从GPU囤货到全栈生态锁定

主机测评网
科技资讯
2026-03-18
635

近期，“Token能否作为AI云发展的北极星指标”这一话题，在业界引发了广泛讨论。

支持者认为，Token的使用量与云业务表现之间存在高度正相关性。根据阿里集团最新发布的FY26Q1财报，AI相关产品有力拉动了传统云服务的增长，这表明AI云领域的投入已初见成效。与此同时，腾讯云也在加速海外扩张，计划在沙特建立其首个中东数据中心，并扩容印尼的第三个数据中心，以更好地支持出海企业的AI应用需求。

然而，反对意见也指出，过度聚焦于Token这一单一量化指标，可能会掩盖AI云的核心竞争力与众多隐性算力需求，例如政企市场的私有化部署场景。仅凭Token使用量，很难全面准确地反映行业的真实竞争态势。

我们的观点非常明确：单一指标并不能等同于核心竞争力。这就像一个小学生身高达到180cm，只能说明他拥有良好的先天基因，但无法据此预测他未来能否成为姚明。评价一个成年人，我们需要综合考量身高、外貌、人品、学历、家庭背景、工作能力等多方面因素，AI云的评估亦是如此。

AI云决战Infra之巅：从GPU囤货到全栈生态锁定 AI云 AI Infra MaaS GPU算力第1张

随着云服务商不再满足于仅仅扮演“水电工”的角色，竞争已逐渐升级为AI Infra（人工智能基础设施）的全栈较量。这涵盖了为AI应用提供全生命周期的底层技术支持，包括模型训练、推理、部署、数据工程、上线运维等各个环节，标志着行业竞争已从单纯的资源提供，转向全链路业务赋能的综合实力比拼。在此背景下，仅关注Token指标无疑会一叶障目。

不过，从GPU算力、MaaS平台到AI Infra，AI云的竞争要素与衡量指标并非一成不变，而是随着AI行业的发展同步演进，逐步形成当前的格局。

理解这一演进脉络，远比记住一个简单结论更为重要。下面，让我们回顾云厂商在AI领域的竞争是如何沿着一条清晰的路径，最终汇聚于AI Infra这一全面战场。

AI云第一阶段：

GPU弹药储备战

2023年，ChatGPT横空出世，大模型浪潮迅速席卷全球，算力随即成为各方博弈的焦点。云厂商自然而然地成为中国AI大模型的算力“守门人”。这场类似“广积粮”的GPU抢购大战，直接奠定了后续AI云竞争的基本格局。

为何如此？因为没有最先进的芯片，大模型的训练便无从谈起。一场“抢芯大战”由此拉开序幕，争夺的焦点集中在英伟达的高端GPU芯片，尤其是H100、A800/H800系列。

然而，一方面英伟达GPU价格昂贵，云厂商作为资源大户，更有实力全力争夺英伟达的高端GPU资源。根据Omdia的统计数据，2023年英伟达共售出50万个A100和H100 GPU，其中绝大部分被头部科技公司瓜分：Meta和微软各自采购了15万块H100 GPU，并列第一；谷歌、亚马逊、甲骨文和腾讯各采购了5万块；百度和阿里则分别获得3万块和2.5万块。

AI云决战Infra之巅：从GPU囤货到全栈生态锁定 AI云 AI Infra MaaS GPU算力第2张

显而易见，腾讯的采购策略最为激进，以5万张H100的采购量稳居国内首位。凭借充足的芯片储备，腾讯云率先发布了新一代HCC高性能计算集群，算力性能较前代提升3倍，显著缩短了大模型训练时间，从而抢占了算力竞赛的先发优势。

另一个关键因素是，英伟达芯片受到出口限制。国内企业只能采购特供版芯片，但在2023年，云厂商仍能通过以往与英伟达的供应链合作关系，在一定程度上绕过美国的出口管制政策，争夺到部分高端算力资源。当时，百度虽已拥有昆仑芯AI芯片，但自研芯片尚未形成规模。

AI云决战Infra之巅：从GPU囤货到全栈生态锁定 AI云 AI Infra MaaS GPU算力第3张

（图片来源：Omdia报告）

据坊间传闻，当时百度直接与英伟达CEO黄仁勋对接，锁定了A800芯片的优先供货权。这层关系的背后，是百度长期深耕AI领域，尤其是通过飞桨框架构建的深厚生态羁绊。

鲜为人知的是，百度飞桨早在2020年便开始布局硬件生态，当年联合13家国内外顶级硬件厂商发起了“飞桨硬件生态圈”计划，并优先与英伟达建立深度合作，通过高频次的中高管对接，英伟达甚至组建了专职的项目经理和研发团队进行专项对接。这种长期合作积累的信任基础，无疑为百度参与抢芯大战提供了重要助力，也有力支撑了百度智能云的AI算力集群，以及文心大模型作为首个对标ChatGPT的中文大语言模型的率先问世。

可以说，这一阶段的胜负手，主要取决于资本实力与供应链掌控能力。

2023年的抢卡大战，堪称国内云厂商在AI时代的首场硬仗，为中国AI发展提供了不可或缺的算力弹药，并深刻影响了后续的战略走向。此后，算力储备充足的厂商如阿里云，能够通过降价策略抢占市场；而受海外供货限制的华为等厂商，则转向差异化突围。

同时，当竞争聚焦于卡型和算力规格时，供应链危机也愈发凸显。英伟达芯片供应链的不稳定性，使云厂商清醒地认识到，过度依赖外部硬件绝非长久之计。自此，国内云厂商纷纷加大自研芯片投入，百度昆仑芯、阿里含光、华为昇腾等产品加速迭代，为国产硬件的突围埋下了伏笔。

AI云第二阶段：

模型的尖刀策略

囤积了大量GPU卡后，云厂商是否立刻展开了AI大战？出乎意料的是，2024年初的第一场云服务较量竟然是围绕游戏《幻兽帕鲁》展开。这款现象级游戏突然爆火，海量玩家集中涌入导致服务器濒临崩溃，阿里云、华为云、腾讯云、京东云等国内厂商迅速响应，纷纷推出专属游戏服务器。

大型游戏云服务比拼的是全球多节点部署、充沛算力、稳定网络以及低价，这与AI似乎关系不大。大模型热潮已席卷一年，但预期的AI云大战似乎迟迟未能进入核心阶段。

云厂商很快意识到，仅靠堆积算力无法通过AI+云计算盈利，还必须将算力转化为企业可开箱即用的服务，即MaaS（模型即服务）。

与年初的云游戏形成鲜明对比的是，2024年底笔者参加某头部云厂商年度沟通会时，其内部人士透露，云部门首次取代政企部门，在集团中优先登台汇报，这主要得益于其亮眼的增长表现，而增长的核心驱动力正是自研大模型这一“尖刀产品”。

MaaS赛道的竞争逻辑，就是将自研大模型锻造成切入业务场景的“尖刀”。

阿里云主打开源策略，通过通义全系列模型与“百炼”平台，实现模型的微调与部署一体化，以生态粘性锁定用户，同时主动发起价格战抢占市场份额。百度智能云则采取文心闭源+模型超市模式，不断升级文心大模型，同时千帆平台支持数十款主流开源模型的一键调用，以开放的开发者生态扩大影响力。

AI云决战Infra之巅：从GPU囤货到全栈生态锁定 AI云 AI Infra MaaS GPU算力第4张

腾讯云则发力政企服务市场，在2024年全球数字生态大会上披露，其“自研+被集成”战略成效显著，服务客户超过200万家，SaaS合作伙伴收入增幅突破100%。

这一年，火山引擎也正式加入AI云大战，凭借其卓越的工程化能力和推理优化，将模型推理成本降低90%以上，直接推动了AI应用的规模化爆发。

华为云则走出差异化路线。凭借其在政企市场的深厚积累，发布盘古大模型3.0，构建从L0（基础层）到L3（行业层）的四级架构，聚焦政务、金融、制造等垂直场景，以行业专业知识构筑竞争壁垒。

可以看出，这一阶段的竞争关键已从单纯的算力储备，转向模型能力与行业适配能力。

然而，风险也在悄然酝酿：模型能力难以形成显著差距，导致MaaS服务对客户的锁定效应不明显。这一困境并非国内云厂商所独有。

《Big AI: Cloud infrastructure dependence and the industrialisation of artificial intelligence》的作者调研也发现，海外云基础设施同样呈现出高度相似性，AWS、Microsoft Azure与GCP虽提供多样化服务，但核心服务类型与名称高度雷同，这凸显了云基础设施的共性特征。

AI云决战Infra之巅：从GPU囤货到全栈生态锁定 AI云 AI Infra MaaS GPU算力第5张

（图示：云AI技术堆栈）

注：此图展示了AWS、微软Azure和谷歌云平台中，各类产品与服务之间的结构性互联。线条粗细表示引用频率，反映了不同产品和服务之间联系的紧密程度。

究其原因，AI与云计算的整合离不开一套完整的技术栈、云基础设施工具及服务生态中的核心组件，这个庞大的技术栈必然有大量重合之处。

于是，云厂商的AI大战开始迈入第三阶段，转向AI Infra，着力增强共性基础要素的综合竞争力。

AI云第三阶段：

Infra的生态锁定效应

进入2025年，两大核心变量将AI云竞争推向AI Infra（人工智能基础设施）的战场。

其一是模型层面。2025年春节，DeepSeek横空出世，模型重心从训练规模转向推理效率。即便基于同一款开源模型，不同厂商的推理成本差距也可通过Infra优化能力无限拉大，“同模型不同命”的现象让企业日益重视云基础设施的深度优化能力。

其二是应用层面。Agent智能体应用迎来爆发，这类应用是典型的“Token大户”，AI Infra作为连接算力与应用的关键桥梁，直接决定了智能体的能力差异，导致头部云厂商与中小玩家的差距持续拉大。

此时，AI云已全面进入AI Infra阶段，成为巨头的游戏。头部厂商纷纷加码布局，加速技术架构升级与组织调整。阿里云率先提出基础设施概念，华为云依托昇腾芯片与ModelArts平台打造全栈自主可控底座，百度智能云则提出AI-Native服务架构，构建从芯片研发、集群部署到平台优化的全链路技术闭环，腾讯云也专门成立了AI Infra部门。

为何支撑大模型和Agent应用离不开AI Infra？这背后实则是一笔经济账。

从开源角度看，要增加AI云的使用量和收入，AI Infra具有极强的生态锁定优势。企业一旦将核心业务Agent部署在某家厂商的Infra之上，迁移成本将极高，从而形成稳固的用户粘性。例如，谷歌与Anthropic、Midjourney达成深度合作，亚马逊成为Stability AI、Hugging Face的首选云合作伙伴，均遵循这一逻辑。

从节流角度看，硬件芯片的性能释放效率，完全依赖于Infra层的适配调度能力。特别是在GPU供给受限的背景下，华为昇腾、寒武纪、沐曦等国产集群，更需要深度优化来提升算力利用率，使云厂商的单位Token成本持续下降。AI Infra通过自研芯片摆脱对单一供应商的依赖，将推理成本压低至行业低位，构建可持续的成本优势。

要知道，云计算是一门规模生意，成本决定生死，成本架构的优化能力是最底层的竞争力。而兼具开源与节流功能的AI Infra，自然成为云厂商在AI时代最大的利润池与护城河。

AI云决战Infra之巅：从GPU囤货到全栈生态锁定 AI云 AI Infra MaaS GPU算力第6张