当前位置:首页 > 科技资讯 > 正文

AI云决战Infra之巅:从GPU囤货到全栈生态锁定

近期,“Token能否作为AI云发展的北极星指标”这一话题,在业界引发了广泛讨论。

支持者认为,Token的使用量与云业务表现之间存在高度正相关性。根据阿里集团最新发布的FY26Q1财报,AI相关产品有力拉动了传统云服务的增长,这表明AI云领域的投入已初见成效。与此同时,腾讯云也在加速海外扩张,计划在沙特建立其首个中东数据中心,并扩容印尼的第三个数据中心,以更好地支持出海企业的AI应用需求。

然而,反对意见也指出,过度聚焦于Token这一单一量化指标,可能会掩盖AI云的核心竞争力与众多隐性算力需求,例如政企市场的私有化部署场景。仅凭Token使用量,很难全面准确地反映行业的真实竞争态势。

我们的观点非常明确:单一指标并不能等同于核心竞争力。这就像一个小学生身高达到180cm,只能说明他拥有良好的先天基因,但无法据此预测他未来能否成为姚明。评价一个成年人,我们需要综合考量身高、外貌、人品、学历、家庭背景、工作能力等多方面因素,AI云的评估亦是如此。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第1张

随着云服务商不再满足于仅仅扮演“水电工”的角色,竞争已逐渐升级为AI Infra(人工智能基础设施)的全栈较量。这涵盖了为AI应用提供全生命周期的底层技术支持,包括模型训练、推理、部署、数据工程、上线运维等各个环节,标志着行业竞争已从单纯的资源提供,转向全链路业务赋能的综合实力比拼。在此背景下,仅关注Token指标无疑会一叶障目。

不过,从GPU算力、MaaS平台到AI Infra,AI云的竞争要素与衡量指标并非一成不变,而是随着AI行业的发展同步演进,逐步形成当前的格局。

理解这一演进脉络,远比记住一个简单结论更为重要。下面,让我们回顾云厂商在AI领域的竞争是如何沿着一条清晰的路径,最终汇聚于AI Infra这一全面战场。

AI云第一阶段:

GPU弹药储备战

2023年,ChatGPT横空出世,大模型浪潮迅速席卷全球,算力随即成为各方博弈的焦点。云厂商自然而然地成为中国AI大模型的算力“守门人”。这场类似“广积粮”的GPU抢购大战,直接奠定了后续AI云竞争的基本格局。

为何如此?因为没有最先进的芯片,大模型的训练便无从谈起。一场“抢芯大战”由此拉开序幕,争夺的焦点集中在英伟达的高端GPU芯片,尤其是H100、A800/H800系列。

然而,一方面英伟达GPU价格昂贵,云厂商作为资源大户,更有实力全力争夺英伟达的高端GPU资源。根据Omdia的统计数据,2023年英伟达共售出50万个A100和H100 GPU,其中绝大部分被头部科技公司瓜分:Meta和微软各自采购了15万块H100 GPU,并列第一;谷歌、亚马逊、甲骨文和腾讯各采购了5万块;百度和阿里则分别获得3万块和2.5万块。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第2张

显而易见,腾讯的采购策略最为激进,以5万张H100的采购量稳居国内首位。凭借充足的芯片储备,腾讯云率先发布了新一代HCC高性能计算集群,算力性能较前代提升3倍,显著缩短了大模型训练时间,从而抢占了算力竞赛的先发优势。

另一个关键因素是,英伟达芯片受到出口限制。国内企业只能采购特供版芯片,但在2023年,云厂商仍能通过以往与英伟达的供应链合作关系,在一定程度上绕过美国的出口管制政策,争夺到部分高端算力资源。当时,百度虽已拥有昆仑芯AI芯片,但自研芯片尚未形成规模。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第3张

(图片来源:Omdia报告)

据坊间传闻,当时百度直接与英伟达CEO黄仁勋对接,锁定了A800芯片的优先供货权。这层关系的背后,是百度长期深耕AI领域,尤其是通过飞桨框架构建的深厚生态羁绊。

鲜为人知的是,百度飞桨早在2020年便开始布局硬件生态,当年联合13家国内外顶级硬件厂商发起了“飞桨硬件生态圈”计划,并优先与英伟达建立深度合作,通过高频次的中高管对接,英伟达甚至组建了专职的项目经理和研发团队进行专项对接。这种长期合作积累的信任基础,无疑为百度参与抢芯大战提供了重要助力,也有力支撑了百度智能云的AI算力集群,以及文心大模型作为首个对标ChatGPT的中文大语言模型的率先问世。

可以说,这一阶段的胜负手,主要取决于资本实力与供应链掌控能力。

2023年的抢卡大战,堪称国内云厂商在AI时代的首场硬仗,为中国AI发展提供了不可或缺的算力弹药,并深刻影响了后续的战略走向。此后,算力储备充足的厂商如阿里云,能够通过降价策略抢占市场;而受海外供货限制的华为等厂商,则转向差异化突围。

同时,当竞争聚焦于卡型和算力规格时,供应链危机也愈发凸显。英伟达芯片供应链的不稳定性,使云厂商清醒地认识到,过度依赖外部硬件绝非长久之计。自此,国内云厂商纷纷加大自研芯片投入,百度昆仑芯、阿里含光、华为昇腾等产品加速迭代,为国产硬件的突围埋下了伏笔。

AI云第二阶段:

模型的尖刀策略

囤积了大量GPU卡后,云厂商是否立刻展开了AI大战?出乎意料的是,2024年初的第一场云服务较量竟然是围绕游戏《幻兽帕鲁》展开。这款现象级游戏突然爆火,海量玩家集中涌入导致服务器濒临崩溃,阿里云、华为云、腾讯云、京东云等国内厂商迅速响应,纷纷推出专属游戏服务器。

大型游戏云服务比拼的是全球多节点部署、充沛算力、稳定网络以及低价,这与AI似乎关系不大。大模型热潮已席卷一年,但预期的AI云大战似乎迟迟未能进入核心阶段。

云厂商很快意识到,仅靠堆积算力无法通过AI+云计算盈利,还必须将算力转化为企业可开箱即用的服务,即MaaS(模型即服务)。

与年初的云游戏形成鲜明对比的是,2024年底笔者参加某头部云厂商年度沟通会时,其内部人士透露,云部门首次取代政企部门,在集团中优先登台汇报,这主要得益于其亮眼的增长表现,而增长的核心驱动力正是自研大模型这一“尖刀产品”。

MaaS赛道的竞争逻辑,就是将自研大模型锻造成切入业务场景的“尖刀”。

阿里云主打开源策略,通过通义全系列模型与“百炼”平台,实现模型的微调与部署一体化,以生态粘性锁定用户,同时主动发起价格战抢占市场份额。百度智能云则采取文心闭源+模型超市模式,不断升级文心大模型,同时千帆平台支持数十款主流开源模型的一键调用,以开放的开发者生态扩大影响力。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第4张

腾讯云则发力政企服务市场,在2024年全球数字生态大会上披露,其“自研+被集成”战略成效显著,服务客户超过200万家,SaaS合作伙伴收入增幅突破100%。

这一年,火山引擎也正式加入AI云大战,凭借其卓越的工程化能力和推理优化,将模型推理成本降低90%以上,直接推动了AI应用的规模化爆发。

华为云则走出差异化路线。凭借其在政企市场的深厚积累,发布盘古大模型3.0,构建从L0(基础层)到L3(行业层)的四级架构,聚焦政务、金融、制造等垂直场景,以行业专业知识构筑竞争壁垒。

可以看出,这一阶段的竞争关键已从单纯的算力储备,转向模型能力与行业适配能力。

然而,风险也在悄然酝酿:模型能力难以形成显著差距,导致MaaS服务对客户的锁定效应不明显。这一困境并非国内云厂商所独有。

《Big AI: Cloud infrastructure dependence and the industrialisation of artificial intelligence》的作者调研也发现,海外云基础设施同样呈现出高度相似性,AWS、Microsoft Azure与GCP虽提供多样化服务,但核心服务类型与名称高度雷同,这凸显了云基础设施的共性特征。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第5张

(图示:云AI技术堆栈)

注:此图展示了AWS、微软Azure和谷歌云平台中,各类产品与服务之间的结构性互联。线条粗细表示引用频率,反映了不同产品和服务之间联系的紧密程度。

究其原因,AI与云计算的整合离不开一套完整的技术栈、云基础设施工具及服务生态中的核心组件,这个庞大的技术栈必然有大量重合之处。

于是,云厂商的AI大战开始迈入第三阶段,转向AI Infra,着力增强共性基础要素的综合竞争力。

AI云第三阶段:

Infra的生态锁定效应

进入2025年,两大核心变量将AI云竞争推向AI Infra(人工智能基础设施)的战场。

其一是模型层面。2025年春节,DeepSeek横空出世,模型重心从训练规模转向推理效率。即便基于同一款开源模型,不同厂商的推理成本差距也可通过Infra优化能力无限拉大,“同模型不同命”的现象让企业日益重视云基础设施的深度优化能力。

其二是应用层面。Agent智能体应用迎来爆发,这类应用是典型的“Token大户”,AI Infra作为连接算力与应用的关键桥梁,直接决定了智能体的能力差异,导致头部云厂商与中小玩家的差距持续拉大。

此时,AI云已全面进入AI Infra阶段,成为巨头的游戏。头部厂商纷纷加码布局,加速技术架构升级与组织调整。阿里云率先提出基础设施概念,华为云依托昇腾芯片与ModelArts平台打造全栈自主可控底座,百度智能云则提出AI-Native服务架构,构建从芯片研发、集群部署到平台优化的全链路技术闭环,腾讯云也专门成立了AI Infra部门。

为何支撑大模型和Agent应用离不开AI Infra?这背后实则是一笔经济账。

从开源角度看,要增加AI云的使用量和收入,AI Infra具有极强的生态锁定优势。企业一旦将核心业务Agent部署在某家厂商的Infra之上,迁移成本将极高,从而形成稳固的用户粘性。例如,谷歌与Anthropic、Midjourney达成深度合作,亚马逊成为Stability AI、Hugging Face的首选云合作伙伴,均遵循这一逻辑。

从节流角度看,硬件芯片的性能释放效率,完全依赖于Infra层的适配调度能力。特别是在GPU供给受限的背景下,华为昇腾、寒武纪、沐曦等国产集群,更需要深度优化来提升算力利用率,使云厂商的单位Token成本持续下降。AI Infra通过自研芯片摆脱对单一供应商的依赖,将推理成本压低至行业低位,构建可持续的成本优势。

要知道,云计算是一门规模生意,成本决定生死,成本架构的优化能力是最底层的竞争力。而兼具开源与节流功能的AI Infra,自然成为云厂商在AI时代最大的利润池与护城河。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第6张

AI Infra的核心竞争力,体现在各层级技术的全面布局、深度协同与极致优化,这分别对应着技术架构的完整性、技术之间的互通性以及降本增效的实际效果。

从底层来看,国产芯片正为AI Infra奠定坚实基础。华为昇腾性能已接近英伟达,百度昆仑芯片支持万卡集群部署,阿里含光800专攻云端计算优化,这些国产芯片的性能提升,持续强化AI Infra的算力供给能力。

2025年超节点的火热,也是系统级优化的成果体现,通过架构创新实现算力效能倍增。例如,百度天池256/512超节点通过拓扑优化,将卡间互联带宽提升4倍;华为云CloudMatrix 384超节点将384颗昇腾NPU与192颗鲲鹏CPU互联,均填补了国产超节点集群的市场空白。

当然,算力资源只是基础,能否实现规模化调度、稳定推理、低成本运营及生产环境长期适配,才是对云厂商全栈能力的终极考验。百度百舸平台、华为云昇腾与CANN、火山引擎HiAgent体系,均通过全链路优化让算力真正变得好用、易用。

可以说,拥有可持续的AI Infra,云厂商即便打价格战,也比竞争对手的血条更厚、撑得更久。

AI云决战Infra之巅:从GPU囤货到全栈生态锁定 AI云  AI Infra MaaS GPU算力 第7张

阿里云宣布未来三年投入超过3800亿元用于云和AI硬件基础设施建设,腾讯新成立AI Infra部门,头部厂商的持续加码,印证了AI Infra的长期价值。而这一切,最终都回归到AI云的核心逻辑:谁能让AI跑得更稳、更省,谁就能聚集更大的用户规模,建立强者恒强的行业地位。

云起AI之潮,决战Infra之巅,云厂商的AI大战,接下来将进入白热化阶段。

上世纪末的光纤基建狂潮,为后来的Google、Facebook崛起及互联网时代的爆发,筑牢了物理根基。今天,云产业正在复刻这一逻辑。

头部云厂商砸下千亿级资金布局AI基础设施,本质上是在为下一个时代的科技巨头搭建成长底座。AI Infra作为AI时代的水、电、煤,直接决定了未来十几年智能产业的发展格局。战局将如何演进,让我们拭目以待。