当前位置:首页 > 科技资讯 > 正文

AI云竞争新纪元:自研芯片与全栈协同定义未来

2025年上半年,中国大模型领域的中标项目数量攀升至1810个,总金额突破64亿元大关。这一数据不仅超越了2024年全年的总和,更意味着巨额资金正加速涌入金融、能源、政务、制造等国民经济核心领域。人工智能已深度融入生产体系,成为驱动产业升级不可或停的关键引擎。

市场需求正在演变,技术标准也日趋严格。今年,浙江政务云在招标中明确提出“7×24小时不间断安全运营服务”要求,招商银行则强调云平台可用性需达到99.999%。客户所追求的,早已不再是简单地租赁几张GPU卡,而是一套可信赖、可持续交付的高性能AI算力系统。

IDC研究显示,2024年中国AI公有云服务市场规模同比增长55.3%,但增长动力已从“训练与推理双轮驱动”转向推理需求的爆发式增长。当AI成为基础生产要素,衡量云服务能力的标准,不再是峰值算力的高低,而是能否确保AI应用在复杂多变的业务环境中稳定、高效地持续运行。

实现这一目标,依赖于两大核心支柱:

一是自研AI芯片的突破,二是芯片与系统软件的深度协同优化能力。

AI云的底层逻辑,早已超越“硬件租赁”模式

许多人仍持有一种误解,认为云厂商只需采购GPU并将其装入服务器机柜,便能对外提供AI算力服务。

这实质上是典型的“租卡思维”,将AI云简单视为硬件租赁业务。然而,产业现实早已超越这种初级模式。仅仅依赖从英伟达等供应商采购GPU,进行简单集成后便贴上“AI云”标签出租,这条道路在当今市场已完全行不通。

首先,成本结构难以持续。一片Blackwell B200芯片售价高达3至4万美元,H100也需约2万美元。在超大规模AI计算集群中,GPU成本占据总投资的近半数。根据英伟达最新财报,云服务商贡献了其数据中心业务收入的50%。这意味着,全球头部云厂商正将巨额的AI算力投资押注于单一供应商。

其次,即便资金充裕也未必能稳定获取供应。在美国出口管制政策影响下,国内厂商采购先进芯片举步维艰;而海外云厂商同样受制于台积电CoWoS先进封装产能的紧张。此前在台积电运动会上,英伟达CEO黄仁勋公开呼吁“没有台积电就没有英伟达!”,这实质上是为争夺稀缺产能发声。更值得关注的是,英伟达自身已直接进军云服务领域——其DGX Cloud Lepton平台可直接向开发者出租GPU算力,商业模式与AWS等云巨头无异。

第三,客户需求已从基础算力升级为高效的AI能力交付。大模型训练绝非“即插即用”的简单任务,而是涉及万卡协同、低延迟互联、高资源利用率的复杂系统工程。若云厂商仅扮演“采购集成商”角色,无法从底层介入芯片架构设计、通信协议优化、编译器调优,那么再庞大的计算集群也仅是“纸面算力”,难以转化为实际业务效能。

为何芯片对云厂商如此至关重要?

因为作为AI云的“心脏”,芯片直接决定了算力供给的质量、效率与终极成本。这也解释了为何全球顶级云服务商纷纷投入自研芯片。通用GPU难以满足AI时代持续演进的算力需求,走向专用化、定制化、垂直整合已成为必然趋势。

云的未来:战略路径分野

AI云竞争新纪元:自研芯片与全栈协同定义未来 AI云计算 自研AI芯片 云厂商战略 AI算力系统 第1张

今年以来,主流云厂商关于未来AI云的发展路径日益清晰。我们可以从其芯片布局切入,审视顶级云厂商迄今的破局之道。

首先看AWS。作为全球云计算市场的领导者(2025年第三季度占据32%份额),AWS的自研芯片布局最为全面,涵盖Graviton(通用计算)、Trainium(训练)、Inferentia(推理)系列。尤其是Graviton处理器,已在去年贡献AWS全球超过一半的新增CPU算力,能效较传统平台提升超过40%,显著降低了单位算力成本。

Trainium芯片的表现同样突出。在今年第三季度的财报会议上,AWS透露其自研AI芯片Trainium2已发展为价值数十亿美元的业务,相较于其他GPU方案具备30%至40%的性价比优势。今年年底Trainium v2液冷版本机柜将上线,2026年Trainium v3计划量产,预示着其AI基础设施正加速迭代。然而挑战在于:技术领先并未完全转化为AI市场的竞争优势。2025年第三季度AWS云业务增速为20%,远低于Azure的40%与谷歌云的34%,AI相关收入占比仅为18%。

当前,AWS采取双线并进的“对冲战略”。其一,遵循传统云厂商路径,抢占高端客户。近日,AWS赢得了与OpenAI价值380亿美元的七年期合作协议,OpenAI由此获得调度数十万颗B200 GPU的能力。尽管OpenAI同时与微软、谷歌、甲骨文签约,走向供应链多元化,但AWS借此实现了对高端AI客户的“破冰式接入”。其二,依托自研芯片构建闭环,绑定核心生态伙伴。AWS试图复制“OpenAI+微软”的成功模式,重注押注Anthropic,但关键差异在于,除了资本投入,亚马逊坚持要求Anthropic将其模型的训练与部署从英伟达GPU迁移至AWS自研芯片平台。亚马逊创始人贝佐斯在内部信中阐释:“双线押注既能分散风险,又能对比优化基础设施效能。”

加之AWS重点推出Bedrock平台,聚合各类大模型。其核心目标并非成为顶尖的模型公司,而是让所有AI应用都构建于其算力底座之上。在笔者看来,AWS的策略颇有“不争模型之虚名,只夺算力之实权”的意味。

再看市场第二的微软云。今年成为微软Azure AI战略的转折点,曾经稳固的“顶尖模型+云平台”黄金组合出现松动。可通过三件标志性事件洞察其走向:第一,OpenAI明确转向多云部署策略。在相继与AWS、谷歌云、甲骨文签署大规模算力协议后,OpenAI CEO山姆・奥特曼公开表示:“必须吸取2023年GPT-4训练延迟的教训,多元化供给能帮助我们抵御单一厂商的产能波动。”这无疑是对微软算力供给能力的公开质疑。第二,微软自研芯片进程不及预期。原计划2025年实现规模交付的Maia v2芯片,已推迟至2026年上半年启动;Maia v3因设计调整延迟量产时间。短期内自研芯片出货量有限,这意味着未来两年内,Azure仍将深度依赖英伟达GPU。第三,表面利好背后的被动现实。实际上,今年微软也与Lambda签署了价值数十亿美元的AI基础设施协议,但协议注明,Lambda将利用微软Azure云平台,部署由英伟达提供的AI硬件基础设施,以支持其大规模模型训练与推理。

可以说,当前微软处境略显尴尬。它掌握着强大的AI应用入口,却缺乏稳固的底层算力根基。过去依赖“紧密绑定OpenAI”,如今却面临“OpenAI不再独家绑定它”的局面。若未来仍无法以有力的自研芯片作为支撑,微软可能从AI生态的定义者逐渐滑落为算力服务的普通竞争者。

谷歌云此前相对低调,但其全栈自研战略一经发力,便令业界瞩目。首先聚焦芯片,今年谷歌发布的自研TPU v7(代号Ironwood)整体性能已十分接近英伟达B200。更为关键的是:谷歌已开始对外销售TPU芯片。这传递出两个潜台词:一是对自身产能充满信心,二是性能已达到商业级标准。今年Anthropic与谷歌云达成合作,未来数年将获得高达100万个TPU芯片的专属使用权,算力容量超过1吉瓦,价值数百亿美元。

如今,谷歌已构建起从底层芯片、编译器、模型架构到终端应用的完整技术闭环:底层有TPU v7芯片;中间层有TensorFlow编译栈;上层有Gemini系列模型;外围则拥有Chrome、Gmail、Maps、YouTube等数十亿用户级应用构成的庞大生态网络。这套自洽且协同进化的技术体系,使谷歌云展现出厚积薄发的强劲势头。

全栈AI能力为谷歌云带来了卓越的业绩表现。今年第三季度,谷歌云部门营收同比增长34%,未履行合同金额同比增长79%至1550亿美元,运营利润率达到23%。管理层透露,今年前三季度签署的10亿美元以上大额订单数量已超过过去两年的总和,充分体现了企业级AI需求的迅猛增长。

谁是云时代的真正强者?

AI云竞争新纪元:自研芯片与全栈协同定义未来 AI云计算 自研AI芯片 云厂商战略 AI算力系统 第2张

IDC发布的最新报告显示,2024年中国AI公有云服务市场规模达195.9亿元,其中百度智能云与阿里云市场份额并列第一。从公布的市场份额图示来看,仅百度与阿里两家厂商便已占据接近整个市场一半的份额。

阿里云依托“倚天+含光+灵骏平台”,构建了“一云多芯”体系,坚持全栈自研技术路线,已在政务、金融等信创关键场景中实现大规模推理应用落地。其战略选择清晰:以全栈技术协同换取极致效率,以自主核心能力换取供应链安全可控。

而百度智能云,正探索一条独具特色的发展路径。在今年的百度世界大会上,百度创始人李彦宏提出AI产业需要“倒金字塔”结构,他指出:“在健康的‘倒金字塔’产业生态中,芯片厂商无论盈利多少,其上的模型层应创造10倍的价值,而基于模型开发的应用层应创造100倍的价值。

此处笔者希望重点剖析百度智能云今年展现的独特性。

我们仍从芯片入手。在百度世界大会2025上,百度发布了新一代自研AI芯片。同时亮相的还有“天池256”“天池512”超节点解决方案,最高支持512张芯片互联,单个512超节点即可完成万亿参数大模型的训练任务。

AI云竞争新纪元:自研芯片与全栈协同定义未来 AI云计算 自研AI芯片 云厂商战略 AI算力系统 第3张

AI云竞争新纪元:自研芯片与全栈协同定义未来 AI云计算 自研AI芯片 云厂商战略 AI算力系统 第4张

百度集团执行副总裁沈抖在现场强调:“发布新款芯片及超节点产品,旨在为企业提供强大且低成本的AI算力。”更为关键的是,沈抖透露:该芯片除了支持绝大多数大模型推理任务外,已基于五千卡单一集群“高性价比地成功训练出一款多模态大模型”。这充分证明,昆仑芯已非实验室样品,而是成长为百度自身AI系统的核心算力底座。

在应用层面,昆仑芯已形成规模化落地体系。今年上半年,基于昆仑芯P800的三万卡集群成功点亮并投入运营。同时,昆仑芯的应用早已超越百度内部,在互联网金融、能源、智能制造、智慧交通、教育等多个行业实现广泛部署。

回顾百度的造芯历程,其布局早有深远规划。早在2011年,百度便启动AI加速器研发项目;2017年发布昆仑芯XPU架构;2018年正式开启AI芯片产品化设计。当多数云厂商仍在争抢GPU供货时,百度已在搜索、推荐等核心业务场景中规模化应用自研芯片。始终以实际业务场景为驱动,以产业应用落地为目标,从而有效规避了脱离市场需求的盲目研发风险。

具体到模型支撑场景,百度智能云AI计算首席科学家王雁鹏介绍,昆仑芯已在海量实践中,成功支撑Qianfan 70B VL、Qianfan 30B-A3B-VL、百度蒸汽机等多个复杂模型的训练与推理,无论面对多模态模型还是MoE(混合专家)架构,均已积累成熟的落地案例。

真正将这些硬件潜力彻底释放的,是百舸AI计算平台5.0。

它不同于传统资源池仅进行任务调度,而是深入底层网络、内存管理、通信协议进行效率重构。例如,其自研HPN网络支持10万卡RDMA高速互联,端到端通信延迟压缩至4微秒;针对MoE模型专门打造X-Link协议,显著提升专家节点间通信效率。最值得称道的是:百舸平台兼容主流CUDA生态。企业无需重写大量代码,即可将现有模型平滑迁移至昆仑芯集群,实测训练效率获得显著提升。

如果说芯片与平台是坚实基础,那么让百度脱颖而出的,是其正在构建的“算力—框架—模型—应用”四层全栈闭环。从昆仑芯自研芯片,到飞桨深度学习框架、文心大模型家族,再到千帆平台及丰富应用生态。

在国内云厂商中,百度是唯一同时具备这四层全栈自研能力的企业。

这一闭环的价值,已在众多客户案例中得到验证:南方电网深圳供电局借助百度智能体技术,实现配电网智能监视、操作票自动审核等核心业务场景的智能化升级。

北京人形机器人创新中心最新发布的具身多模态大模型 Pelican-VL 1.0,采用百舸平台作为底层算力支撑,大幅提升了数据采集与模型训练效率。北京人形机器人创新中心大模型负责人鞠笑竹分享道:“正是得益于百度智能云的技术协同攻坚,我们模型的多项性能指标至今仍优于GPT-5的平均水平。”

正如李彦宏所言:“当AI能力内化为一种原生能力,智能便不再仅是成本项,而是转化为核心生产力。”如今,单纯比拼GPU卡数的时代已然终结,竞争焦点转向底层算力底座的全栈能力。

在中国市场,阿里与百度正以不同路径逼近同一共识:真正的AI云,必须具备从芯片到应用的全栈自主控制力。由此,一个新的产业分野正在形成。未来的AI云市场,或将仅存两类玩家:一类是拥有自研芯片与深度系统协同能力的,另一类则是没有的。但这不仅仅是技术路径的选择,更是一场关于战略定力与长期耐心的较量。