当前位置:首页 > 科技资讯 > 正文

英伟达中国市场失速,国产GPU新贵崛起

两年前,“H800禁售令”曾引发中国客户的恐慌性囤货,而如今,英伟达最新财报显示全球营收创下新高,但中国区占比却跌至10%的警戒线。市场情绪已由恐慌转变为冷漠。 当华尔街分析师尖锐追问“特供版芯片在中国市场订单为何不及预期”时,英伟达CEO黄仁勋罕见地陷入沉默。尽管他试图以“复杂的监管环境”作为解释,但人们都能感受到其中的无奈。 如今,为了符合出口管制而性能大幅缩水的特供芯片,在性能上已被国产新兴厂商追平,同时由于供应链成本高企导致价格难以下调。曾经仅凭PPT展示一款显卡就能吸引中国互联网巨头争先恐后投资的辉煌时代,已一去不复返。

性能阉割与性价比之殇

英伟达再次为中国市场量身定制了H20芯片,其策略看似精明:降低芯片峰值性能以满足出口管制,同时保留高速互联带宽和CUDA生态的兼容性。在英伟达看来,这应是解决中国客户“算力饥渴”的唯一良方。 然而,市场用实际行动对这种傲慢给予了回应。为了同时满足美国对“算力密度”和“互联带宽”的限制,H20的性能被大幅削弱,在实际大规模训练集群中,其有效算力甚至不及两年前囤积的H800。 从技术角度分析,AI大模型训练固然依赖高带宽,但推理和微调场景同样需要较高的算力密度。H20为合规而将算力降至H100的20%以下,然而其晶圆面积和封装成本却并未相应减少。 这导致了一个极为荒谬的总拥有成本(TCO)模型:中国客户需购买比过去多三到五倍的显卡,占用更大的机房空间,消耗更多电力,搭建更复杂的网络,却只能达到两年前一张A100卡的算力水平。 对于精打细算的中国互联网巨头和智算中心运营商而言,这笔账无论如何都是亏损的。因此,H20的渠道价格开始松动,从最初预期的1.2万至1.5万美元,一路跌至10万元人民币左右,甚至在部分大额采购中出现了价格低于昇腾910B的倒挂现象。 英伟达似乎陷入了一个死循环:为合规而降低性能,为维持高毛利和应对复杂供应链成本而难以大幅降价,最终导致中低端市场和推理市场被竞争对手抢占。 这种局面的形成并非英伟达技术落后,而是竞争格局已变。摩尔线程便是国产新贵中的典型代表,若不提及国籍,甚至可能被误认为是英伟达在中国的“分支”。摩尔线程极力倡导“全功能GPU”理念。 其GPU不仅支持AI计算,还涵盖3D图形渲染和视频编解码。这一策略精准切入英伟达的核心领域,意图不仅替代A100/H100,还要挑战RTX系列。2024至2025年间,摩尔线程的“夸娥”万卡集群方案逐渐在业内崭露头角。 该方案解决了关键痛点:对于不愿被单一生态锁定、又无法获得满血英伟达产品的中型企业及科研机构,亟需一种架构接近传统GPU且迁移成本较低的替代品。摩尔线程的MUSA架构在设计之初便注重CUDA代码兼容性,显著降低了开发者的迁移难度。 摩尔线程市值已突破3000亿元人民币,以“国产GPU第一股”身份在科创板站稳脚跟。其从受理到过会仅用88天,刷新了科创板最快过会纪录,对于成立仅五年的公司而言,这种闪电上市的速度在A股市场极为罕见。 与此同时,壁仞科技在港交所的上市进程也进入冲刺期,计划募资近50亿港元。翻开其招股书,这些“独角兽”企业的财务报表仍显示巨额亏损,但基石投资者中不乏顶级国资和险资机构。

国产算力从“备胎”走向前台

二级市场的高估值反映了对未来十年的预期。投资者押注的不仅是某家公司的技术,更是相信在中国这个全球最大的半导体消费市场,必将诞生一两家足以与英伟达抗衡的巨头。 从昇腾910C在核心训练集群的大规模部署,到DeepSeek等头部大模型厂商公开支持国产算力,中国芯片厂商已从“备胎”转变为真正的参与者。对于面临盈利压力的云厂商而言,一味依赖英伟达已是对股东的不负责任。 字节跳动、阿里巴巴、腾讯等互联网巨头在2025年的算力采购策略上展现出惊人一致:将有限的英伟达高端显卡集中用于极少数超大模型的预训练,而在占据算力消耗80%以上的推理和微调环节,则大规模引入国产算力。 字节跳动2025年的推荐算法集群中,非英伟达芯片占比首次突破40%。推荐算法作为字节跳动的核心盈利业务,敢于在此关键领域尝试国产芯片,表明其稳定性已通过最严苛的实战检验。 如果说商业逻辑的变化是水面上的波澜,那么制造环节的暗流则更为汹涌。美国商务部今年进一步收紧了对华HBM出口限制,不仅包括顶级的HBM3e,甚至连基础版HBM3也受到严格管控。 这对试图追赶英伟达的国产GPU厂商而言无疑是釜底抽薪。没有HBM,高端GPU便形同废硅。国产厂商开始“看菜吃饭”,既然无法获得顶级HBM,便通过架构创新来弥补不足。 摩尔线程和壁仞科技在2025年推出的新一代产品中,普遍采用更大的片上SRAM缓存和优化的显存压缩算法,以降低对显存带宽的依赖。这种“务实”的设计思路,虽在极限性能上不及英伟达的暴力堆叠,但在实际工程应用中却表现出极高的效率。 通富微电、长电科技等国内封测巨头在国产2.5D封装技术上取得实质性突破。尽管初期良率极低,但依托国内庞大的市场需求进行快速迭代,到2025年第三季度,良率已提升至40%至60%。 尽管与台积电90%以上的成熟良率相比仍有差距,但这已跨越商业化量产的盈亏平衡点。这意味着国产大芯片已从实验室走向数据中心,成为可批量供应的工业产品。

从“可用”到“好用”的跨越

长期以来,英伟达的真正壁垒并非GPU硬件,而是CUDA软件生态。这一庞大、复杂且极其易用的生态曾被视为国产芯片无法跨越的鸿沟,如同毒品般让全球开发者欲罢不能。 过去十年,中国的AI繁荣同样建立在CUDA之上。英伟达曾自信地认为,只要CUDA存在,中国客户便无法摆脱其掌控。然而,当“买不到”成为常态,过度依赖CUDA便成为巨大的经营风险。 对于中国企业而言,若底层算力基座建立在可能随时被切断的CUDA之上,则上层所有应用都将岌岌可危。这种安全意识的觉醒,促使整个行业开始联合构建自主的软件标准。 这道鸿沟被填平的速度超乎预期。以摩尔线程和壁仞科技为代表,它们通过兼容CUDA代码降低了迁移成本。摩尔线程的MUSA架构在2025年开发者大会上展示了惊人的兼容性,数万行代码的迁移时间缩短至小时级。 到2025年,绝大多数算法工程师已无需手写底层CUDA算子。得益于编译器技术的突破,开发者只需关注上层的Python代码,底层适配由编译器自动分发至不同后端,无论是Nvidia GPU、Ascend还是海光DCU。 技术层面的“去CUDA化”正在加速。百度飞桨、阿里通义千问、腾讯混元等大模型均在底层代码层面进行了大量适配。通过编译器优化、算子库重写及自动转换工具,在主流大模型训练和推理任务中,国产芯片与英伟达的差距已缩小至“可接受”范围。 这种“去底层化”趋势大幅降低了国产芯片的迁移门槛。更重要的是,围绕CANN已形成庞大的开发者社区。2025年,GitHub和Gitee上针对昇腾芯片的模型适配代码库数量呈指数级增长。 除了在大模型训练领域的竞争,国产GPU开始渗透渲染、数字孪生、云游戏等边缘市场。摩尔线程的“夸娥”千卡集群在数字人渲染中的应用,证明了GPU的潜力不止于AI。 海光信息2025年财报显示,其DCU产品在通用计算领域的生态兼容性已超过95%。 当软件不再成为瓶颈,硬件的性价比优势便得以凸显。在占据市场90%份额的成熟模型训练和推理场景中,CUDA的“神谕”地位已开始动摇。 然而,我们必须清醒认识到,“碎片化”仍是国产GPU的顽疾。海光有DCU,摩尔线程有MUSA,壁仞有BIRENSUPA……每家都有独立的编程模型。对下游软件开发商而言,适配七八套系统堪称噩梦。 2025年下半年,行业内开始呼吁整合。尽管物理合并尚早,但软件层面的互通标准,如OpenCL的国产化变体,已被提上日程。谁能统一这个破碎的江湖,谁就将成为下一个时代的盟主。 2024年,英伟达在中国市场份额一度超过80%,而到2025年底,这一比例已降至60%左右。这丢失的20%被国产“四小龙”艰难啃下,然而对这些芯片新贵而言,IPO敲钟的那一刻,才是真正残酷淘汰赛的起点。