当前位置：首页 > 科技资讯 > 正文

英伟达中国市场失速，国产GPU新贵崛起

主机测评网
科技资讯
2026-03-11
389

两年前，“H800禁售令”曾引发中国客户的恐慌性囤货，而如今，英伟达最新财报显示全球营收创下新高，但中国区占比却跌至10%的警戒线。市场情绪已由恐慌转变为冷漠。当华尔街分析师尖锐追问“特供版芯片在中国市场订单为何不及预期”时，英伟达CEO黄仁勋罕见地陷入沉默。尽管他试图以“复杂的监管环境”作为解释，但人们都能感受到其中的无奈。如今，为了符合出口管制而性能大幅缩水的特供芯片，在性能上已被国产新兴厂商追平，同时由于供应链成本高企导致价格难以下调。曾经仅凭PPT展示一款显卡就能吸引中国互联网巨头争先恐后投资的辉煌时代，已一去不复返。

性能阉割与性价比之殇

英伟达再次为中国市场量身定制了H20芯片，其策略看似精明：降低芯片峰值性能以满足出口管制，同时保留高速互联带宽和CUDA生态的兼容性。在英伟达看来，这应是解决中国客户“算力饥渴”的唯一良方。然而，市场用实际行动对这种傲慢给予了回应。为了同时满足美国对“算力密度”和“互联带宽”的限制，H20的性能被大幅削弱，在实际大规模训练集群中，其有效算力甚至不及两年前囤积的H800。从技术角度分析，AI大模型训练固然依赖高带宽，但推理和微调场景同样需要较高的算力密度。H20为合规而将算力降至H100的20%以下，然而其晶圆面积和封装成本却并未相应减少。这导致了一个极为荒谬的总拥有成本（TCO）模型：中国客户需购买比过去多三到五倍的显卡，占用更大的机房空间，消耗更多电力，搭建更复杂的网络，却只能达到两年前一张A100卡的算力水平。对于精打细算的中国互联网巨头和智算中心运营商而言，这笔账无论如何都是亏损的。因此，H20的渠道价格开始松动，从最初预期的1.2万至1.5万美元，一路跌至10万元人民币左右，甚至在部分大额采购中出现了价格低于昇腾910B的倒挂现象。英伟达似乎陷入了一个死循环：为合规而降低性能，为维持高毛利和应对复杂供应链成本而难以大幅降价，最终导致中低端市场和推理市场被竞争对手抢占。这种局面的形成并非英伟达技术落后，而是竞争格局已变。摩尔线程便是国产新贵中的典型代表，若不提及国籍，甚至可能被误认为是英伟达在中国的“分支”。摩尔线程极力倡导“全功能GPU”理念。其GPU不仅支持AI计算，还涵盖3D图形渲染和视频编解码。这一策略精准切入英伟达的核心领域，意图不仅替代A100/H100，还要挑战RTX系列。2024至2025年间，摩尔线程的“夸娥”万卡集群方案逐渐在业内崭露头角。该方案解决了关键痛点：对于不愿被单一生态锁定、又无法获得满血英伟达产品的中型企业及科研机构，亟需一种架构接近传统GPU且迁移成本较低的替代品。摩尔线程的MUSA架构在设计之初便注重CUDA代码兼容性，显著降低了开发者的迁移难度。摩尔线程市值已突破3000亿元人民币，以“国产GPU第一股”身份在科创板站稳脚跟。其从受理到过会仅用88天，刷新了科创板最快过会纪录，对于成立仅五年的公司而言，这种闪电上市的速度在A股市场极为罕见。与此同时，壁仞科技在港交所的上市进程也进入冲刺期，计划募资近50亿港元。翻开其招股书，这些“独角兽”企业的财务报表仍显示巨额亏损，但基石投资者中不乏顶级国资和险资机构。

国产算力从“备胎”走向前台

二级市场的高估值反映了对未来十年的预期。投资者押注的不仅是某家公司的技术，更是相信在中国这个全球最大的半导体消费市场，必将诞生一两家足以与英伟达抗衡的巨头。从昇腾910C在核心训练集群的大规模部署，到DeepSeek等头部大模型厂商公开支持国产算力，中国芯片厂商已从“备胎”转变为真正的参与者。对于面临盈利压力的云厂商而言，一味依赖英伟达已是对股东的不负责任。字节跳动、阿里巴巴、腾讯等互联网巨头在2025年的算力采购策略上展现出惊人一致：将有限的英伟达高端显卡集中用于极少数超大模型的预训练，而在占据算力消耗80%以上的推理和微调环节，则大规模引入国产算力。字节跳动2025年的推荐算法集群中，非英伟达芯片占比首次突破40%。推荐算法作为字节跳动的核心盈利业务，敢于在此关键领域尝试国产芯片，表明其稳定性已通过最严苛的实战检验。如果说商业逻辑的变化是水面上的波澜，那么制造环节的暗流则更为汹涌。美国商务部今年进一步收紧了对华HBM出口限制，不仅包括顶级的HBM3e，甚至连基础版HBM3也受到严格管控。这对试图追赶英伟达的国产GPU厂商而言无疑是釜底抽薪。没有HBM，高端GPU便形同废硅。国产厂商开始“看菜吃饭”，既然无法获得顶级HBM，便通过架构创新来弥补不足。摩尔线程和壁仞科技在2025年推出的新一代产品中，普遍采用更大的片上SRAM缓存和优化的显存压缩算法，以降低对显存带宽的依赖。这种“务实”的设计思路，虽在极限性能上不及英伟达的暴力堆叠，但在实际工程应用中却表现出极高的效率。通富微电、长电科技等国内封测巨头在国产2.5D封装技术上取得实质性突破。尽管初期良率极低，但依托国内庞大的市场需求进行快速迭代，到2025年第三季度，良率已提升至40%至60%。尽管与台积电90%以上的成熟良率相比仍有差距，但这已跨越商业化量产的盈亏平衡点。这意味着国产大芯片已从实验室走向数据中心，成为可批量供应的工业产品。

从“可用”到“好用”的跨越

长期以来，英伟达的真正壁垒并非GPU硬件，而是CUDA软件生态。这一庞大、复杂且极其易用的生态曾被视为国产芯片无法跨越的鸿沟，如同毒品般让全球开发者欲罢不能。过去十年，中国的AI繁荣同样建立在CUDA之上。英伟达曾自信地认为，只要CUDA存在，中国客户便无法摆脱其掌控。然而，当“买不到”成为常态，过度依赖CUDA便成为巨大的经营风险。对于中国企业而言，若底层算力基座建立在可能随时被切断的CUDA之上，则上层所有应用都将岌岌可危。这种安全意识的觉醒，促使整个行业开始联合构建自主的软件标准。这道鸿沟被填平的速度超乎预期。以摩尔线程和壁仞科技为代表，它们通过兼容CUDA代码降低了迁移成本。摩尔线程的MUSA架构在2025年开发者大会上展示了惊人的兼容性，数万行代码的迁移时间缩短至小时级。到2025年，绝大多数算法工程师已无需手写底层CUDA算子。得益于编译器技术的突破，开发者只需关注上层的Python代码，底层适配由编译器自动分发至不同后端，无论是Nvidia GPU、Ascend还是海光DCU。技术层面的“去CUDA化”正在加速。百度飞桨、阿里通义千问、腾讯混元等大模型均在底层代码层面进行了大量适配。通过编译器优化、算子库重写及自动转换工具，在主流大模型训练和推理任务中，国产芯片与英伟达的差距已缩小至“可接受”范围。这种“去底层化”趋势大幅降低了国产芯片的迁移门槛。更重要的是，围绕CANN已形成庞大的开发者社区。2025年，GitHub和Gitee上针对昇腾芯片的模型适配代码库数量呈指数级增长。除了在大模型训练领域的竞争，国产GPU开始渗透渲染、数字孪生、云游戏等边缘市场。摩尔线程的“夸娥”千卡集群在数字人渲染中的应用，证明了GPU的潜力不止于AI。海光信息2025年财报显示，其DCU产品在通用计算领域的生态兼容性已超过95%。当软件不再成为瓶颈，硬件的性价比优势便得以凸显。在占据市场90%份额的成熟模型训练和推理场景中，CUDA的“神谕”地位已开始动摇。然而，我们必须清醒认识到，“碎片化”仍是国产GPU的顽疾。海光有DCU，摩尔线程有MUSA，壁仞有BIRENSUPA……每家都有独立的编程模型。对下游软件开发商而言，适配七八套系统堪称噩梦。 2025年下半年，行业内开始呼吁整合。尽管物理合并尚早，但软件层面的互通标准，如OpenCL的国产化变体，已被提上日程。谁能统一这个破碎的江湖，谁就将成为下一个时代的盟主。 2024年，英伟达在中国市场份额一度超过80%，而到2025年底，这一比例已降至60%左右。这丢失的20%被国产“四小龙”艰难啃下，然而对这些芯片新贵而言，IPO敲钟的那一刻，才是真正残酷淘汰赛的起点。