当前位置:首页 > 科技资讯 > 正文

国产GPU崛起:应对H200解禁挑战,战略相持中寻求突破

2025年12月17日,沐曦股份在科创板成功上市,首日收盘价高达829.90元,较发行价104.66元飙升725.24%。沐曦专注于高性能GPU芯片研发,产品广泛应用于人工智能计算、通用计算及图形渲染领域。

仅隔一周多,即12月5日,摩尔线程也登陆科创板,成为“国产GPU第一股”,募资额居2025年科创板之首,从受理到过会仅用88天,发行价定为114.28元/股,上市首日涨幅惊人,达到425.46%。

国产GPU厂商的密集上市并备受市场追捧,是对“狼又回来了”的积极回应。据媒体报道,美国总统特朗普于2025年12月8日在社交媒体宣布:美国将允许英伟达向中国“经批准的客户”出口H200人工智能芯片,但需将销售收入的25%上缴美国政府。

美国智库进步研究所的报告显示,尽管H200的性能几乎是H20的六倍,但与最新的Blackwell芯片相比仍存在代际差距——这恰好处于“能用但不先进”的甜蜜点。因此,美国解禁H200其实是其“温水煮青蛙”策略的延续,试图通过“倾销”性能相对落后但仍具竞争力的H200芯片,延缓中国国产替代的进程。

更有趣的是,英伟达CEO黄仁勋曾坦言,增加对华芯片销售额既能让中国企业依赖其技术,又能为公司带来更多研发资金。这种“以战养战”的思路,与美国鹰派的“技术依赖论”不谋而合。

然而,这场“温水煮青蛙”的意图能否得逞,还要看中国是否接受挑战。从加快国产GPU厂商上市来看,中国显然不会坐以待毙。

01 没有H200的日子

从2022年至2025年,美国对华半导体出口管制政策不断加码。2025年4月,美国进一步收紧管制,导致英伟达为中国市场定制的特供版H20芯片被迫停售,公司因此承受了约45亿美元的库存损失及80亿美元的潜在收入损失。黄仁勋在2025年10月公开表示,受出口管制影响,英伟达在中国的市场份额从95%骤降至0%,公司“100%离开了中国市场”。

这三年被业界称为中国AI芯片产业的“至暗时刻”,但也正是这三年,催生了国产芯片的加速崛起。面对外部封锁,国产GPU厂商采取了“三管齐下”的突围策略:

在单卡性能暂时无法与英伟达匹敌的情况下,国产厂商通过增加芯片数量、堆叠晶体管等方式来弥补性能差距。华为昇腾910C采用双Die设计,FP16算力达到800 TFLOPS,性能逼近英伟达H100的80%;寒武纪思元590综合性能达到英伟达A100的70-80%;海光信息深算二号FP16算力达1024 TFLOPS,接近A100的90%。

由于能效比较差,国产卡普遍采用“电力+工程能力”硬顶的方式解决功耗问题。摩尔线程的“平湖”架构支持单芯片最高1000W TDP动态功耗管理,通过液冷等工程手段确保稳定运行。虽然每瓦性能仍落后英伟达约30%,但国产卡低功耗版已经正流片。

简而言之,在这段时期,国产卡往往采用更密集的液冷、堆叠更多服务器机架,试图以更强的工程能力来弥补落后的能效。

最后是“生态兼容+编译层hack”。面对英伟达CUDA生态的垄断地位,国产厂商采取了兼容策略。海光DCU通过ROCm生态实现对CUDA的“软兼容”,实测迁移效率可达85%。华为CANN架构采用“指令翻译+动态调度”技术,实现对CUDA API的80%覆盖。

这里的“兼容 CUDA”,从技术上来说,相当于做了一层翻译器,让国内 GPU 能跑英伟达的指令语言。但问题也显而易见:永远慢半拍——因为对方不断更新语言,你永远要追新词。

在H200被挡在外面的三年里,国产GPU技术路线呈现出非常鲜明的“中国式风格”——在工艺受限的情况下,通过“架构取巧、集群堆叠、算子融合、软件兼容”这些工程学上的努力,硬生生把落后的硬件打磨到可用、能上规模、适配大模型训练的程度。

这套路线不是工程上的最优解,但在封锁环境下,是现实可行的最优解。

02 差距到底在哪?

要评估国产GPU与英伟达H200的技术差距,需要用统一的标准进行量化对比。根据美国商务部工业与安全局(BIS)定义的“总处理性能”(TPP)指标,可以对主流AI芯片进行横向比较。

根据伯恩斯坦研究发布的报告,各芯片TPP性能对比如下:

- 英伟达H200:60,000 TPP(基于Hopper架构)

- 英伟达H20:15,832 TPP(特供版)

- 华为昇腾910C:36,912 TPP(性能约为H200的61.5%)

- 寒武纪思元590:29,360 TPP(性能约为H200的49%)

- 海光BW1000/DCU3:14,688 TPP(性能约为H200的24.5%)

- 摩尔线程S4000:约20,000 TPP(性能约为H200的33%)

从公开数据可以看出,国产顶级芯片在单卡性能上仍落后H200约1.6-2倍,但已经超越了H20。然而,在训练能力方面,国产卡单卡仍落后2-3倍。但幸运的是,集群层面可通过“堆卡+高速互联”弥补部分差距。

推理能力方面,国产Top卡已持平甚至超越阉割版H20。华为昇腾910B2的INT8算力达到762 TOPS;寒武纪思元590在推理场景中也表现优异;沐曦曦云C550的显存带宽达到1600-1800GB/s。此外,成本和功耗方面也是国产芯片的优势所在。

未来的较量

从技术演进来看英伟达发布的Blackwell Ultra系列仍延续“堆料涨性能”的路线。而国产芯片没有直接硬碰硬而是采用“架构取巧+多芯片封装+集群堆叠”的迂回战术。

这些技术创新使得国产芯片在特定场景下能够实现与英伟达相媲美的性能表现。

国产GPU崛起:应对H200解禁挑战,战略相持中寻求突破 国产GPU H200 技术差距 战略相持 第1张 国产GPU崛起:应对H200解禁挑战,战略相持中寻求突破 国产GPU H200 技术差距 战略相持 第2张 国产GPU崛起:应对H200解禁挑战,战略相持中寻求突破 国产GPU H200 技术差距 战略相持 第3张