当前位置:首页 > 科技资讯 > 正文

摩尔线程科创板上市:国产GPU的印钞狂欢与技术突围

今日,A股市场掀起了一轮真正的“印钞机式狂欢”。

备受业界期待的“国产GPU第一股”——摩尔线程,正式在科创板挂牌交易。

股价表现极为抢眼,首日开盘涨幅高达468.78%,每股定价650元,公司市值瞬间突破3000亿元大关。

摩尔线程科创板上市:国产GPU的印钞狂欢与技术突围 摩尔线程  GPU芯片 科创板上市 AI算力 第1张

这场资本盛宴中,创始人张建中成为最大赢家,其直接持股市值已达287.56亿元。早期投资机构同样获利丰厚,其中最早入股的沛县乾曜投资回报累计浮盈约5825倍。

回顾2020年12月,和而泰对摩尔线程的3000万元投资,如今估值已飙升至26.68亿元,五年间增值近88倍。

资本狂热追捧的背后,是摩尔线程身上最耀眼的标签——“中国版英伟达”。

这并非空穴来风。公司核心团队堪称“英伟达嫡系”,创始人张建中曾长期担任英伟达全球副总裁兼中国区总经理。

借此热潮,我们深入剖析一下,这家被市场推向神坛的企业,究竟成色如何?

01

五年迭代四代架构,最新产品性能对标国际主流

评估显卡性能,脱离应用场景空谈参数并无意义。

让我们直击核心。AI计算的关键指标主要围绕三点:算力、显存容量与带宽。

显存大小决定了可处理模型的规模,算力体现数据并行处理能力,带宽则影响数据传输效率。

若显存不足,大模型运行将直接中断,如同低配置显卡运行大型游戏般瞬间崩溃。

倘若算力与带宽匮乏,整个计算过程将如同老牛拉车,效率低下,远落后于他人。

铺垫至此,焦点转向摩尔线程。自2020年创立,公司已先后推出“苏堤”、“春晓”、“曲院”、“平湖”四代GPU架构。从第三代“曲院”开始,战略重心明确转向AI计算。最新发布的“平湖”架构GPU及基于其的S5000产品,备受关注。

据公开数据,S5000在FP32精度下的算力为32 TFLOPS。同时,平湖架构GPU最大支持显存容量推测为80GB,故S5000显存可能同为80GB,带宽参数尚未公布。

如何理解这一水平?对比英伟达产品线:A100的FP32算力为19.5 TFLOPS,H20为44 TFLOPS,H100则高达67 TFLOPS。

单就FP32算力而言,S5000已超越A100,并接近H20。尽管与H100存在差距,但此进展足以令人振奋。

然而,切勿过早庆祝。上述FP32数据并不能完全代表S5000的实际AI算力,关键在于精度类型的选择。

AI计算涉及多种数据精度,如FP64、FP32、FP16/BF16、FP8、INT8等。后缀数字表示占用的比特位数,位数越高,精度通常越高,但内存占用更大,计算速度更慢。因此,不同AI任务需匹配最佳精度,例如对误差敏感的科学研究可能需要FP64。

当前AI大模型训练与推理,普遍追求效率与内存节约,混合精度成为主流。FP16、BF16乃至FP8才是核心竞技场。

类比而言,这如同切菜无需手术刀般的极致精度,一把锋利的菜刀(FP8/FP16)反而更高效。

因此,S5000的FP32成绩在AI领域参考价值有限,其FP16或FP8性能才是关键。有测试人士透露,S5000的FP8算力针对DeepSeek-V3/R1等MoE大模型训练“极为匹配”,可视为对标H100的产品。但详细信息仍未公开,实际表现尚待验证。

再看国内同行,竞争同样激烈。华为昇腾910C NPU公布的BF16/FP16总算力达752 TFLOPS,超越英伟达H20与A100,但不及H100的一半,其片上内存与带宽则与H100相近。寒武纪思元590芯片的FP16算力为256 TFLOPS,接近A100水平。沐曦集成虽未公布具体数据,但表示其曦云C500/C550 GPU在FP16/BF16算力上处于A100区间。

需指出的是,行业内部反馈称,国产AI计算卡在实际训练推理环境中的性能,往往低于纸面参数。客观而言,摩尔线程在关键指标上与国际巨头英伟达仍有距离。但重要的是,它正持续向前。这份在国产GPU道路上坚韧前行的精神,值得尊敬。给予时间,挑战者终将迎来突破。

02

智算集群销售贡献核心营收,规模化挑战仍存

尽管常被称作“国产英伟达”,但摩尔线程的商业模式与英伟达存在显著差异。

一个典型体现是,英伟达不直接销售AI智算集群,而摩尔线程的主要收入恰恰来源于集群产品。

今年上半年,摩尔线程共计售出5个智算集群,其中4个集成了512颗S4000 GPU,另一个则集成了2048颗S5000 GPU,这也是其首个S5000集群。数据显示,仅该S5000集群就带来3.97亿元营收,占据上半年总营收过半比例。

招股资料显示,此集群客户为“重大科技创新平台”,推测是国家级实验室。目前,国产AI计算卡市场中,华为占据龙头地位,客户覆盖面广;寒武纪主要客户为字节跳动;而行业信息显示,沐曦集成主攻信创GPU市场。

英伟达不涉足集群销售,根源在于毛利率。其GPU芯片毛利率高达70%,而AI集群因涉及建设与维护,毛利率远低于此。

然而,对于处于追赶阶段的摩尔线程,集群销售并非劣选。相比单卖GPU,销售集群能快速扩大营收规模——一个集群即意味着数百乃至数千颗GPU的批量出货。

更重要的是,集群销售具备技术门槛。随着AI模型规模膨胀,单卡或多卡已无法满足训练需求,推理需求亦爆发式增长,大厂与云服务商不得不构建更大算力集群。

例如,马斯克xAI的孟菲斯超级集群一期集成10万张H100 GPU,亚马逊的Project Rainier则部署了近50万颗自研芯片。

AI计算是速度的极限竞赛。每颗GPU犹如一段高速公路,若路段间未高效联通,车辆需反复出入,效率大减。因此,GPU互联技术成为集群建设的关键。

英伟达凭借其NVLink技术领先行业,它将GPU间的连接也提升至“高速”水准。当前NVLink 5.0互联带宽达1.8TB/s,即将推出的6.0版本将升至3.6TB/s。

摩尔线程在此领域亦投入研发,推出自研MT-Link技术。其最新的MT-Link 3.0互联带宽为1.3TB/s,介于NVLink 4.0(900GB/s)与5.0之间,公司称其已达行业领先水平。但需注意,目前平湖架构及S5000 GPU上应用的仍是MT-Link 2.0技术,片间互联带宽为800GB/s,3.0技术尚未产品化。

除互联技术外,集群规模亦是现实挑战。GPU两两互联存在物理极限,各厂商架构不同,极限各异。例如英伟达Blackwell架构支持72颗GPU互联,谷歌TPU可形成64颗TPU的立方体节点。

摩尔线程的KUAE2集群技术,每个节点集成8颗模块化GPU,节点间通过InfiniBand/RoCE网络互联。该集群最多可支持1280个节点,即10240颗GPU。然而,其已售最大集群仅含2048颗GPU。行业人士指出,5000卡规模是关键技术瓶颈,规模扩大后对电力、散热、系统调控等要求急剧上升。相比英伟达动辄十万卡级别的集群,摩尔线程的集群技术仍需迭代完善。

尽管技术仍在追赶,万卡集群尚有距离,但在国产替代趋势下,能实现千卡级集群销售并创造真实营收,已具里程碑意义。只要有市场需求,这场竞赛就将持续。

03

五年投资回报超五千倍,资本造富神话持续

除了技术故事,摩尔线程上市掀起的另一大话题便是惊人的造富效应。

最直接的受益者是创始团队。公告显示,发行后张建中直接持股9.4127%,按首日股价计算,其持股市值已达287.56亿元(未计间接持股)。

早期机构股东同样收获颇丰。公司成立三个月时,沛县乾曜与深圳明皓率先入股。法律文件显示,沛县乾曜以1元/注册资本价格入股,投前估值仅1000万元,出资190.4762万元获得13.4%股份。同期深圳明皓以35.28元/注册资本价格投资8000万元,获16%股份。

后续,沛县乾曜以253.60元/注册资本转让部分股权,套现约5000万元。发行后,其仍持有1699.87万股(占比3.6165%),开盘市值110.48亿元,累计浮盈超5825倍。深圳明皓通过两次股权转让套现1.77亿元,发行后持股1992.27万股(占比4.2386%),市值129.49亿元,累计浮盈约163倍。

天使轮融资中,红杉资本、闻名泉丰、和而泰、深圳一创、五源启兴等机构参与。该轮投后估值16.46亿元,和而泰投资3000万元。发行后和而泰持股0.8734%,市值26.68亿元,增值近88倍。红杉资本通过多轮投资累计投入约2.12亿元,发行后持股4.0752%,市值124.50亿元,增值约58倍。

也有机构在IPO前退出。字节跳动旗下量子跃动在Pre-A轮投资约5000万元,今年初全部转让,获利2.27亿元,回报3.54倍。

即便在Pre-IPO轮进入的股东,也获得可观收益。该轮投后估值298.45亿元,开盘市值约3055亿元,新股东浮盈超9倍。

显而易见,在国产GPU高速发展的浪潮中,这台造富机器仍未停转。下一篇章,或许刚刚拉开序幕。