当前位置:首页 > 科技资讯 > 正文

摩尔线程登陆科创板:国产GPU第一股引爆资本盛宴,挑战英伟达还有多远?

今日,A股市场迎来了一场真正的资本“印钞狂欢”。

备受瞩目的“国产GPU第一股”——摩尔线程,终于正式登陆科创板。

其股价表现令人咋舌,首日一度高开468.78%,开盘价达每股650元,市值瞬间冲破3000亿元大关。

摩尔线程登陆科创板:国产GPU第一股引爆资本盛宴,挑战英伟达还有多远? 摩尔线程 科创板 GPU 英伟达 第1张

在这场狂欢中,创始人张建中无疑是最大赢家,其直接持股市值高达287.56亿元。早期投资人也收获颇丰,其中最早入局的沛县乾曜累计浮盈高达5825倍。

例如,2020年12月,和而泰向摩尔线程投资3000万元,如今这部分股权价值已飙升至26.68亿元,五年间涨幅近88倍。

资本为何如此疯狂?答案或许就在于摩尔线程头顶那个全市场最炙手可热的标签—— “中国版英伟达”。

这绝非虚名。摩尔线程的核心团队堪称“英伟达嫡系”,创始人张建中曾长期担任英伟达全球副总裁、中国区总经理。

借助这股热潮,今天我们就来深入剖析,这家被资本捧上神坛的公司,究竟成色几何?

01

5年四代GPU,最新性能逼近英伟达H20

谈论显卡,如果脱离应用场景只谈参数,无异于纸上谈兵。

我们不妨把话挑明。

在AI计算领域,核心衡量指标主要有三个:算力、显存、带宽。

显存决定了模型规模的上限,算力代表并行处理数据的能力,带宽则关乎数据传输的速度。

显存不足,大模型便无从谈起,如同小显卡无法运行3A大作,毫无商量余地。

算力或带宽不够,则意味着效率低下,别人早已跑完,你还在等待加载。

好,铺垫至此,让我们聚焦摩尔线程。

自2020年创立以来,摩尔线程已先后推出“苏堤”、“春晓”、“曲院”、“平湖”四代GPU架构,从第三代“曲院”开始重心转向AI计算,最新一代“平湖”GPU于2024年发布,基于该架构的S5000是其最新产品。

从数据看,S5000在FP32精度下的算力达到32 TFLOPS。同时,“平湖”架构GPU最大显存容量据推测为80GB,S5000显存容量或为80GB,带宽尚未公开。

这组数据意味着什么?不妨对比英伟达的GPU:A100的FP32算力为19.5 TFLOPS,H20为44 TFLOPS,H100则高达67 TFLOPS。

单看FP32指标,S5000已超越A100,甚至接近H20的水平。尽管与H100这样的“性能怪兽”仍有差距,但这样的进步已足够令人振奋。

且慢,先别急于开香槟庆祝。

上述参数并不能完全代表S5000的实际AI算力,原因在于这个“FP32”上。

AI计算中,需要用到不同精度的数据类型,FP32仅是其中之一,此外还有FP64、FP16/BF16、FP8、FP4、INT8等多种常见格式。

字母后的数字表示数据在存储中占用的字节,数字越大,精度越高。FP32可表示小数点后约7位,FP16约3位,INT8则只能表示-128到127之间的整数。

相应地,数据位数越大,内存占用越高,计算速度越慢。因此,不同AI任务需选择最合适的数据类型,如医学、军事、科学等对误差敏感的场景,就需要FP64这样的高精度数据。

而当今的AI大模型,并非用于火箭轨道计算,因此对精度的要求并不极端。

业界为了提高速度和节省内存,普遍采用混合精度训练。FP16、BF16,乃至FP8(8位浮点)已成为AI训练和推理的“主战场”。

打个比方,切菜时无需动用眼科手术刀,用菜刀(FP8/FP16)反而更高效。

因此,S5000亮眼的FP32数据在AI领域的参考价值需要打个折扣,关键要看其在FP16或FP8下的实际表现。

关于这一点,有媒体曾援引参与S5000测试的人士透露,S5000是国内真正对标H100的产品,其FP8计算能力对于DeepSeek-V3/R1这类MoE大模型训练堪称“绝配”。

但由于相关信息有限,摩尔线程S5000的真实性能仍有待进一步验证。

再看国内其他竞争对手,同样竞争激烈,你追我赶。

华为昇腾910C NPU公布的BF16/FP16总算力达752 TFLOPS,超越英伟达H20和A100,但不及H100的一半,其片上内存(类似显存)和带宽与H100基本持平。

寒武纪目前在售的思元590芯片,FP16算力为256 TFLOPS,接近A100水平。沐曦集成尚未公布具体数据,仅表示其曦云C500和C550两款GPU在FP16/BF16指标上,处于英伟达A100的算力区间。

不过,也有行业内部人士指出,在实际训练推理环境中,摩尔线程等国产AI计算卡的纸面参数往往需要打一定折扣。

必须承认,单从指标来看,摩尔线程距离英伟达仍有很长的路要走。

但这并不重要,重要的是它仍在奋力前行。在他们身上,我们看到了国产GPU死磕到底的韧劲。只要还在前进,这件事就充满希望。给予耐心,挑战者永远值得尊重。

02

单个S5000集群,贡献过半营收

尽管摩尔线程被冠以“国产英伟达”的称号,但翻开财报会发现,两者的盈利模式实则大相径庭。

一个典型的差异在于,英伟达并不直接销售AI智算集群,而摩尔线程的主要营收却恰恰来自集群产品。

今年上半年,摩尔线程共售出5个智算集群,其中4个集成了512个S4000 GPU,另一个则是集成2048个S5000 GPU的集群,这也是摩尔线程卖出的首个S5000集群。资料显示,仅这一个S5000集群,就为摩尔线程贡献了3.97亿元营收,占上半年总营收的一半以上。

据招股资料披露,这个S5000集群的客户为“重大科技创新平台”,大概率是国家实验室。值得一提的是,目前国产AI计算卡市场中,华为占据绝对龙头地位,客户群体广泛;寒武纪主要客户为字节跳动;据业内人士透露,沐曦集成则主要面向信创GPU市场。

英伟达之所以不销售AI智算集群,原因在于这项业务的毛利率远低于单纯卖芯片。

目前,英伟达销售GPU的毛利率高达70%,而AI集群的毛利率则低得多,因为AI智算集群的建设和维护需要巨额投入。

尽管毛利率较低,但对于仍处于追赶阶段的摩尔线程而言,这未必是一个坏选择。

相比单独销售GPU,卖集群更容易做大营收规模。集群本质上是将大量GPU连接在一起,协同执行AI任务,销售一个集群相当于一次性卖出数百甚至上千颗GPU。

更关键的是,卖集群这件事并非谁都能轻易做到。

现阶段AI模型规模不断扩大,单卡或多卡组合已难以满足训练需求,同时消费端推理需求激增,AI大厂和云服务商纷纷建设更大规模的算力集群以应对行业需求。

例如,马斯克的xAI孟菲斯超级集群一期就集成了10万张H100 GPU,亚马逊的Project Rainier更是集成了近50万颗自研芯片。

AI计算是一场对速度的极致追求,每块GPU好比一段高速公路,但这些路段并未直接相连,每行驶一段就需要下高速再重新上另一段高速。

于是,随着GPU数量增加,便带来了新的挑战:如何将这些GPU更高效地连接起来?

这就引出了建设AI算力集群的关键技术——GPU互联技术。

英伟达之所以强大,很大程度上得益于其早年开发的NVLink技术,相当于将每段高速的连接路段也修成高速,相邻的多张GPU可以两两互通,大幅提升计算速度。目前应用的NVLink5.0技术卡间互联带宽高达1.8TB/s,即将推出的6.0技术将升级至3.6TB/s。

在卡间互联方面,摩尔线程也推出了自研的MT-Link技术,目前最新的MT-Link3.0互联带宽达1.3TB/s,介于NVLink4.0(带宽900GB/s)和5.0之间。招股资料中,摩尔线程表示MT-Link3.0已达到行业领先水平。

不过,公司也坦言,目前摩尔线程最新的“平湖”GPU架构和S5000 GPU上,使用的仍是MT-Link2.0技术,片间互联带宽为800GB/s。也就是说,新研发的3.0技术尚未应用于现有产品。

虽然摩尔线程在GPU互联技术上取得了一定进展,但其AI集群仍面临另一个现实挑战——规模。

通常,两两互联的卡数量存在较难突破的物理极限。由于各家厂商采用的互联结构不同,这个极限也不尽相同。例如,英伟达最新的Blackwell架构支持72个GPU互联,谷歌TPU在卡间互联上最多形成4X4X4(即64个TPU)的小立方体,这样的互联极限一般称为节点。

摩尔线程现有的KUAE2集群技术,每个节点集成8颗模块化GPU,节点之间采用InfiniBand/RoCE网络方案进行互联,这两种都是行业主流网络互联方案。KUAE2集群最多可包含1280个节点,最大可支持10240个GPU。

不过,摩尔线程迄今为止卖出的最大集群仅包含2048张卡。据行业人士透露,在AI计算卡集群中,5000卡是一个关键瓶颈,因为集群规模扩大后,对电源、电力、散热以及系统调控等诸多方面都是极大的考验。因此,相比于动辄10万卡、20万卡互联的英伟达,摩尔线程的KUAE集群技术仍需进一步完善和迭代。

虽然技术上仍在追赶,距离万卡集群还有差距,但在国产替代的大潮下,能够将千卡级别的集群成功售出,并真金白银地实现盈利,这本身已是一项了不起的成就。

只要市场买单,这把火就能继续燃烧下去。

03

5年5825倍的造富神话

除了国产GPU追赶英伟达的励志故事,摩尔线程上市的另一大看点便是其惊人的造富能力。

最直接的体现是创始团队。公告显示,发行后张建中直接持股9.4127%,按上市首日价格计算,即便不计间接持股,张建中的持股市值也高达287.56亿元。

最早入局的机构股东同样赚得盆满钵满。

摩尔线程成立仅三个月,深圳明皓、沛县乾曜便迅速入场。据摩尔线程公布的法律意见书,沛县乾曜以1元的价格入股,投前估值仅1000万元,沛县乾曜以190.4762万元入股,获得13.4%股份。同期入股的深圳明皓以35.28元的价格入股,投入8000万元,获得16%股份。

此后,沛县乾曜以253.60元的价格转让了近20万元的注册资本,套现约5000万元。此次发行后,沛县乾曜仍持有1699.87万股,占总股本的3.6165%,以开盘价计算市值为110.48亿元,由此计算沛县乾曜累计浮盈超过5825倍。

深圳明皓先后在2021年10月和今年初分别套现2000万元和1.57亿元,发行后持有1992.27万股,持股比例为4.2386%,开盘市值为129.49亿元,累计浮盈达163倍。

在随后的天使轮融资中,摩尔线程引入了红杉资本、闻名泉丰、和而泰、深圳一创、五源启兴五家机构。资料显示,此轮融资投后估值为16.46亿元,和而泰投入3000万元。此次发行后和而泰持股比例为0.8734%,以开盘价计算持股市值26.68亿元,增值近88倍。

红杉资本曾多次追投,在天使轮、Pre-A轮和B轮合计投入约2.12亿元,发行后持股1915.44万股,持股比例为4.0752%,持股市值124.50亿元,增值近58倍。

不过,也有在IPO前提前离场的机构。字节跳动旗下量子跃动在Pre-A轮向摩尔线程投入约5000万元,今年初将其全部股份转让,获利2.27亿元,收益达3.54倍。

即便是在Pre-IPO轮新进入的股东,也获得了可观收益。摩尔线程Pre-IPO轮投后估值为298.45亿元,开盘市值约3055亿元,新股东浮盈9倍以上。

显然,在国产GPU飞速发展的大背景下,这台造富机器远未停止转动。下一段故事,或许才刚刚拉开序幕。