
在当今科技领域,英伟达无疑成为焦点,其核心竞争优势通常被归结为CUDA和NVLink两大技术壁垒。然而,审视最新季度财报,一项耗资约70亿美元的收购案,可能正是缔造这家市值4万亿美元芯片巨头的关键转折点。
随着第二季度财报的公布,外界目光大多聚焦于英伟达的收入是否足以匹配其市值的飞速膨胀。但深入挖掘便会发现,网络业务板块正悄然成为亮点。业内分析指出,该部门有望成为推动公司迈向4万亿美元市值的潜在动力源。
数据显示,标记为“网络”的业务对英伟达总收入的贡献可能远超表面上的16.1%。该业务收入环比猛增46%,同比接近翻倍,仅第二季度就创下72.5亿美元的纪录。这意味着,单上一季度,通过收购Mellanox建立的研发中心所带来的收入,就已覆盖当年的收购成本。目前,该部门年化运营额预计达250亿至300亿美元,对于一个曾被视为GPU辅助角色的业务而言,这一数字堪称非凡。
达成这一里程碑的背后,英伟达当年斥资69亿美元收购的Mellanox公司功不可没。
近年来,挑战英伟达的尝试不仅限于计算领域,软件和网络层面也常被提及。例如,近期形成的UAlink联盟,便是旨在突破英伟达技术壁垒的组织。其背景在于,单一芯片或机架已难以满足爆炸式增长的AI算力需求,纵向扩展(Scale Up)与横向扩展(Scale Out)变得至关重要。
英伟达指出,受限于能源供应和芯片密度等物理约束,数据中心正接近单设施的性能极限。全新平台Spectrum-XGS解决了长延迟等障碍,这些障碍以往阻碍了独立设施作为统一系统协同运作。
英伟达首席执行官黄仁勋在财报电话会议中强调:“我们拥有Spectrum-XGS,它具备千兆级规模,能将多个数据中心、多个AI工厂连接成一个超级工厂,一个庞大的集成系统。这正是我们在网络领域投入巨大的原因。Spectrum-X业务虽然仅推出约1.5年,但已形成可观规模,无疑是一次成功的本垒打。”
更早之前,英伟达通过收购Mellanox加强的以色列团队实现了一项技术突破,使得地理上分散的数据中心能够像位于同一地点般协同运行,从而有效构建大规模“人工智能工厂”,并显著提升行业可用的最大计算能力。
公司声明表示:“凭借先进的自动调优距离拥塞控制、精准延迟管理和端到端遥测技术,Spectrum-XGS以太网几乎将NVIDIA集体通信库(CCL)的性能提升一倍,加速了多GPU和多节点通信,从而为地理分布的AI集群提供可预测的性能。因此,多个数据中心可以像一个AI超级工厂般运作,并针对远距离连接进行全面优化。”
正如黄仁勋所言:“这正是英伟达在5.5年前收购Mellanox的初衷。”
Mellanox由Eyal Waldman于1999年创立,是InfiniBand互连技术的先驱。被收购时,该技术及其高速以太网产品已应用于全球过半顶级超级计算机和众多领先超大规模数据中心。
Mellanox于2007年上市,2018年首次突破年销售额10亿美元大关。2018年,公司GAAP净收入达1.343亿美元,创历史新高。在被收购前的13年中,有10年实现盈利,且自2005年以来始终保持正向自由现金流。
Mellanox与英伟达之间早有深厚的合作与联合创新历史。英伟达于2016年在以色列设立设计中心,2018年又开设人工智能研究中心。公司曾承诺“将持续投资以色列本地人才,这里全球最重要的技术枢纽之一”。
Eyal Waldman在一次播客中表示:“我相信,处理器(大脑)与网络连接之间的协同效应,将英伟达从一家市值930亿美元的公司,推动成为如今市值4万亿美元的巨头。”他进一步指出,若没有Mellanox的InfiniBand,就不会有ChatGPT的诞生:“OpenAI一直采购我们的尖端产品。缺乏这种高速连接,他们无法达到AI所需的数据处理速度。”他强调,“这是行业历史上最重要的并购案例之一。”
英伟达网络高级副总裁Gilad Shainer回忆道,Mellanox当时构建的并非单一网络组件,而是端到端的完整基础设施,专注于InfiniBand技术。它包括网卡、交换机、连接线缆及上层软件,形成一个完整平台。
“这是一套专为分布式计算应用设计的完整基础设施。因此,它在高性能计算(HPC)和科学计算领域得到广泛应用。所有大规模集群模拟都采用InfiniBand,因为它专为分解式计算设计,具有极低延迟。InfiniBand确保所有节点获得高效带宽,而抖动是众人希望最小化的因素。”Gilad Shainer补充道。
他提到,对HPC而言,这是一项卓越技术;当AI兴起时,它又成为分布式计算的另一案例。AI工作负载与科学计算工作负载存在差异:后者可能对延迟更敏感,而AI训练初期对延迟的敏感度相对较低。“纳秒级延迟对训练并非最关键,但仍需高有效带宽。”他指出,如今推理成为AI的核心要素,而推理依赖低延迟。因此,AI与HPC本质上需求趋同,这正是基础设施重要性提升之处。
Gilad Shainer表示,对比HPC与AI,一个有趣现象是:在HPC中,计算能力代际提升,但数据中心规模基本保持稳定,通常为几千个节点。而在AI领域,需求更高:不仅是每服务器计算能力提升,每个新GPU的计算能力也在飞跃,基础设施规模大幅扩张。
几年前,人们讨论的是1.6万或3万个GPU集群。如今,1.6万个GPU的方案已显过时。大型基础设施常包含数十万个GPU,当前规模已达20万个,云服务商更探讨未来百万级GPU的部署。这不仅是计算问题,更是基础设施规模挑战。实现这种规模需要可扩展的网络和基础设施。数据中心已成为衡量计算能力的新标准——它不再仅仅是机箱,而是完整的计算单元。
“数据中心即网络。网络定义了GPU如何作为整体计算元素工作,否则它只是GPU服务器集群。这正是英伟达收购Mellanox的原因,也是基础设施日益重要的体现。”Gilad Shainer强调。
有鉴于此,英伟达正以每年推出新数据中心的节奏推进:每年更新GPU、计算引擎、交换机及基础设施。每年都有新数据中心投入运营,为AI应用提供更强大支持,无论是训练还是海量推理。这些新系统正全球范围内催生大量AI框架与应用。
如业界所言,现代基础设施由数据中心所需的多个域构成。除了横向扩展(连接服务器),还需纵向扩展GPU,即组合多个GPU形成更大的虚拟GPU。为实现这一点,需在GPU间提供巨大带宽,使其表现为统一整体,这正是NVLink发挥作用之处。该功能属于系统网络的纵向扩展领域。
NVLink需支持海量带宽——约为横向扩展的9至10倍,并保持超低延迟。Mellanox团队将可扩展分层聚合和缩减协议(SHARP)引入NVLink,从而实现缩减操作,使整个机架成为一个单元,并尝试在机架内部署更多GPU。
未来,英伟达计划在一个机架中部署576个GPU,这需要巨大的计算能力,并扩展机架内基础设施。公司致力于将其限制在机架内,以最大化利用铜缆布线——铜缆是组件间传输高带宽数据最具成本效益的方式。
但不止于此,因为需连接这些机架,使数十万乃至百万个GPU作为单一单元工作。由于距离增加,需构建基于光纤的横向扩展基础设施,并具备与OFED层相同的特性,包括高效带宽和确定性。
在英伟达看来,InfiniBand仍被视为横向扩展基础设施的黄金标准。任何非InfiniBand的构建方案,均可与InfiniBand对比,因为它是性能基准。
Gilad Shainer认为,扩展系统是AI的关键方面。每年数据中心规模大幅增长,意味着机架间带宽需求提升,线路上计算量增加,从而带宽需求上升。这导致需部署更多光纤连接,进而引发功耗问题。“在AI数据中心,限制因素常非空间或预算,而是可引入的功耗容量。”他指出。
机架间的光纤连接功耗较高,可能减少机架内可容纳的GPU数量。光纤网络可能消耗近10%的计算能力,这是一个显著比例。因此,降低光纤网络功耗成为关键考量。随着数据中心扩大,需安装更多组件——GPU、网卡、线缆、收发器和交换机,其中光收发器数量增长最快。每个GPU约需6个光收发器,10万个GPU即需60万个收发器。
这些收发器对灰尘敏感,故障时需管理员更换,导致维护量增加。因此,英伟达认为,数据中心基础设施的下一个重大演进在于提升光纤连接水平——将光纤连接集成到交换机中,迈向新阶段。
若将光模块集成到封装内,就无需通过交换机传输电信号,从而降低功耗,以更少能量驱动光信号通过交换机。这样可将功耗降低近四倍,在同样网络中容纳三倍以上的GPU。
因此,英伟达正推动将硅光子引擎或光学引擎集成到交换机上,替代外部收发器。
Gilad Shainer指出,共封装光模块(CPO)并非新概念,市场曾有尝试,但均未实现大规模量产和高良率,以达到成本效益。原因包括技术未经验证导致良率低,以及早期光学引擎尺寸过大,难以集成到大型交换机上。这需要新的封装技术甚至激光技术。
上述成就的实现,与英伟达收购Mellanox密切相关。
Eyal Waldman在播客中将Mellanox出售谈判描述为英特尔、英伟达等公司间的“激烈竞争”。“最终,与黄仁勋的联系顺理成章。从一开始,我们就看清了方向。2019年,英特尔市值远超英伟达,但仅一年后,英伟达便实现反超。此后,凭借对AI的正确押注,其股价一路飙升。”Eyal Waldman强调。
通过收购Mellanox,英伟达在以色列建立起美国之外的最大研发团队。据悉,这家芯片巨头在以色列的七个研发中心拥有超5000名员工,专注于开发数据中心CPU、机器人和汽车SoC,以及自动驾驶算法。
由此可见,对英伟达而言,这是一次具有里程碑意义的交易。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213699.html