在过去的二十年中,数据中心性能的提升主要仰赖于计算芯片——如CPU、GPU和FPGA的持续迭代。然而,随着生成式AI时代的全面来临,整个算力体系的核心正逐渐被网络架构重新定义。在大规模模型训练场景下,GPU之间的通信延迟与带宽瓶颈已成为制约训练效率的关键因素。尤其是当模型参数量突破万亿级别时,单个GPU已无法独立承载,必须通过成千上万张GPU的并行协作来完成训练任务。
在这一进程中,网络的重要性日益凸显。近日,科技行业传来重大消息:Meta与Oracle两大巨头选择了NVIDIA Spectrum-X以太网交换机及相关技术。这一举措被业界视作以太网向AI专用互连领域迈出的关键一步,标志着网络基础设施正在适应AI工作负载的独特需求。
同时,这也反映出英伟达正加速向开放以太网生态渗透,紧密绑定云巨头与企业客户。英伟达已经凭借InfiniBand掌控了封闭的高性能网络市场,如今又通过在“开放”的以太网生态中布局第二道壁垒,进一步巩固其全域优势。
过去几十年,以太网一直是数据中心最广泛采用的网络标准。但在以AI为核心的时代,挑战不再局限于单个节点的算力,而更侧重于分布式架构下的协同效率。训练一个基础模型(如GPT、BERT或DALL-E),需要跨节点同步海量的梯度参数。整个训练过程的速度往往取决于最慢的那个节点——这正是“尾延迟”问题的根源所在。
因此,AI网络的设计目标不再是追求“平均性能”,而是要确保即使在极端情况下也不会拖累整体效率。这对网络的延迟控制、丢包率、流量调度、拥塞管理乃至缓存架构都提出了远超传统以太网的要求。为此,英伟达推出了Spectrum-X,业界首个专为AI优化的以太网解决方案。
那么,Spectrum-X具体实现了哪些改进?在NVIDIA最新发布的白皮书《Networking for the Era of AI: The Network Defines the Data Center》中,英伟达对此进行了详尽阐释。
第一、构建无损以太网环境。在传统以太网中,丢包与重传被视为“可接受的成本”。但在AI训练中,任何数据包的丢失都可能导致GPU空闲、同步失败或能耗急剧上升。Spectrum-X通过以下技术实现突破:采用RoCE(RDMA over Converged Ethernet)技术实现CPU旁路通信;结合PFC(Priority Flow Control)与DDP(Direct Data Placement)确保端到端的无损传输;并与Spectrum-X SuperNIC联动,实现硬件级的拥塞检测与动态流量调度。
GPU-to-GPU通信的RDMA实现示意图(来源:英伟达)
这使得以太网首次具备了接近InfiniBand的传输确定性。
第二、自适应路由与智能分包调度。AI工作负载与传统云计算最大的区别在于,它产生的是少量但极其庞大的“象流”。这些流量极易在网络中形成热点,引发严重拥塞。Spectrum-X采用包级自适应路由与分包喷射技术,通过实时监测链路负载,动态选择最优路径,并在SuperNIC层面完成乱序数据包的重组。这种机制突破了以太网静态哈希路由(ECMP)的局限性,使AI集群在流量分布不均时仍能保持线性扩展能力。
NVIDIA Spectrum-X 以太网自适应路由实现图示(来源:英伟达)
第三、高效拥塞控制机制。传统ECN拥塞控制的最大问题在于响应延迟过高。当交换机检测到拥塞并发出ECN标记时,缓冲区往往已被占满,GPU已出现空闲等待。Spectrum-X通过硬件级带内遥测技术实时上报网络状态,SuperNIC据此立即执行流量节流,实现亚微秒级的反馈闭环。英伟达宣称,其拥塞控制技术实现了95%的数据吞吐量,而现有大规模以太网的吞吐量通常仅约60%。
第四、性能隔离与安全保障。AI云平台通常需要在同一基础设施上运行来自不同用户或部门的训练任务。Spectrum-X通过共享缓存架构确保不同端口公平访问缓存,防止“吵闹邻居”任务影响其他作业。同时,配合BlueField-3 DPU,在网络与存储层提供多重安全防护:包括MACsec/IPsec加密(保障数据在途安全)、AES-XTS 256/512加密(保障数据静态安全)以及基于Root-of-Trust的安全启动机制。这使得AI云平台具备了类似私有集群的安全隔离能力。
可以说,Spectrum-X为以太网注入了“AI基因”。正因如此,它赢得了Meta和Oracle的青睐,但两家公司在采用Spectrum-X时选择了不同的落地策略,各自围绕自身业务需求进行优化。
Meta的路线更侧重于“开放可编排的网络平台”——将Spectrum系列与FBOSS结合,并在Minipack3N这类开源交换机设计上实现部署,体现了Meta在软硬分离、可编程控制面方面的持续投入。对Meta而言,目标是以开放规范支持其面向数十亿用户的生成式AI服务,在追求高效的同时保持高度可控。
Oracle则将Vera Rubin作为加速器架构,以Spectrum-X作为互联骨干,旨在把分散的数据中心、成千上万的节点聚合为统一的可编排超算平台,从而为企业级客户提供端到端的训练与推理服务。Oracle管理层将此类部署称为“Giga-Scale AI工厂”,并将其视为云竞争中的差异化基石。
无论具体路径如何,二者的共同点十分明确:当算力持续呈指数级增长时,网络层决定了这些“理论算力”能否转化为“实际可用的吞吐量与业务价值”。
从产业链竞争视角分析,NVIDIA Spectrum-X的推出堪称对以太网网络行业结构的一次“降维打击”。
首先要理解,Spectrum-X并非单一的交换机产品,而是一套系统级战略。它将以下三个核心组件捆绑为一个“软硬一体”生态:
换言之,英伟达将原本属于独立厂商的三层网络生态(交换机、网卡、加速器)整合为一,让“网络成为GPU的延伸模块”,实现了计算、网络、存储的垂直闭环。因此,这一战略几乎撼动了整个以太网生态体系。
这意味着过去依赖以太网标准生存的网络公司——无论是芯片供应商、交换机制造商还是优化软件开发商——都不得不面对新的博弈:要么融入英伟达的AI网络体系,要么面临边缘化风险。
直接受冲击的企业中,首当其冲的是数据中心以太网芯片厂商,例如Broadcom(Trident/Tomahawk系列)和Marvell(Teralynx、Prestera)。Spectrum-X的RDMA over Ethernet能力本质上在挑战所有高端以太网芯片的价值定位。这些厂商长期垄断“交换芯片+NIC”双生态,其传统卖点是“开放性与性价比”。但当英伟达将AI优化特性(如DDP、遥测、无损路由)内嵌到GPU/DPU协同体系后,Spectrum-X实际上揭开了以太网的“算力黑箱”,势必在一定程度上侵蚀这些厂商的市场份额。
另一个可能受影响的群体是传统网络设备供应商,例如思科、Arista Networks和Juniper Networks。这些公司在超大规模云数据中心中一直是“以太网标准派”的代表。其高端产品的主要卖点包括:支持400/800 GbE高速接口、提供丰富的可编程特性以及软件定义网络管理能力。
但在Spectrum-X架构下,英伟达通过“GPU + SuperNIC + Switch + DPU”形成封闭但极致的性能链条,客户无需再依赖思科或Arista的传统优化方案,尤其在AI工厂这种“单租户+极端性能”环境中,英伟达可能逐渐取代它们的角色。Arista的市值已有一半来自AI网络预期,但若Spectrum-X被Meta、Oracle、AWS等大客户全面采用,Arista的增长模型恐将受到削弱。
第三类受影响的是专注互连技术的初创芯片企业,如Astera Labs、Cornelis Networks、Liqid、Rockport Networks、Lightmatter和Celestial AI等。这些公司正在开发具备低延迟、高拓扑可扩展性的定制互连方案。
首先简要分析这些厂商存在的意义:在英伟达的生态中,互连是垂直整合的——从GPU到NVLink,再到Spectrum-X/InfiniBand和BlueField。但对于其他厂商(如AMD、Intel、Google TPU),它们缺乏控制整个技术栈的能力,因此急需这些“中立型互连供应商”提供替代方案。例如:Astera Labs的Leo/Cosmos系列控制器已被用于AMD MI300与Intel Gaudi平台,管理GPU与内存池的互连;Cornelis Networks与欧洲超算中心合作,推出Omni-Path 200G网络以替代InfiniBand;Liqid的可组合Fabric方案被戴尔和HPE集成,用于“AI基础设施即服务”;Lightmatter与Celestial AI则瞄准更远的未来——当光互连取代电互连时,整个AI计算集群的架构都将被重塑。
一旦大型云厂商选择Spectrum-X架构,就意味着其整个集群在驱动、遥测、QoS控制层面都深度依赖英伟达。初创厂商的开放Fabric方案难以兼容。短期内,Spectrum-X的整合速度与客户绑定深度,确实会压缩这些独立创新者的市场空间。
如果说Spectrum-X是以太网的AI化改造,那么英伟达Quantum InfiniBand则是AI原生的超级网络。
从一开始,以太网追求的是开放性与普适性——它容忍一定的丢包与延迟,以换取成本优势与广泛兼容。而InfiniBand的设计哲学恰恰相反:它追求极致的确定性与零损传输。早在1999年,它便作为HPC(高性能计算)领域的数据互连标准登场,如今已成为全球超级计算中心的事实标准。
凭借三大核心特性,InfiniBand在过去二十余年间始终占据性能巅峰:
这些能力让InfiniBand成为AI训练时代的“通信主干”,尤其是在大模型动辄上万GPU节点的架构下,它依然能维持线性扩展与稳定的同步性能。
英伟达在2019年以近70亿美元收购Mellanox后,全面掌握了InfiniBand的全栈生态。最新的Quantum-2是英伟达InfiniBand架构的第七代产品,被业界视为当前最具代表性的高性能网络平台。它为每个端口提供高达400 Gb/s的带宽,是前代产品的两倍;其交换芯片的端口密度更是提升三倍,可在三跳Dragonfly+拓扑内连接超过一百万个节点。
更重要的是,Quantum-2引入了第三代NVIDIA SHARP技术——这是一种将计算能力“嵌入网络”的聚合机制,使网络本身成为“协处理器”。在这一架构下,AI模型训练的加速能力较上一代提升32倍,并支持多个租户与并行应用共享同一基础设施而不牺牲性能,真正实现了“网络级虚拟化”的算力资源池化。
然而,InfiniBand的辉煌背后也潜藏着结构性挑战。一方面,它由英伟达主导并保持较强的生态封闭性——这种“垂直一体化”架构虽带来性能优势,但也引发了云服务商与OEM厂商的担忧:成本高昂、生态受限、兼容性有限、议价空间狭窄。
正因如此,以太网阵营正在加速反击。包括Meta、Oracle、Broadcom、AMD在内的多家企业,正通过超以太网联盟推动新一代开放标准,旨在开放以太网架构下重建InfiniBand级的确定性与性能。这也是英伟达推出Spectrum-X的重要原因之一——主动将自家优势算法、遥测和拥塞控制机制“嫁接”到以太网标准体系中,以便在以太网生态中保持网络层的话语权。
超以太网联盟的指导成员
从InfiniBand到Spectrum-X,英伟达正在完成一场看似开放、实则更深层次的“垄断重构”。它在封闭与开放之间构建双轨系统——一条面向HPC与超算(InfiniBand),一条面向云与企业AI(Spectrum-X)。最终,正如英伟达白皮书所言:“网络定义数据中心。”——AI时代的算力竞争力,不再局限于芯片本身,而更存在于连接之中。
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116538.html