在生成式AI时代,数据中心的性能提升不再局限于计算芯片,网络逐渐成为关键因素。特别是当模型参数突破万亿级时,单个GPU难以胜任,需数千、数万张GPU并行协同。这不仅凸显了网络的重要性,还标志着以太网正朝着AI专用互连方向迈进。
Meta和Oracle两大科技巨头选择了NVIDIA Spectrum-X以太网交换机及相关技术,此举被视为以太网向AI专用互连的重要一步。这也反映了英伟达正在加速向开放以太网生态渗透,绑定云巨头与企业客户。
过去几十年,以太网在数据中心广泛应用。然而,在AI为核心的时代,挑战在于分布式架构下的协同效率。训练模型需跨节点同步海量梯度参数,速度取决于最慢节点,这就是“尾延迟”问题的根源。
因此,AI网络设计需确保极端情况下也不拖后腿,这对网络延迟、丢包率等提出更高要求。为此,英伟达推出了Spectrum-X,首个专为AI优化的以太网解决方案。
那么,Spectrum-X具体做了哪些改进呢?在《Networking for the Era of AI: The Network Defines the Data Center》中,英伟达详细介绍了其改进。
第一、打造无损以太网。在传统以太网中,丢包与重传被视为“可接受成本”。但在AI训练中,任何丢包都可能导致GPU空闲、同步失败或能耗激增。Spectrum-X通过RoCE技术实现CPU旁路通信,PFC+DDP确保端到端无损传输,与SuperNIC联动实现硬件级拥塞检测与动态流量调度。
GPU-to-GPU通信的RDMA实现图(来源:英伟达)
这使得以太网首次具备接近InfiniBand的传输确定性。
第二、自适应路由与分包调度。AI工作负载与传统云计算不同,它产生少量但极庞大的“象流”。这些流量易在网络中形成热点,造成严重拥塞。Spectrum-X采用包级自适应路由与分包喷射技术,通过实时监测链路负载,动态选择最优路径,并在SuperNIC层完成乱序重排。
NVIDIA Spectrum-X以太网自适应路由实现图示(来源:英伟达)
第三、解决拥塞控制问题。传统ECN拥塞控制响应延迟高。Spectrum-X通过硬件级In-band Telemetry实时上报网络状态,SuperNIC据此立即执行Flow Metering,实现亚微秒级反馈闭环。
第四、性能隔离与安全。AI云需在同一基础设施上运行不同用户或部门的训练任务。Spectrum-X通过共享缓存架构确保不同端口公平访问缓存,配合BlueField-3 DPU提供多重安全隔离与加密。
可以说,Spectrum-X让以太网有了“AI基因”,这也赢得了Meta和Oracle的青睐。二者虽采用不同策略优化自身业务,但共同点在于:当算力持续呈指数级增长时,网络层决定了这些“理论上的算力”能否转化为“实际可用的吞吐与业务价值”。
从产业链竞争格局分析,NVIDIA Spectrum-X的推出确实是一场对以太网网络行业结构的“降维打击”。
首先要理解,Spectrum-X不是单独产品,而是一种系统战略。它将以下三个组件绑定为一个“软硬一体”生态:Spectrum-X交换机ASIC、SuperNIC、BlueField-3 DPU。
这意味着NVIDIA将原本独立的三层网络生态(交换机、网卡、加速器)整合为垂直闭环。这一战略几乎撼动了整个以太网生态。
这意味着过去依靠以太网标准生存的网络公司都被迫进入新的博弈:要么融入NVIDIA的AI网络体系,要么被边缘化。
如果说Spectrum-X是以太网的AI化,那么Quantum InfiniBand则是AI原生的超级网络。
InfiniBand追求极致的确定性与零损传输,早在1999年便作为HPC领域的数据互连标准登场。凭借三大特性——无损传输、超低延迟、原生RDMA与网络内计算——InfiniBand在过去二十余年间始终稳居性能巅峰。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542907.html