当前位置:首页 > 科技资讯 > 正文

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练

由于GPU资源紧缺,OpenAI内部曾发生激烈争夺。2024年,公司算力总投资达70亿美元,然而需求持续飙升,仿佛无底洞。关键时刻,微软推出全球首台GB300超级计算机,专为OpenAI服务,使得训练万亿参数大模型仅需数天。

在过去的一年中,OpenAI在计算能力上投入了高达70亿美元。

其中,大规模模型研发占据主要部分,消耗50亿美元,而推理计算则用了20亿美元。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第1张

显然,大型语言模型训练正在消耗巨额算力,这促使OpenAI近年来大力扩展超级计算设施并寻求合作伙伴。

在采访中,OpenAI总裁Greg Brockman坦承,「内部GPU分配过程充满痛苦与煎熬」。

OpenAI各团队对GPU的争夺异常激烈。最令人头疼的是如何公平合理地分配这些资源。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第2张

如今,甲骨文、英伟达、AMD等芯片和云服务巨头纷纷与OpenAI合作,以缓解其紧迫的算力需求。

甚至,曾经的“金主爸爸”微软也加入了这场支援。

微软CEO纳德拉宣布,全球首个配备超过4600个GB300的超算集群正式上线,专为OpenAI优化。预计未来将扩展至十万块GPU。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第3张

英伟达表示,这个算力巨兽能使OpenAI在数天内完成万亿参数模型的训练,而无需数周时间。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第4张

全球首台GB300超算:数天即可训练出万亿参数LLM

就在昨日,微软Azure宣布成功交付全球首个生产级超大规模AI集群。

该集群搭载了超过4600个GB300 NVL72,配备通过下一代InfiniBand网络连接的Blackwell Ultra GPU。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第5张

今年初,微软推出了GB200 v6虚拟机,通过大规模GB200 NVL2集群,已在OpenAI内部训练中得到应用。

此次,GB300 v6虚拟机再次确立了行业新标准。

该系统采用机架级设计,每个机架包含18个虚拟机,总计72个GPU:

  • 72个Blackwell Ultra GPU,搭配36个Grace CPU
  • 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(2x GB200 NVL72)
  • 机架内130 TB/s的NVLink带宽
  • 37TB高速内存
  • 高达1,440 PFLOPS的FP4 Tensor Core性能

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第6张

全新设计:专为大规模AI超算打造

为了构建最强大的超级计算机,微软对计算、内存、网络、数据中心、散热和供电等每一层技术栈进行了重新设计。

机架层:实现低延迟与高吞吐量

借助NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的内部数据传输速率,连接了总计37TB的高速内存,从而消除了内存和带宽瓶颈。

在大模型和长上下文场景中,推理吞吐量显著提升,为AI智能体和多模态AI提供了前所未有的响应速度和可扩展性。

同时,Azure部署了采用最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树无阻塞架构,能够跨机架扩展数万个GPU。

此外,Azure散热系统采用独立的“散热器单元”和“设施级冷却方案”。

在为GB300 NVL72等高密度、高性能集群维持热稳定性的同时,最大程度地减少了水资源消耗。

软件层:进行全面优化

此外,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供卓越的性能和效率。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第7张

OpenAI GPU争夺战:一段“痛苦与煎熬”的经历

在OpenAI内部,一场激烈的GPU争夺战正在上演。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第8张

上周四,Greg在“Matthew Berman”播客节目中透露,管理算力资源分配的过程令人心力交瘁。

这非常困难,你总会看到各种精彩的想法,然后其他人带着同样出色的想法来找你,你会觉得每一个都值得尝试。

在OpenAI内部,算力资源主要分配给“研究”和“应用产品”两个方向。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第9张

为了应对算力分配挑战,OpenAI建立了一套相对清晰的资源分配机制:

  • 高层决策:由奥特曼和Fidji Simo组成的领导团队,决定研究团队与应用团队之间的总体算力划分;
  • 研究团队内部协调:首席科学家和研究负责人,决定研究团队资源分配;
  • 运营层:由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第10张

OpenAI复杂算力关系网络图

Greg提到,当项目接近完成时,Kevin会重新分配硬件资源,以支持新启动的项目。

算力是团队生产力的驱动力,因此至关重要。

每个人都十分关注此事。人们对“我能否获得算力”投入的精力和情感强度超乎想象。

长期以来,OpenAI多次公开表示其对算力的需求永不满足。

OpenAI首席产品官Kevin Weil曾表示,“我们每次获得新GPU,都会立即投入使用。”

OpenAI对算力的需求逻辑非常直接——

GPU数量直接决定了AI应用的能力上限。获得的GPU越多,就能支持更多的AI使用。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第11张

不仅OpenAI,整个行业的科技巨头都在增加算力投入。扎克伯格透露,Meta正将“人均算力”打造为核心竞争优势。

OpenAI内部GPU资源争夺激烈:微软GB300超算加速大模型训练 OpenAI  GPU争夺 算力投入 微软GB300超算 第12张

上个月,奥特曼表示,OpenAI正在推出“算力密集型服务”。

当我们以当前模型的成本,将大量算力投入有趣的新想法时,能创造出哪些可能性?

在这场算力争夺战中,谁拥有最多的算力,谁就能在AI竞赛中脱颖而出。

参考资料

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10