当前位置：首页 > 科技资讯 > 正文

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练

主机测评网
科技资讯
2026-01-07
933

由于GPU资源紧缺，OpenAI内部曾发生激烈争夺。2024年，公司算力总投资达70亿美元，然而需求持续飙升，仿佛无底洞。关键时刻，微软推出全球首台GB300超级计算机，专为OpenAI服务，使得训练万亿参数大模型仅需数天。

在过去的一年中，OpenAI在计算能力上投入了高达70亿美元。

其中，大规模模型研发占据主要部分，消耗50亿美元，而推理计算则用了20亿美元。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第1张

显然，大型语言模型训练正在消耗巨额算力，这促使OpenAI近年来大力扩展超级计算设施并寻求合作伙伴。

在采访中，OpenAI总裁Greg Brockman坦承，「内部GPU分配过程充满痛苦与煎熬」。

OpenAI各团队对GPU的争夺异常激烈。最令人头疼的是如何公平合理地分配这些资源。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第2张

如今，甲骨文、英伟达、AMD等芯片和云服务巨头纷纷与OpenAI合作，以缓解其紧迫的算力需求。

甚至，曾经的“金主爸爸”微软也加入了这场支援。

微软CEO纳德拉宣布，全球首个配备超过4600个GB300的超算集群正式上线，专为OpenAI优化。预计未来将扩展至十万块GPU。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第3张

英伟达表示，这个算力巨兽能使OpenAI在数天内完成万亿参数模型的训练，而无需数周时间。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第4张

全球首台GB300超算：数天即可训练出万亿参数LLM

就在昨日，微软Azure宣布成功交付全球首个生产级超大规模AI集群。

该集群搭载了超过4600个GB300 NVL72，配备通过下一代InfiniBand网络连接的Blackwell Ultra GPU。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第5张

今年初，微软推出了GB200 v6虚拟机，通过大规模GB200 NVL2集群，已在OpenAI内部训练中得到应用。

此次，GB300 v6虚拟机再次确立了行业新标准。

该系统采用机架级设计，每个机架包含18个虚拟机，总计72个GPU：

72个Blackwell Ultra GPU，搭配36个Grace CPU
通过下一代Quantum-X800 InfiniBand，实现每GPU 800 Gb/s的跨机架横向扩展带宽（2x GB200 NVL72）
机架内130 TB/s的NVLink带宽
37TB高速内存
高达1,440 PFLOPS的FP4 Tensor Core性能

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第6张

全新设计：专为大规模AI超算打造

为了构建最强大的超级计算机，微软对计算、内存、网络、数据中心、散热和供电等每一层技术栈进行了重新设计。

机架层：实现低延迟与高吞吐量

借助NVLink和NVSwitch，GB300 v6在机架层面实现了高达130TB/s的内部数据传输速率，连接了总计37TB的高速内存，从而消除了内存和带宽瓶颈。

在大模型和长上下文场景中，推理吞吐量显著提升，为AI智能体和多模态AI提供了前所未有的响应速度和可扩展性。

同时，Azure部署了采用最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树无阻塞架构，能够跨机架扩展数万个GPU。

此外，Azure散热系统采用独立的“散热器单元”和“设施级冷却方案”。

在为GB300 NVL72等高密度、高性能集群维持热稳定性的同时，最大程度地减少了水资源消耗。

软件层：进行全面优化

此外，微软为存储、编排和调度重构的软件栈也经过全面优化，能够在超算规模上充分利用计算、网络、存储和数据中心基础设施，提供卓越的性能和效率。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第7张

OpenAI GPU争夺战：一段“痛苦与煎熬”的经历

在OpenAI内部，一场激烈的GPU争夺战正在上演。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第8张

上周四，Greg在“Matthew Berman”播客节目中透露，管理算力资源分配的过程令人心力交瘁。

这非常困难，你总会看到各种精彩的想法，然后其他人带着同样出色的想法来找你，你会觉得每一个都值得尝试。

在OpenAI内部，算力资源主要分配给“研究”和“应用产品”两个方向。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第9张

为了应对算力分配挑战，OpenAI建立了一套相对清晰的资源分配机制：

高层决策：由奥特曼和Fidji Simo组成的领导团队，决定研究团队与应用团队之间的总体算力划分；
研究团队内部协调：首席科学家和研究负责人，决定研究团队资源分配；
运营层：由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第10张

OpenAI复杂算力关系网络图

Greg提到，当项目接近完成时，Kevin会重新分配硬件资源，以支持新启动的项目。

算力是团队生产力的驱动力，因此至关重要。

每个人都十分关注此事。人们对“我能否获得算力”投入的精力和情感强度超乎想象。

长期以来，OpenAI多次公开表示其对算力的需求永不满足。

OpenAI首席产品官Kevin Weil曾表示，“我们每次获得新GPU，都会立即投入使用。”

OpenAI对算力的需求逻辑非常直接——

GPU数量直接决定了AI应用的能力上限。获得的GPU越多，就能支持更多的AI使用。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第11张

不仅OpenAI，整个行业的科技巨头都在增加算力投入。扎克伯格透露，Meta正将“人均算力”打造为核心竞争优势。

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练 OpenAI GPU争夺算力投入微软GB300超算第12张

上个月，奥特曼表示，OpenAI正在推出“算力密集型服务”。

当我们以当前模型的成本，将大量算力投入有趣的新想法时，能创造出哪些可能性？

在这场算力争夺战中，谁拥有最多的算力，谁就能在AI竞赛中脱颖而出。

参考资料

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10

阿里云服务器高防服务器云服务器

本文由主机测评网于2026-01-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260115692.html

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练

全球首台GB300超算：数天即可训练出万亿参数LLM

全新设计：专为大规模AI超算打造

OpenAI GPU争夺战：一段“痛苦与煎熬”的经历

参考资料

AI教父Hinton的深度警示：人工智能或已拥有主观体验，人类心智观念面临颠覆

鸿蒙应用MQTT集成全解析：从原理到实战开发（基于@ohos/mqtt）

OpenAI内部GPU资源争夺激烈：微软GB300超算加速大模型训练

全球首台GB300超算：数天即可训练出万亿参数LLM

全新设计：专为大规模AI超算打造

OpenAI GPU争夺战：一段“痛苦与煎熬”的经历

参考资料

AI教父Hinton的深度警示：人工智能或已拥有主观体验，人类心智观念面临颠覆

鸿蒙应用MQTT集成全解析：从原理到实战开发（基于@ohos/mqtt）

相关文章