当前位置：首页 > 科技资讯 > 正文

微软GB300超算助力OpenAI，万亿参数模型数天训练完成

主机测评网
科技资讯
2026-05-03
808

在争夺有限GPU资源的激烈竞争中，OpenAI内部一度面临严峻挑战。2024年，其总算力投入达到70亿美元，但面对庞大的算力需求，这仍显得杯水车薪。此时，微软发布了全球首台GB300超算，专门服务于OpenAI，使得万亿参数的模型能够在数天内完成训练。

过去一年间，OpenAI在算力方面投入巨资，总计70亿美元。其中，大模型研发占据大头，高达50亿美元，而推理计算则相对节省，仅用了20亿美元。

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第1张

显而易见，大型语言模型（LLM）的训练正消耗着海量的算力资源，这也是OpenAI近期大力扩展超算建设及寻求合作的重要原因。

在采访中，OpenAI总裁Greg Brockman坦言：“内部如何分配GPU资源，简直是一场痛苦与煎熬。”

OpenAI的各个团队为了争夺GPU资源，展开了激烈的竞争。其中最棘手的问题便是如何合理有效地进行资源分配。

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第2张

如今，甲骨文、英伟达、AMD等芯片巨头和云服务提供商纷纷与OpenAI合作，共同解决其燃眉之急。其中，微软也加入了这一行列。

纳德拉宣布，全球首个配备超过4600个GB300的超算已经上线，专门服务于OpenAI。未来，这一超算还将扩展到包含十万块GPU的规模。

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第3张

英伟达表示，这一强大的算力可以让OpenAI在数天内训练出万亿参数的模型，而无需耗费数周的时间。

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第4张

全球首台GB300超算，数天训练万亿LLM

就在昨天，微软Azure宣布成功交付了全球首个生产级超大规模AI集群。

该集群搭载了超过4600个GB300 NVL72，并配备了通过下一代InfiniBand网络互联的Blackwell Ultra GPU。

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第5张

今年早些时候，微软推出了GB200 v6虚拟机（VM），通过大规模GB200 NVL2集群已在OpenAI内部得到应用。此次，GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计，每个机架包含18个虚拟机，共计72个GPU：

72个Blackwell Ultra GPU，搭配36个Grace CPU
通过下一代Quantum-X800 InfiniBand，实现每GPU 800 Gb/s的跨机架横向扩展带宽（相当于两个GB200 NVL72）
机架内达到130 TB/s的NVLink带宽
配备37TB高速内存
高达1,440 PFLOPS的FP4 Tensor Core性能

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第6张

全新设计，专为大规模AI超算打造

为了打造最强的超算系统，微软对计算、内存、网络、数据中心、散热和供电等每一层技术栈都进行了重新设计。

机架层：低延迟高吞吐

通过NVLink和NVSwitch技术，GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率，并连接了总计37TB的高速内存。这彻底消除了内存和带宽瓶颈。

在大模型和长上下文场景下，推理吞吐量得到大幅提升，为AI智能体和多模态AI带来了前所未有的响应速度和扩展性。

同时，Azure部署了采用Quantum-X800 Gbps InfiniBand网络的全连接胖树无阻塞架构，能够跨机架扩展数万个GPU。

软件层：全面优化

此外，微软还为存储、编排和调度重构的软件栈进行了全面优化。这能够在超算规模上充分利用计算、网络、存储和数据中心基础设施，提供前所未有的高性能和高效率。

OpenAI的GPU争夺战：一场“痛苦与煎熬”

在OpenAI内部，正上演一场激烈的GPU争夺战。

微软GB300超算助力OpenAI，万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺第7张 _a_" alt="OpenAI内部竞争"/>

上周四，Greg在一期“Matthew Berman”播客节目中透露了管理算力资源分配的过程。这一过程令人感到筋疲力尽且充满挑战。

在OpenAI内部，算力资源主要分配给“研究”和“应用产品”两个方向。

高层决策：由奥特曼和Fidji Simo组成的领导团队决定研究团队与应用团队之间的总体算力划分；
研究团队内部协调：首席科学家和研究负责人决定研究团队资源分配；
运营层：由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。

性价比vps 性价比服务器

本文由主机测评网于2026-05-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542471.html

微软GB300超算助力OpenAI，万亿参数模型数天训练完成

全球首台GB300超算，数天训练万亿LLM

全新设计，专为大规模AI超算打造

OpenAI的GPU争夺战：一场“痛苦与煎熬”

AI觉醒：人类心智的幽灵与AI的悖论

手把手教机器人做精细操作：KineDex框架创新

微软GB300超算助力OpenAI，万亿参数模型数天训练完成

全球首台GB300超算，数天训练万亿LLM

全新设计，专为大规模AI超算打造

OpenAI的GPU争夺战：一场“痛苦与煎熬”

AI觉醒：人类心智的幽灵与AI的悖论

手把手教机器人做精细操作：KineDex框架创新

相关文章