当前位置:首页 > 科技资讯 > 正文

微软GB300超算助力OpenAI,万亿参数模型数天训练完成

在争夺有限GPU资源的激烈竞争中,OpenAI内部一度面临严峻挑战。2024年,其总算力投入达到70亿美元,但面对庞大的算力需求,这仍显得杯水车薪。此时,微软发布了全球首台GB300超算,专门服务于OpenAI,使得万亿参数的模型能够在数天内完成训练。

过去一年间,OpenAI在算力方面投入巨资,总计70亿美元。其中,大模型研发占据大头,高达50亿美元,而推理计算则相对节省,仅用了20亿美元。

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第1张

显而易见,大型语言模型(LLM)的训练正消耗着海量的算力资源,这也是OpenAI近期大力扩展超算建设及寻求合作的重要原因。

在采访中,OpenAI总裁Greg Brockman坦言:“内部如何分配GPU资源,简直是一场痛苦与煎熬。”

OpenAI的各个团队为了争夺GPU资源,展开了激烈的竞争。其中最棘手的问题便是如何合理有效地进行资源分配。

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第2张

如今,甲骨文、英伟达、AMD等芯片巨头和云服务提供商纷纷与OpenAI合作,共同解决其燃眉之急。其中,微软也加入了这一行列。

纳德拉宣布,全球首个配备超过4600个GB300的超算已经上线,专门服务于OpenAI。未来,这一超算还将扩展到包含十万块GPU的规模。

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第3张

英伟达表示,这一强大的算力可以让OpenAI在数天内训练出万亿参数的模型,而无需耗费数周的时间。

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第4张

全球首台GB300超算,数天训练万亿LLM

就在昨天,微软Azure宣布成功交付了全球首个生产级超大规模AI集群。

该集群搭载了超过4600个GB300 NVL72,并配备了通过下一代InfiniBand网络互联的Blackwell Ultra GPU。

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第5张

今年早些时候,微软推出了GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群已在OpenAI内部得到应用。此次,GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:

  • 72个Blackwell Ultra GPU,搭配36个Grace CPU
  • 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(相当于两个GB200 NVL72)
  • 机架内达到130 TB/s的NVLink带宽
  • 配备37TB高速内存
  • 高达1,440 PFLOPS的FP4 Tensor Core性能

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第6张

全新设计,专为大规模AI超算打造

为了打造最强的超算系统,微软对计算、内存、网络、数据中心、散热和供电等每一层技术栈都进行了重新设计。

机架层:低延迟高吞吐

通过NVLink和NVSwitch技术,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,并连接了总计37TB的高速内存。这彻底消除了内存和带宽瓶颈。

在大模型和长上下文场景下,推理吞吐量得到大幅提升,为AI智能体和多模态AI带来了前所未有的响应速度和扩展性。

同时,Azure部署了采用Quantum-X800 Gbps InfiniBand网络的全连接胖树无阻塞架构,能够跨机架扩展数万个GPU。

软件层:全面优化

此外,微软还为存储、编排和调度重构的软件栈进行了全面优化。这能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。

OpenAI的GPU争夺战:一场“痛苦与煎熬”

在OpenAI内部,正上演一场激烈的GPU争夺战。

微软GB300超算助力OpenAI,万亿参数模型数天训练完成 GB300超算 OpenAI 算力需求 GPU争夺 第7张_a_" alt="OpenAI内部竞争"/>

上周四,Greg在一期“Matthew Berman”播客节目中透露了管理算力资源分配的过程。这一过程令人感到筋疲力尽且充满挑战。

在OpenAI内部,算力资源主要分配给“研究”和“应用产品”两个方向。

  • 高层决策:由奥特曼和Fidji Simo组成的领导团队决定研究团队与应用团队之间的总体算力划分;
  • 研究团队内部协调:首席科学家和研究负责人决定研究团队资源分配;
  • 运营层:由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。