在争夺有限GPU资源的激烈竞争中,OpenAI内部一度面临严峻挑战。2024年,其总算力投入达到70亿美元,但面对庞大的算力需求,这仍显得杯水车薪。此时,微软发布了全球首台GB300超算,专门服务于OpenAI,使得万亿参数的模型能够在数天内完成训练。
过去一年间,OpenAI在算力方面投入巨资,总计70亿美元。其中,大模型研发占据大头,高达50亿美元,而推理计算则相对节省,仅用了20亿美元。
显而易见,大型语言模型(LLM)的训练正消耗着海量的算力资源,这也是OpenAI近期大力扩展超算建设及寻求合作的重要原因。
在采访中,OpenAI总裁Greg Brockman坦言:“内部如何分配GPU资源,简直是一场痛苦与煎熬。”
OpenAI的各个团队为了争夺GPU资源,展开了激烈的竞争。其中最棘手的问题便是如何合理有效地进行资源分配。
如今,甲骨文、英伟达、AMD等芯片巨头和云服务提供商纷纷与OpenAI合作,共同解决其燃眉之急。其中,微软也加入了这一行列。
纳德拉宣布,全球首个配备超过4600个GB300的超算已经上线,专门服务于OpenAI。未来,这一超算还将扩展到包含十万块GPU的规模。
英伟达表示,这一强大的算力可以让OpenAI在数天内训练出万亿参数的模型,而无需耗费数周的时间。
就在昨天,微软Azure宣布成功交付了全球首个生产级超大规模AI集群。
该集群搭载了超过4600个GB300 NVL72,并配备了通过下一代InfiniBand网络互联的Blackwell Ultra GPU。
今年早些时候,微软推出了GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群已在OpenAI内部得到应用。此次,GB300 v6虚拟机再次树立了行业标杆。
该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:
为了打造最强的超算系统,微软对计算、内存、网络、数据中心、散热和供电等每一层技术栈都进行了重新设计。
机架层:低延迟高吞吐
通过NVLink和NVSwitch技术,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,并连接了总计37TB的高速内存。这彻底消除了内存和带宽瓶颈。
在大模型和长上下文场景下,推理吞吐量得到大幅提升,为AI智能体和多模态AI带来了前所未有的响应速度和扩展性。
同时,Azure部署了采用Quantum-X800 Gbps InfiniBand网络的全连接胖树无阻塞架构,能够跨机架扩展数万个GPU。
软件层:全面优化
此外,微软还为存储、编排和调度重构的软件栈进行了全面优化。这能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。
在OpenAI内部,正上演一场激烈的GPU争夺战。
_a_" alt="OpenAI内部竞争"/>
上周四,Greg在一期“Matthew Berman”播客节目中透露了管理算力资源分配的过程。这一过程令人感到筋疲力尽且充满挑战。
在OpenAI内部,算力资源主要分配给“研究”和“应用产品”两个方向。
本文由主机测评网于2026-05-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542471.html