当前位置:首页 > 科技资讯 > 正文

甲骨文发布全球最大云端AI超级计算机,挑战AI算力极限

甲骨文公司在上周正式推出了全球最大规模的云端AI超级计算机——OCI Zettascale10,此系统由80万块NVIDIA GPU组成,峰值算力高达惊人的16 ZettaFLOPS,成为OpenAI“星际之门”集群的算力核心。甲骨文公司独创的Acceleron RoCE网络架构,实现了GPU之间的高效互联,显著提升了系统的性能与能效。此系统的发布,标志着甲骨文在AI基础设施领域的强势布局。

甲骨文在2025年AI World大会上,展示了OCI Zettascale10超级集群的卓越性能。

在拉斯维加斯举办的AI World 2025大会上,甲骨文高调展示了其最新的云端AI超级计算机——OCI Zettascale10。

甲骨文发布全球最大云端AI超级计算机,挑战AI算力极限 甲骨文 云端AI 超级计算机 算力 第1张该超级计算机横跨多个数据中心,由多达80万块NVIDIA GPU芯片构成,其峰值计算性能高达每秒16 ZettaFLOPS(即每秒进行超过1021次浮点运算)。

这一惊人的算力意味着平均每块GPU可贡献约20 PetaFLOPS的算力,接近英伟达最新一代Grace Hopper(Blackwell架构GB300)芯片的水平。

甲骨文此举无疑是在AI算力军备竞赛中放出的“大招”,试图在云端AI基础设施版图上占据重要的一席之地。

OpenAI巨型集群的动力之源

这套Zettascale10系统已经成为OpenAI庞大算力需求的得力助手。

甲骨文与OpenAI在德州阿比林(Abilene)共建了“星际之门”旗舰AI超级计算集群,而OCI Zettascale10正是其算力骨干。

甲骨文发布全球最大云端AI超级计算机,挑战AI算力极限 甲骨文 云端AI 超级计算机 算力 第2张OpenAI基础设施部门副总裁Peter Hoeschele表示,甲骨文定制的RoCE高速网络架构在“千兆瓦级”规模下最大化整体性能,同时将大部分能耗用于计算。

换言之,甲骨文研发的这套RDMA over Converged Ethernet网络(代号Acceleron)将海量GPU紧密连接成一个整体,使得OpenAI的大模型训练能够在如此庞大的芯片阵列上高效运转。

正因有了与OpenAI的深度合作背书,Zettascale10一亮相便自带“实战”光环,它已经在为当今业界最严苛的一些AI工作负载提供动力。

Acceleron网络架构揭秘

如此规模的GPU“巨阵”要高效运转,奥秘就在于甲骨文独创的Acceleron RoCE网络架构。

简单来说,Acceleron让每块GPU的网络接口卡(NIC)都充当一个小型交换机,一次可连接到多个隔离的网络交换平面。

这种多平面、扁平化的网络设计大幅降低了GPU之间的通信延迟,并确保即使某一路由出现故障时,训练作业也能自动切换到其他路径继续运行,不至于被迫中断。

相比传统三级交换结构,Acceleron减少了网络层级,使GPU对GPU的直连延迟更加一致,整体性能更具可预测性。

此外,该架构引入了线性可插拔光学模块(LPO)和线性接收光学组件(LRO)等新技术,在不降低400G/800G带宽的前提下削减了网络的能耗与冷却成本。

甲骨文称这种创新网络既提高了效率又降低了成本,让客户可以用更少的电力完成同样的AI训练任务;

NVIDIA公司高管Ian Buck也认可道,正是这种全栈优化的“计算结构”(compute fabric)提供了将AI从实验推进到工业化所需的基础。

峰值神话与现实考验

甲骨文计划在2026年下半年正式向客户提供Zettascale10集群服务,目前这一系统已开始接受预订。

然而,对于16 ZFLOPS的惊人算力,不少业内观察者持保留态度。

该数据尚未经独立机构验证,而且很可能是基于理论峰值算力而非持续实效得出。

据业内报道,甲骨文宣称的16 ZFLOPS有可能利用了极低精度的AI计算指标(例如FP8甚至4比特稀疏运算)来实现。

实际的大模型训练通常需要使用更高精度(如BF16或FP8)的数值格式以保证模型收敛效果,因此16 ZFLOPS这个数字更多体现了甲骨文硬件在理想情况下的上限潜力,而非日常工作负载下可持续交付的性能。

这台“云端巨无霸”真正的实战表现还有待时间检验,只有等到系统明年投入使用,各种基准测试与用户实际反馈才能揭晓它能否如宣称般高效且可靠。

云端AI竞赛的挑战与展望

甲骨文并非孤军奋战。

当前,微软、谷歌、亚马逊等云计算巨头也在争相构建各自的大规模AI集群,它们或采购海量GPU,或研发自家AI加速硬件,云端AI算力版图正迅速扩张。

甲骨文此次押下重注推出Zettascale10,一方面巩固了与OpenAI的战略联盟,另一方面也是向业界宣示其在AI时代不可忽视的新实力。

然而在市场前景上,甲骨文依然面临如何吸引客户的问题。

为此,该公司还发布了新的“多云通用积分”计划,允许运营商用统一的预付积分在甲骨文云及AWS、Azure、Google等多家云服务间自由调配甲骨文数据库和OCI服务。

甲骨文发布全球最大云端AI超级计算机,挑战AI算力极限 甲骨文 云端AI 超级计算机 算力 第3张这项举措旨在降低客户迁移门槛、提高平台黏性,为甲骨文云生态争取更大的用户基础。

OCI Zettascale10的出现展示了云服务商为满足AI空前算力需求所做的大胆探索。

等到明年这套系统真正落地,我们才能知道甲骨文能否凭借这一云端“巨无霸”在激烈的AI基础设施竞赛中抢得先机,并兑现其关于高效、规模和可靠性的承诺。