当前位置:首页 > 科技资讯 > 正文

NVIDIA Rubin CPX:引领AI进入百万Token时代

9日,英伟达重磅发布了专为海量上下文AI打造的CUDA GPU——Rubin CPX,将大模型一次性推理带入“百万Token时代”。NVIDIA创始人兼CEO黄仁勋表示,Vera Rubin平台将再次推动AI计算的前沿,不仅带来下一代Rubin GPU,也将开创一个CPX的全新处理器类别。

“百万Token怪兽”正式登场!

昨日(9日),NVIDIA强势推出Rubin CPX,这是一款专为大规模上下文推理而设计的全新GPU。

NVIDIA Rubin CPX:引领AI进入百万Token时代 CPX AI CUDA GPU 第1张

其性能是Vera Rubin NVL144平台的2倍多,更是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍!

它拥有8 EFLOPS的NVFP4计算力、100TB高速内存与1.7 PB/s的内存带宽、128GB的高性价比GDDR7显存。

相较于NVIDIA GB300 NVL72系统,Rubin CPX的注意力机制处理能力提升了3倍。

性能如此强大的Rubin CPX,在变现能力上同样不容小觑。

每投入1亿美元,最高可带来50亿美元的Token收入!

Rubin CPX开创CPX全新处理器类别

Rubin CPX基于Rubin架构构建,是首款专为海量上下文AI打造的CUDA GPU,能够在同一时间推理跨越数百万个知识标记的模型。

可以说,Rubin CPX是专为破解AI“长上下文”瓶颈而生的“特种兵”。

它的出现,为AI带来了百万Token级推理场景下的性能和效率的新突破。

依托于全新的NVIDIA Vera Rubin NVL144 CPX平台,Rubin CPX与NVIDIA Vera CPU和Rubin GPU紧密协同,可以支持多步推理、持久化记忆与长时程上下文。

这意味着在面对软件开发、视频生成、深度研究等领域的复杂任务时,它更加游刃有余。

30-50倍ROI,重塑推理经济

通过解耦式推理创新,Rubin CPX可为企业带来30-50倍的ROI,重塑推理经济。

大模型的推理主要分为上下文和生成两个阶段。

这两个阶段对基础设施的要求存在本质差异。

上下文阶段以计算受限为主,需要高吞吐处理来摄取并分析海量输入数据。

而生成阶段则以内存带宽受限为主,依赖快速的内存传输与高速互联来维持逐Token的输出性能。

解耦式推理让这两个阶段独立处理,从而优化算力与内存资源,提升吞吐,降低时延。

拥抱NVIDIA全栈AI生态

在生态上,Rubin CPX将受到完整的NVIDIA AI堆栈支持。

  • 软件平台:NVIDIA AI Enterprise包含NVIDIA NIM™微服务以及可在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库与工具。
  • 编排与模型:NVIDIA Dynamo平台负责高效扩展AI推理,同时处理器将能够运行NVIDIA Nemotron™多模态模型家族中的最新模型。
  • 开发者生态:基于数十年的创新,Rubin平台扩展了NVIDIA庞大的开发者生态。

NVIDIA Rubin CPX预计将于2026年底可用。

它的推出将为全球开发者与创作者解锁更强大的能力,重新定义企业构建下一代生成式AI应用的可能性。