当前位置：首页 > 科技资讯 > 正文

NVIDIA Rubin CPX：引领AI进入百万Token时代

9日，英伟达重磅发布了专为海量上下文AI打造的CUDA GPU——Rubin CPX，将大模型一次性推理带入“百万Token时代”。NVIDIA创始人兼CEO黄仁勋表示，Vera Rubin平台将再次推动AI计算的前沿，不仅带来下一代Rubin GPU，也将开创一个CPX的全新处理器类别。

“百万Token怪兽”正式登场！

昨日（9日），NVIDIA强势推出Rubin CPX，这是一款专为大规模上下文推理而设计的全新GPU。

NVIDIA Rubin CPX：引领AI进入百万Token时代 CPX AI CUDA GPU 第1张

其性能是Vera Rubin NVL144平台的2倍多，更是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍！

它拥有8 EFLOPS的NVFP4计算力、100TB高速内存与1.7 PB/s的内存带宽、128GB的高性价比GDDR7显存。

相较于NVIDIA GB300 NVL72系统，Rubin CPX的注意力机制处理能力提升了3倍。

性能如此强大的Rubin CPX，在变现能力上同样不容小觑。

每投入1亿美元，最高可带来50亿美元的Token收入！

Rubin CPX开创CPX全新处理器类别

Rubin CPX基于Rubin架构构建，是首款专为海量上下文AI打造的CUDA GPU，能够在同一时间推理跨越数百万个知识标记的模型。

可以说，Rubin CPX是专为破解AI“长上下文”瓶颈而生的“特种兵”。

它的出现，为AI带来了百万Token级推理场景下的性能和效率的新突破。

依托于全新的NVIDIA Vera Rubin NVL144 CPX平台，Rubin CPX与NVIDIA Vera CPU和Rubin GPU紧密协同，可以支持多步推理、持久化记忆与长时程上下文。

这意味着在面对软件开发、视频生成、深度研究等领域的复杂任务时，它更加游刃有余。

通过解耦式推理创新，Rubin CPX可为企业带来30-50倍的ROI，重塑推理经济。

大模型的推理主要分为上下文和生成两个阶段。

这两个阶段对基础设施的要求存在本质差异。

上下文阶段以计算受限为主，需要高吞吐处理来摄取并分析海量输入数据。

而生成阶段则以内存带宽受限为主，依赖快速的内存传输与高速互联来维持逐Token的输出性能。

解耦式推理让这两个阶段独立处理，从而优化算力与内存资源，提升吞吐，降低时延。

在生态上，Rubin CPX将受到完整的NVIDIA AI堆栈支持。

NVIDIA Rubin CPX预计将于2026年底可用。

它的推出将为全球开发者与创作者解锁更强大的能力，重新定义企业构建下一代生成式AI应用的可能性。

本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441138.html