9日,英伟达重磅发布了专为海量上下文AI打造的CUDA GPU——Rubin CPX,将大模型一次性推理带入“百万Token时代”。NVIDIA创始人兼CEO黄仁勋表示,Vera Rubin平台将再次推动AI计算的前沿,不仅带来下一代Rubin GPU,也将开创一个CPX的全新处理器类别。
“百万Token怪兽”正式登场!
昨日(9日),NVIDIA强势推出Rubin CPX,这是一款专为大规模上下文推理而设计的全新GPU。
其性能是Vera Rubin NVL144平台的2倍多,更是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍!
它拥有8 EFLOPS的NVFP4计算力、100TB高速内存与1.7 PB/s的内存带宽、128GB的高性价比GDDR7显存。
相较于NVIDIA GB300 NVL72系统,Rubin CPX的注意力机制处理能力提升了3倍。
性能如此强大的Rubin CPX,在变现能力上同样不容小觑。
每投入1亿美元,最高可带来50亿美元的Token收入!
Rubin CPX基于Rubin架构构建,是首款专为海量上下文AI打造的CUDA GPU,能够在同一时间推理跨越数百万个知识标记的模型。
可以说,Rubin CPX是专为破解AI“长上下文”瓶颈而生的“特种兵”。
它的出现,为AI带来了百万Token级推理场景下的性能和效率的新突破。
依托于全新的NVIDIA Vera Rubin NVL144 CPX平台,Rubin CPX与NVIDIA Vera CPU和Rubin GPU紧密协同,可以支持多步推理、持久化记忆与长时程上下文。
这意味着在面对软件开发、视频生成、深度研究等领域的复杂任务时,它更加游刃有余。
通过解耦式推理创新,Rubin CPX可为企业带来30-50倍的ROI,重塑推理经济。
大模型的推理主要分为上下文和生成两个阶段。
这两个阶段对基础设施的要求存在本质差异。
上下文阶段以计算受限为主,需要高吞吐处理来摄取并分析海量输入数据。
而生成阶段则以内存带宽受限为主,依赖快速的内存传输与高速互联来维持逐Token的输出性能。
解耦式推理让这两个阶段独立处理,从而优化算力与内存资源,提升吞吐,降低时延。
在生态上,Rubin CPX将受到完整的NVIDIA AI堆栈支持。
NVIDIA Rubin CPX预计将于2026年底可用。
它的推出将为全球开发者与创作者解锁更强大的能力,重新定义企业构建下一代生成式AI应用的可能性。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441138.html