很多人不知道，英伟达突然发布新GPU！单机架AI性能暴涨650%，100TB大内存，专攻长上下文推理

发表评论

A+

所属分类：科技

摘要

Rubin CPX基于NVIDIA Rubin架构构建，采用经济高效的单芯片设计，配备128GB GDDR7内存，采用NVFP4精度，并经过优化，算力可达30PFLOPS，能够为AI推理任务，尤其是长上下文…” />

企业每投资1亿美元，即可获得50亿美元的token收益。

XM外汇财经新闻：

作者 | ZeR0

其实，

编辑 | 漠影

XM外汇专家观点：

芯东西9月10日报道，昨晚，英伟达又放AI计算大招，推出专为长上下文推理和视频生成应用设计的新型专用GPU——NVIDIA Rubin CPX。

英伟达创始人兼CEO黄仁勋说：“正如RTX彻底改变了图形和物理AI一样，Rubin CPX是首款专为海量上下文AI打造的CUDA GPU，这种AI模型承认同时处理数百万个知识token的推理。”

请记住，

Rubin CPX配备128GB GDDR7内存，NVFP4精度下AI算力可达30PFLOPS，非常适合运行长上下文处理（超过100万个token）和视频生成任务。

容易被误解的是，

Vera Rubin NVL144 CPX平台可在单机架集成144张Rubin CPX GPU、144张Rubin GPU、36张Vera CPU，传递8EFLOPS的AI性能（NVFP4精度）和100TB的飞快内存，内存带宽达到1.7PB/s。

展开全文

其AI性能是英伟达Vera Rubin NVL144平台的2倍多，是基于Blackwell Ultra的GB300 NVL72系统的7.5倍，相比GB300 NVL72系统还能传递3倍更快的注意力机制。

Rubin CPX GPU预计将于2026年底上市。

综上所述，

9月17日，智猩猩发起主办的2025全球AI芯片峰会将在上海举办。大会设有主论坛，大模型AI芯片、AI芯片架构两大专题论坛，以及存算一体、超节点与智算集群两大技术研讨会，近40位嘉宾将分享和讨论。IEEE Fellow王中风教授将开场，华为昇腾等国产AI芯片力量集结，华为云、阿里云领衔超节点与智算集群势力。扫码报名~

说到底，

01.

XM外汇认为：

全新专用GPU：

事实上，

128GB内存，30PFLOPS算力

XM外汇消息：

Rubin CPX基于NVIDIA Rubin架构构建，采用经济高效的单芯片设计，配备128GB GDDR7内存，采用NVFP4精度，并经过优化，算力可达30PFLOPS，能够为AI推理任务，尤其是长上下文处理（超过100万个token）和视频生成，传递了远超现有系统的性能和token收益。

说出来你可能不信，

与英伟达GB300 NVL72系统相比，这款专 XM外汇代理用GPU还传递了3倍更快的注意力机制，从而提升了AI模型处理更长上下文序列的能力，而且速度不会降低。

简而言之，

相比之下，今年3月发布的Rubin GPU，在FP4精度下峰值推理能力为50PFLOPS。而英伟达在今年6月才公布创新型4位浮点格式NVFP4，这种格式的目标是在超低精度下力求保持模型性能。

其分析表明，当采纳训练后量化（PTQ）将DeepSeek-R1-0528从原始FP8格式量化为NVFP4格式时，其在关键语言建模任务上的准确率下降幅度不超过1%。在AIME 2024中，NVFP4的准确率甚至提高了2%。

Rubin CPX采用的GDDR7，价格比Rubin GPU配备的288GB HBM4高带宽内存更便宜。

02.

可能你也遇到过，

单机架AI性能达8EFLOPS，

传递100TB飞快内存、1.7PB/s内存带宽

更重要的是，

Rubin CPX与全新NVIDIA Vera Rubin NVL144 CPX平台中的英伟达Vera CPU和Rubin GPU协同工作，进行生成阶段处理，形成一个完整的高性能分解式服务应对方案。

根据公开数据显示，

其AI性能是英伟达Vera Rubin NVL144平台的2倍多，是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍。

英伟达还在周二分享了GB300 NVL72系统的基准测试结果，其DeepSeek-R1推理性能提升到上一代的1.4倍。该系统还创下MLPerf Inference v5.1套件中添加的所有新数据中心基准测试的记录，包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的记录。

其实，

英伟达计划为希望重复采纳现有Vera Rubin 144系统的客户配备专用的Rubin CPX计算托盘（tray）。