跳到主要内容

NVIDIA Vera Rubin 平台深度解析:6 芯片封装、288GB HBM4、50 PFLOPS FP4

· 阅读需 6 分钟
AI Compute Cards Wiki Editorial
Industry Research Team

NVIDIA Vera Rubin 平台是 Blackwell 之后 NVIDIA 推出的下一代旗舰计算平台。本文将从命名由来、6 芯片封装、内存子系统、算力矩阵、互联架构、机柜级方案、软件生态等角度对其进行深度解析。

命名由来:纪念天文学家 Vera Rubin

NVIDIA 选择了"Vera Rubin"作为下一代平台代号,纪念天文学家 Vera Florence Cooper Rubin(1928-2016)。她在 1960-70 年代通过研究星系自转曲线,首次确凿地证实了暗物质的存在

NVIDIA 用她的名字命名 AI 算力革命的下一代平台,有着深刻的哲学寓意:

  • 暗物质是"看不见"却主导宇宙质量的主体
  • AI 算力是"看不见"却主导数字经济的底层基础设施

6 芯片封装(CoWoS-L)

Vera Rubin 平台采用业界首个 6 芯片 CoWoS-L 封装

芯片数量角色制程
Vera CPU1Host CPU / 预取 / 互联主控TSMC 3NP
Rubin GPU Die2矩阵计算核心TSMC 3NP / 4NP
I/O / HBM Base Die3HBM4 PHY + I/O + 互联TSMC 4NP

相比 Blackwell B300 Ultra 的 2 芯片封装(仅 2 个 GPU die),Vera Rubin 芯片数提升 3 倍,晶体管数也大幅增长。

核心规格(每 GPU)

项目参数
架构Rubin
晶体管数~3,400 亿(每 GPU)
显存288 GB HBM4
显存带宽22 TB/s(HBM3e 的 2.75×)
FP4 Tensor(稀疏)50 PFLOPS
FP8 Tensor(稀疏)25 PFLOPS
FP16/BF16 Tensor12.5 PFLOPS
TDP~1,800 W(液冷必需)

数据约定:NVIDIA Blackwell 之后的产品继续以 sparse(稀疏) 算力为官方口径。FP4 50 PF = dense 25 PF。跨厂商对比时 AMD MI400 的 40 PF FP4 dense = NVIDIA Rubin R200 的 80 PF FP4 sparse。

Vera CPU 详解

Vera Rubin 平台首次集成 NVIDIA 自研的 ARM 兼容 CPU

  • 88 个 Olympus 核心(推测,参照 NVIDIA Grace 的 72 核 Neoverse V2)
  • TSMC 3NP 制程
  • 1:1 与 Rubin GPU 配对(1 颗 Vera : 2 颗 Rubin die)
  • 角色:host CPU + 预取器 + NVLink 6 主控 + PCIe Gen 6 root complex

这是 NVIDIA 在 CPU 设计上的重要里程碑——在收购 ARM 受阻后,NVIDIA 选择自研 ARM 兼容核心,与 Apple Silicon 路线类似。

项目NVLink 5(B300)NVLink 6(Rubin)提升
每 GPU 带宽1.8 TB/s3.5 TB/s
GPU-to-GPU 跳数11(全互联 switch)
机柜内 GPU 数7272

ConnectX-9(双 NIC)

项目ConnectX-8(B300)ConnectX-9(Rubin)提升
每 GPU 端口1× 1.6 Tbps2× 14.4 Tbps18×
每 GPU 聚合1.6 Tbps28.8 TB/s18,000× 字节速率
拓扑3D Torus3D Torus / 全互联

ConnectX-9 28.8 TB/s 意味着 GPU 不会成为网络瓶颈。这是"in-network computing"的终极形态:GPU 间通信与本地 HBM 访问一样快。

Rubin NVL72 / NVL576 机柜

Rubin NVL72

项目配置
GPU 数72 颗 Rubin
CPU 数36 颗 Vera
HBM 总量20.7 TB HBM4
NVLink 聚合252 TB/s
FP4 稀疏算力3.6 EFLOPS
FP8 稀疏算力1.8 EFLOPS
TDP(机柜)~130 kW

Rubin NVL576

项目配置
GPU 数576 颗 Rubin
CPU 数288 颗 Vera
HBM 总量165 TB HBM4
NVLink 聚合2,016 TB/s
FP4 稀疏算力28.8 EFLOPS
FP8 稀疏算力14.4 EFLOPS
TDP(机柜)~1 MW

Rubin NVL576 = 28.8 EFLOPS FP4 = 1.5 ExaFLOPS FP8。这比 GB300 NVL72(约 0.5 EF FP8)提升 5.7 倍,是当前全球最强的 AI 超级节点。

与同期竞品对比

指标Rubin R200AMD MI400TPU 8tTrainium 3
显存288 GB HBM4432 GB HBM4216 GB HBM144 GB HBM
显存带宽22 TB/s19.6 TB/s6,528 GB/s~4.5 TB/s
FP4 算力50 PF (sparse)40 PF (dense)
FP8 算力25 PF (sparse)20 PF (dense)7 PF5.7 PF
互联NVLink 6 + CX-9UALoF3D TorusNeuronLink-v4
TDP1,800 W1,000 WN/A700 W
CPUVera 88 核EPYC VeniceArm AxionXeon

NVIDIA 优势:每 GPU 算力(dense 25 PF FP8)、NVLink 互联、ConnectX-9 网络、CUDA 生态。 AMD 优势:单卡显存(432 GB)、开放 UALoF 互联、Helios 机柜 72-GPU 集成。 Google 优势:JAX 训练范式、Pod 级(9,216 颗)超大规模。 AWS 优势:每美元性能(4.4× vs Trainium 2)、Trn3 UltraServer 144 chip。

软件生态

  • CUDA 13.x:新增 Rubin 微架构支持
  • cuDNN 10.x
  • TensorRT-LLM 1.0+(FP4 / NVFP4 全优化)
  • vLLM 0.8+(Vera Rubin 优化版)
  • NCCL 2.21+(ConnectX-9 + NVLink 6 支持)
  • NVFP4:继承自 Blackwell Ultra,2nd gen

适用场景

  • 超大规模 LLM 训练(100B+ 参数,万卡级集群)
  • 超低延迟超大模型推理(1T+ 参数实时响应)
  • 科学研究(气候模拟、生物制药、密码学)
  • 多模态生成(文生视频、4D 内容创作)
  • ❌ 中小模型训练(成本过高,B300 Ultra 更经济)
  • ❌ 边缘部署(功耗/体积不可接受)

详细产品页

总结

NVIDIA Vera Rubin 平台是 AI 算力进化的又一里程碑:

  1. 6 芯片封装 突破单 die 物理极限
  2. HBM4 + 22 TB/s 解决 memory wall
  3. 50 PF FP4 sparse 进入 50 PF 级别时代
  4. ConnectX-9 28.8 TB/s 解决网络瓶颈
  5. Rubin NVL576 28.8 EFLOPS 进入 exaFLOPS 时代
  6. Vera CPU 终结 NVIDIA 缺 CPU 的历史

2026 H2,AI 算力将再次飞跃。