Skip to main content

NVIDIA GB200 (Grace Blackwell 200, 2024-Q4)

产品概述

NVIDIA GB200(Grace Blackwell 200) 是 NVIDIA 第二代 Grace Blackwell 超级芯片2024-Q4 量产。将 B200 GPU 通过 NV-HBI 900 GB/s 高速接口与 Arm Grace 72-core CPU 配对,单 Superchip = 1 GPU + 1 CPU72 颗 GB200 组成 NVL72 机柜1 EFLOPS FP4 sparseNVLink 5 130 TB/s 互联,ConnectX-8 800G 网络,是 NVIDIA 2024-2025 数据中心 AI 旗舰

代际对比

  • GH200(2023-Q3):Grace + H100, FP8 1 PF sparse, NVLink 4 60 TB/s
  • GB200(2024-Q4):Grace + B200, FP4 10 PF sparse, NVLink 5 130 TB/s, 1 EFLOPS / NVL72
  • GB300(2025 H2):Vera 88 核 + B300 Ultra + ConnectX-9 1.6T, 1.08 EFLOPS / NVL72已有页

核心规格

项目参数
架构Grace Blackwell 200 Superchip
GPU 芯片1× B200(Blackwell)
CPU 芯片1× Arm Grace(72 核 Neoverse V2)
NV-HBI900 GB/s 双向 CPU-GPU 互联
CPU-GPU 一致性内存统一寻址
GPU 内存192GB HBM3E
GPU 带宽8 TB/s
CPU 内存480GB LPDDR5X(Grace 上)
CPU 带宽512 GB/s
FP4 sparse10 PFLOPS(B200 单 GPU)
FP8 dense2.25 PFLOPS
BF16 dense1.125 PFLOPS
TDP(单 Superchip)1000W
板卡形态主板集成(不可拆)
量产2024-Q4
单价~$60,000-70,000(Superchip 模块)

GB200 NVL72 机柜

项目配置
Superchip 数72× GB200
GPU 数72× B200
CPU 数72× Arm Grace (72 核 × 72 = 5,184 核)
HBM 总量13.8 TB HBM3E
LPDDR5X 总量34.6 TB
NVLink 5 域内130 TB/s 全互联
ConnectX-8 出口72× 800G = 57.6 Tb/s
FP4 sparse 总算力720 PFLOPS
FP8 dense 总算力162 PFLOPS
机柜 TDP~120 kW
机柜数8(标准数据中心 row)
价格~$3M / 机柜(推测)

GB200 NVL576(8 机柜)

项目配置
Superchip 数576× GB200
GPU 数576× B200
NVLink 5 域跨机柜 130 TB/s
HBM 总量110 TB
FP4 sparse 总算力5.76 EFLOPS
FP8 dense 总算力1.3 EFLOPS
机柜 TDP960 kW
价格~$24M

GB200 NVL576 优势8 机柜 576 GPU 共享 130 TB/s NVLink 域,是 2024 业界最大单一 AI 计算域,对万亿参数 LLM 训练至关重要。

GH200 → GB200 → GB300 对比

指标GH200 (2023-Q3)GB200 (2024-Q4)GB300 (2025 H2)
GPUH100B200B300 Ultra
CPUGrace 72 核Grace 72 核Vera 88 核
GPU 内存96GB HBM3192GB HBM3E288GB HBM3E
GPU 带宽3.35 TB/s8 TB/s10 TB/s
NVLink 域60 TB/s130 TB/s130 TB/s
网络ConnectX-7 400GConnectX-8 800GConnectX-9 1.6T
FP4 sparseN/A (FP8 2 PF)10 PF15 PF
FP8 dense1 PF2.25 PF3.75 PF
TDP (Superchip)1000W1000W1200W

ConnectX-8 800G 网络

维度规格
速率800 Gb/s 单端口(2× ConnectX-7
端口数2-4 per Superchip
协议InfiniBand NDR / RoCE v2
延迟< 0.5 μs
GPUDirectGPU-NIC 直接 DMA
拥塞控制SHARP v3
2024 部署ORNL Aurora 后继、CSCS Alps、EuroHPC

ConnectX-8 升级2× 速率(400G → 800G),GPUDirect RDMA 3.0支持 NVLink over IB(跨机柜 NVLink)。

Arm Grace 72 核

维度规格
架构Arm Neoverse V2
核心数72 核
L3 Cache共享 192MB
LPDDR5X480GB
带宽512 GB/s
TDP200W(仅 CPU)
PCIeGen5 ×32
特性SVE2 增强

Grace vs Vera 升级:Vera 是 Grace 下一代(88 核 + 256MB L3 + 480GB LPDDR5X),GB200 仍用 Grace 72 核GB300 才升级到 Vera

GB200 适用场景

  • 万亿参数 LLM 训练(NVL576 域,130 TB/s NVLink)
  • MoE 模型训练(专家并行 + 张量并行)
  • 超大规模 RLHF(576 GPU 同步)
  • 多模态大模型(视频 + 文本 + 图像)
  • AI for Science(气候、材料、生命科学)
  • 云服务 AI(CoreWeave、Lambda、OVHcloud)
  • ❌ 小规模推理(成本过高)
  • ❌ 中国市场(出口管制)

GB200 客户

  • Meta:Llama 4 / 5 训练(>$10B 订单)
  • Microsoft Azure:OpenAI GPT-5 + Copilot
  • Google Cloud:Gemini 1.5 / 2.0
  • AWS:Anthropic Claude 4 + Bedrock
  • CoreWeave:3 万+ GB200 部署(2025 H1)
  • xAI Grok 3:Colossus 集群 100K+ GB200
  • Oracle Cloud:OCI 部署
  • Lambda Labs:Lambda 1-Click Cluster

厂商信息

项目内容
公司NVIDIA Corporation
产品页https://www.nvidia.com/en-us/data-center/grace-blackwell/
CEOJensen Huang(黄仁勋)
代工TSMC 4NP(B200)+ TSMC N3(Grace)
2024-Q4 量产
价格Superchip ~$60-70K, NVL72 ~$3M

GB200 vs GB300

指标GB200 (2024-Q4)GB300 (2025 H2)
GPUB200B300 Ultra
CPUGrace 72 核Vera 88 核
GPU 内存192GB HBM3E288GB HBM3E
GPU 带宽8 TB/s10 TB/s
网络ConnectX-8 800GConnectX-9 1.6T
FP4 sparse10 PF15 PF
FP8 dense2.25 PF3.75 PF
TDP (Superchip)1000W1200W

GB300 升级GPU 内存 +50%(192→288GB)、算力 +50%(FP8 2.25→3.75 PF)、网络 2×(800G→1.6T),价格相当

关键特性

  • NVL72 域:72 GPU 共享 130 TB/s NVLink
  • NVL576 域:576 GPU 跨 8 机柜 NVLink
  • ConnectX-8 800G:单端口 800G
  • Arm Grace 72 核:CPU + GPU 统一内存寻址
  • FP4 10 PFLOPS:推理优化
  • 缺点:TDP 1000W、出口管制、软件仅 CUDA

相关卡