Skip to main content

NVIDIA H100 NVL

产品概述

NVIDIA H100 NVL 是 H100 的 LLM 专用变体,双 die 封装(类似 MCM),单卡提供 94GB HBM3(双 48GB 堆叠)或 188GB HBM3e。专为超大 LLM 推理(GPT-4 类 1.8T 模型)设计,可单卡加载。

PCIe Gen5 接口(vs 原始 H100 SXM 的 NVLink),方便部署于 PCIe 服务器。

核心规格

项目参数
架构Hopper (GH100, 双 die)
制程TSMC 4N
CUDA 核心14,592 × 2 = 29,184(双 die)
Tensor 核心456 × 2 = 912(第四代)
基础频率1.08 GHz
Boost 频率1.78 GHz
显存94 GB HBM3(双 48GB 堆叠) / 188 GB HBM3e
显存带宽3.35 TB/s(HBM3)/ 7.0 TB/s(HBM3e)
FP16 Tensor1979 TFLOPS(稀疏)
FP8 Tensor3958 TFLOPS(稀疏)
TDP350-400 W(PCIe)/ 700 W(SXM-NVL)
接口PCIe Gen5 ×16
首发2024-Q1
价格$30,000-$40,000(OEM)

与 H100 SXM 对比

指标H100 SXM 80GBH100 NVL 94GB差异
显存容量80GB HBM394GB HBM3+17.5%
显存带宽3.35 TB/s3.35 TB/s持平
NVLink900 GB/s600 GB/s(PCIe)-33%
互联带宽NVLink 18-linkPCIe Gen5灵活
TDP700W350-400W-43%
适用训练/HPCLLM 推理优化

LLM 推理场景

单卡加载超大模型

  • Llama 3 70B FP16(~140GB) → 必须 2 卡
  • Llama 3 70B INT4(~40GB)单卡即可
  • Mixtral 8x22B INT4(~80GB) → 单卡可载
  • Llama 3 405B INT4(~230GB) → 3 卡 NVL

多卡 NVL Bridge

  • 2 张 H100 NVL 通过 NVLink Bridge 互联 → 188GB 统一显存
  • 2x H100 NVL 推理 405B 模型(量化后~230GB)

实际部署案例

  • NVIDIA AI Enterprise 认证服务器(戴尔、HPE、Supermicro)
  • CoreWeave / Lambda Labs 云端 NVL 实例
  • Hugging Face Inference Endpoints 部分 H100 实例

厂商信息

项目内容
厂商NVIDIA
产品页https://www.nvidia.com/en-us/data-center/h100/
OEM 价格$30,000-$40,000(取决于 OEM)
目标市场超大 LLM 推理、企业 GenAI

适用场景

  • 超大 LLM 推理(70B+ 单卡)
  • ✅ 长上下文 LLM(94GB 可加载 200K 上下文)
  • ✅ PCIe 服务器部署
  • ✅ 双卡 NVL Bridge 加载 405B 模型
  • ❌ 训练(H100 SXM 更适合,NVLink 带宽更高)
  • ❌ HPC(应使用 H100 SXM/H200)

相关卡