数据中心 AI 推理 GPU

数据中心 AI 推理 GPU 是专门优化推理工作负载的 GPU，相比训练卡更注重 每瓦特吞吐、延迟和 TCO（总拥有成本）。2025 年 LLM 推理需求爆发，推理 GPU 市场快速扩大。

主流 AI 推理 GPU 对比

型号	架构	显存	FP8 算力	TDP	形态	适用场景
NVIDIA B300 Ultra	Blackwell Ultra	288GB HBM3e	14 PFLOPS (FP4 稀疏)	1,400W	SXM	DeepSeek 22,476 TGS Prefill
NVIDIA B100/B200	Blackwell	192GB HBM3e	7-9 PFLOPS	700-1000W	SXM	旗舰推理
NVIDIA H200	Hopper	141GB HBM3e	3,958 TFLOPS	700W	PCIe 5.0	长上下文推理
NVIDIA H100	Hopper	80GB HBM3	3,958 TFLOPS	700W	PCIe 5.0	大规模 LLM 推理
NVIDIA L40S	Ada Lovelace	48GB GDDR6 ECC	733 TFLOPS	350W	PCIe 4.0	通用推理、Omniverse
NVIDIA L4	Ada Lovelace	24GB GDDR6	485 TFLOPS	72W	PCIe 4.0	云端推理、视频 AI
NVIDIA L2	Ada Lovelace	24GB GDDR6	96 TFLOPS	50-75W	PCIe 4.0	边缘 / 电信推理
NVIDIA A100 80GB	Ampere	80GB HBM2e	624 TOPS (INT8)	400W	PCIe 4.0	大模型推理
NVIDIA T4	Turing	16GB GDDR6	N/A	70W	PCIe 3.0	轻量推理、vGPU