NVIDIA RTX 5090 (Blackwell 消费级旗舰)
产品概述
NVIDIA RTX 5090 是 2025-01 CES 发布的消费级旗舰,Blackwell 架构首次下放消费级 GPU。32GB GDDR7 显存、21,760 CUDA 核心、575W TDP,AI 算力(FP4)达 3,352 TOPS,是 RTX 4090 的 2.5×。
定位为 本地 LLM 推理(70B+ 模型)、Stable Diffusion XL 训练、消费级 AI 开发者首选。
核心规格
| 项目 | 参数 |
|---|
| 架构 | Blackwell (GB202) |
| 制程 | TSMC 4N(5nm 定制) |
| CUDA 核心 | 21,760 |
| Tensor 核心 | 680(第五代) |
| RT 核心 | 170(第四代) |
| 基础频率 | 2.01 GHz |
| Boost 频率 | 2.41 GHz |
| 显存 | 32 GB GDDR7 |
| 显存带宽 | 1,792 GB/s(28 Gbps × 512-bit) |
| FP32 算力 | 104.8 TFLOPS |
| FP16 Tensor | 419 TFLOPS(稀疏) |
| FP8 Tensor | 838 TFLOPS(稀疏) |
| FP4 Tensor | 3,352 TOPS(稀疏) |
| INT8 Tensor | 1,676 TOPS |
| TDP | 575 W |
| 电源接口 | 1× 16-pin (12V-2x6) |
| 首发价 | $1,999 |
| 首发日期 | 2025-01-30 |
与 RTX 4090 对比
| 指标 | RTX 5090 | RTX 4090 | 提升 |
|---|
| 架构 | Blackwell | Ada Lovelace | 新代 |
| CUDA 核心 | 21,760 | 16,384 | 1.33× |
| 显存 | 32GB GDDR7 | 24GB GDDR6X | 1.33× |
| 显存带宽 | 1,792 GB/s | 1,008 GB/s | 1.78× |
| FP16 Tensor | 419 TFLOPS | 165 TFLOPS | 2.5× |
| FP4 Tensor | 3,352 TOPS | N/A | 新增 |
| TDP | 575W | 450W | 1.28× |
| 价格 | $1,999 | $1,599 | 1.25× |
Blackwell 新特性
FP4 精度支持
- 原生 FP4 张量核心(消费级首次)。
- 推理时模型显存占用减少 50%(vs FP8)。
- 70B LLM 可在 32GB 显存跑 FP4 量化(~40GB 模型压缩后)。
DLSS 4 多帧生成
- Multi Frame Generation:单帧生成 3 帧(vs DLSS 3 单帧 1 帧)。
- 仅限游戏,但展示 Blackwell 算力。
GDDR7 显存
- 28 Gbps 速率(vs GDDR6X 21 Gbps)。
- 1,792 GB/s 带宽 = 2× RTX 4090。
- 缓解 LLM 推理的 memory-bound 瓶颈。
LLM 推理性能
| 模型 | 量化 | RTX 5090 (32GB) | RTX 4090 (24GB) | 提升 |
|---|
| Llama 3 8B | FP16 | ~95 tok/s | ~70 tok/s | 1.36× |
| Llama 3 70B | FP4 | ~28 tok/s | OOM | 突破 |
| Llama 3 70B | INT4 | ~22 tok/s | ~15 tok/s | 1.47× |
| Mixtral 8x7B | INT4 | ~45 tok/s | ~32 tok/s | 1.41× |
| Qwen 2.5 72B | FP4 | ~26 tok/s | OOM | 突破 |
70B 模型 FP4 量化(~40GB)可全驻显存——32GB 显存是关键。
厂商信息
适用场景
- ✅ 本地 70B LLM 推理(FP4 量化,32GB 显存)
- ✅ Stable Diffusion XL / Flux 训练与推理
- ✅ 视频创作(DaVinci Resolve AI 加速)
- ✅ 8K 游戏 + 帧生成
- ❌ 数据中心(应使用 H100/B200)
- ❌ 多机训练(缺乏 NVLink)
相关卡