NVIDIA RTX 5090 (Blackwell 消费级旗舰)

产品概述

NVIDIA RTX 5090 是 2025-01 CES 发布的消费级旗舰，Blackwell 架构首次下放消费级 GPU。32GB GDDR7 显存、21,760 CUDA 核心、575W TDP，AI 算力（FP4）达 3,352 TOPS，是 RTX 4090 的 2.5×。

定位为 本地 LLM 推理（70B+ 模型）、Stable Diffusion XL 训练、消费级 AI 开发者首选。

核心规格

项目	参数
架构	Blackwell (GB202)
制程	TSMC 4N（5nm 定制）
CUDA 核心	21,760
Tensor 核心	680（第五代）
RT 核心	170（第四代）
基础频率	2.01 GHz
Boost 频率	2.41 GHz
显存	32 GB GDDR7
显存带宽	1,792 GB/s（28 Gbps × 512-bit）
FP32 算力	104.8 TFLOPS
FP16 Tensor	419 TFLOPS（稀疏）
FP8 Tensor	838 TFLOPS（稀疏）
FP4 Tensor	3,352 TOPS（稀疏）
INT8 Tensor	1,676 TOPS
TDP	575 W
电源接口	1× 16-pin (12V-2x6)
首发价	$1,999
首发日期	2025-01-30
发布	2025-01-07

与 RTX 4090 对比

指标	RTX 5090	RTX 4090	提升
架构	Blackwell	Ada Lovelace	新代
CUDA 核心	21,760	16,384	1.33×
显存	32GB GDDR7	24GB GDDR6X	1.33×
显存带宽	1,792 GB/s	1,008 GB/s	1.78×
FP16 Tensor	419 TFLOPS	165 TFLOPS	2.5×
FP4 Tensor	3,352 TOPS	N/A	新增
TDP	575W	450W	1.28×
价格	$1,999	$1,599	1.25×

Blackwell 新特性

FP4 精度支持

原生 FP4 张量核心（消费级首次）。
推理时模型显存占用减少 50%（vs FP8）。
70B LLM 可在 32GB 显存跑 FP4 量化（~40GB 模型压缩后）。

DLSS 4 多帧生成

Multi Frame Generation：单帧生成 3 帧（vs DLSS 3 单帧 1 帧）。
仅限游戏，但展示 Blackwell 算力。

GDDR7 显存

28 Gbps 速率（vs GDDR6X 21 Gbps）。
1,792 GB/s 带宽 = 2× RTX 4090。
缓解 LLM 推理的 memory-bound 瓶颈。

LLM 推理性能

模型	量化	RTX 5090 (32GB)	RTX 4090 (24GB)	提升
Llama 3 8B	FP16	~95 tok/s	~70 tok/s	1.36×
Llama 3 70B	FP4	~28 tok/s	OOM	突破
Llama 3 70B	INT4	~22 tok/s	~15 tok/s	1.47×
Mixtral 8x7B	INT4	~45 tok/s	~32 tok/s	1.41×
Qwen 2.5 72B	FP4	~26 tok/s	OOM	突破

70B 模型 FP4 量化（~40GB）可全驻显存——32GB 显存是关键。

厂商信息

项目	内容
厂商	NVIDIA Corporation
产品页	https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/
首发价	$1,999（FE Founders Edition）
目标市场	消费级 AI、创作者、研究人员、本地 LLM

适用场景

✅ 本地 70B LLM 推理（FP4 量化，32GB 显存）
✅ Stable Diffusion XL / Flux 训练与推理
✅ 视频创作（DaVinci Resolve AI 加速）
✅ 8K 游戏 + 帧生成
❌ 数据中心（应使用 H100/B200）
❌ 多机训练（缺乏 NVLink）

产品概述​

核心规格​

与 RTX 4090 对比​

Blackwell 新特性​

FP4 精度支持​

DLSS 4 多帧生成​

GDDR7 显存​

LLM 推理性能​

厂商信息​

适用场景​

相关卡​