Skip to main content

NVIDIA RTX 5090 (Blackwell 消费级旗舰)

产品概述

NVIDIA RTX 5090 是 2025-01 CES 发布的消费级旗舰,Blackwell 架构首次下放消费级 GPU。32GB GDDR7 显存、21,760 CUDA 核心、575W TDP,AI 算力(FP4)达 3,352 TOPS,是 RTX 4090 的 2.5×

定位为 本地 LLM 推理(70B+ 模型)、Stable Diffusion XL 训练、消费级 AI 开发者首选。

核心规格

项目参数
架构Blackwell (GB202)
制程TSMC 4N(5nm 定制)
CUDA 核心21,760
Tensor 核心680(第五代)
RT 核心170(第四代)
基础频率2.01 GHz
Boost 频率2.41 GHz
显存32 GB GDDR7
显存带宽1,792 GB/s(28 Gbps × 512-bit)
FP32 算力104.8 TFLOPS
FP16 Tensor419 TFLOPS(稀疏)
FP8 Tensor838 TFLOPS(稀疏)
FP4 Tensor3,352 TOPS(稀疏)
INT8 Tensor1,676 TOPS
TDP575 W
电源接口1× 16-pin (12V-2x6)
首发价$1,999
首发日期2025-01-30

与 RTX 4090 对比

指标RTX 5090RTX 4090提升
架构BlackwellAda Lovelace新代
CUDA 核心21,76016,3841.33×
显存32GB GDDR724GB GDDR6X1.33×
显存带宽1,792 GB/s1,008 GB/s1.78×
FP16 Tensor419 TFLOPS165 TFLOPS2.5×
FP4 Tensor3,352 TOPSN/A新增
TDP575W450W1.28×
价格$1,999$1,5991.25×

Blackwell 新特性

FP4 精度支持

  • 原生 FP4 张量核心(消费级首次)。
  • 推理时模型显存占用减少 50%(vs FP8)。
  • 70B LLM 可在 32GB 显存跑 FP4 量化(~40GB 模型压缩后)。

DLSS 4 多帧生成

  • Multi Frame Generation:单帧生成 3 帧(vs DLSS 3 单帧 1 帧)。
  • 仅限游戏,但展示 Blackwell 算力。

GDDR7 显存

  • 28 Gbps 速率(vs GDDR6X 21 Gbps)。
  • 1,792 GB/s 带宽 = 2× RTX 4090
  • 缓解 LLM 推理的 memory-bound 瓶颈。

LLM 推理性能

模型量化RTX 5090 (32GB)RTX 4090 (24GB)提升
Llama 3 8BFP16~95 tok/s~70 tok/s1.36×
Llama 3 70BFP4~28 tok/sOOM突破
Llama 3 70BINT4~22 tok/s~15 tok/s1.47×
Mixtral 8x7BINT4~45 tok/s~32 tok/s1.41×
Qwen 2.5 72BFP4~26 tok/sOOM突破

70B 模型 FP4 量化(~40GB)可全驻显存——32GB 显存是关键。

厂商信息

项目内容
厂商NVIDIA Corporation
产品页https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/
首发价$1,999(FE Founders Edition)
目标市场消费级 AI、创作者、研究人员、本地 LLM

适用场景

  • 本地 70B LLM 推理(FP4 量化,32GB 显存)
  • ✅ Stable Diffusion XL / Flux 训练与推理
  • ✅ 视频创作(DaVinci Resolve AI 加速)
  • ✅ 8K 游戏 + 帧生成
  • ❌ 数据中心(应使用 H100/B200)
  • ❌ 多机训练(缺乏 NVLink)

相关卡