Skip to main content

GPU vs NPU vs TPU:三种 AI 加速架构深度对比,你应该用哪种?

· 5 min read
AI Compute Cards Wiki Editorial
Industry Research Team

AI 加速芯片领域有三大主流架构:GPUNPUTPU。再加上近年出现的 LPU(语言处理器),很多开发者搞不清它们之间的区别。

本文从架构设计理念、生态成熟度、实际性能表现、部署成本四个维度进行对比。


架构设计理念

GPU:通用 AI 计算平台

GPU 最初为图形渲染设计,但因其大规模并行计算能力,被 NVIDIA 改造为通用 AI 加速器。

核心设计:大量 CUDA Core + Tensor Core(专用矩阵运算单元),兼顾 AI 计算和通用并行计算。

代表产品:NVIDIA H100、B200、AMD MI300X

优势:通用性最强,从训练到推理、从 LLM 到 diffusion 模型、从科学计算到图形渲染,一块卡全搞定。

劣势:针对特定模型架构的优化不如专用芯片极致。

NPU:端侧 AI 推理专家

NPU 专为神经网络推理设计,强调低功耗、低成本、高能效比

核心设计:脉动阵列(Systolic Array)或乘加树(MAC Tree),针对卷积和矩阵乘法高度优化。

代表产品:华为昇腾 910B、Qualcomm Hexagon、Apple Neural Engine、AMD Ryzen AI NPU

优势:能效比极高——同样功耗下推理性能远优于 GPU;适合移动端、边缘端、嵌入式场景。

劣势:灵活性差(主要服务于推理),训练能力有限或完全不具备;软件生态高度依赖厂商。

TPU:Google 生态的定制加速器

TPU 是 Google 专为其 TensorFlow/JAX 框架设计的 ASIC。

核心设计:大规模脉动阵列(Systolic Array),针对矩阵乘法极致优化;片内 HBM 带宽极高。

代表产品:Google Cloud TPU v5e、v5p

优势:Google Cloud 上训练 JAX/TensorFlow 模型的性价比极高;TPU v5p 集群互联性能出色。

劣势:仅限 Google Cloud 使用;PyTorch 适配不完善;不出售硬件,只能租用。


性能实测对比

LLM 推理(Llama 2 70B)

芯片Tokens/s功耗(W)能效(tok/s/W)
NVIDIA H100 SXM5~120 (FP16)7000.17
NVIDIA L40S~40 (FP16)3000.13
华为昇腾 910B~80 (FP16)3100.26
Groq LPU v1~330 (FP16)3001.10
Google TPU v5e~90 (BF16)

Groq LPU 在 LLM 推理延迟上有绝对优势,但这是因为它放弃了灵活性——只能做 Transformer 推理。

训练(GPT-3 175B 等效)

芯片配置训练时间成本估计
8× H100 SXM5~1.1 天~$25,000/天
8× 昇腾 910B~1.5 天 (官方)需询价
8× TPU v5p~1.0 天需租赁
8× AMD MI300X~1.3 天~$15,000/天

生态成熟度对比

维度GPU (NVIDIA)NPU (昇腾)TPU (Google)
PyTorch 支持✅ 原生⚠️ torch_npu❌ 需 JAX
TensorFlow 支持✅ 原生⚠️ 适配中✅ 原生
vLLM 推理✅ 最佳⚠️ 社区版
Hugging Face✅ 原生⚠️ 部分
Docker 容器化✅ NGC 容器⚠️ 昇腾容器
社区/文档⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
第三方工具极丰富有限限于 GCP

结论:NVIDIA GPU 的软件生态护城河极深,这不是硬件性能能简单跨越的。


成本对比(以 1 年 TCO 估算)

方案硬件/租赁成本运维成本开发迁移成本总评
4× H100 SXM5 自建~$140,000最稳妥
4× 昇腾 910B 自建~$80,000-120,000中-高国产合规首选
TPU v5p 云上按量付费高(需迁移到 JAX)GCP 生态限定
8× L40S 自建~$60,000性价比均衡

什么时候选什么?

✅ 选 GPU(NVIDIA)

除非你有非常特殊的理由,否则默认选 GPU。理由很简单:生态。

  • 你在用 PyTorch/TensorFlow/JAX(全部原生支持 CUDA)
  • 你需要同时做训练和推理
  • 你希望社区文档齐全,遇到问题能搜到答案
  • 你需要灵活的部署方案(本地/云/边缘)

✅ 选 NPU(昇腾/端侧 NPU)

  • 你是中国政企客户:国产化要求,昇腾 910B 是最成熟的国产训练方案
  • 你在做端侧 AI:手机 NPU(Apple/Qualcomm)或 PC NPU(AMD Ryzen AI)是能效最优解
  • 你需要超低功耗推理:独立 NPU(Hailo-8L)在边缘场景比 GPU 省电 5-10 倍

✅ 选 TPU(Google Cloud)

  • 你已经是 Google Cloud 深度用户
  • 你的模型用 JAX 开发(或者愿意迁到 JAX)
  • 你需要大规模 TPU 集群(TPU v5p 的集群互联性能优势明显)
  • 你不介意被锁定在 GCP

未来趋势

  • 异构计算成为常态:高端 AI 集群将同时包含 GPU + NPU + CPU 协同工作
  • 架构收敛:NVIDIA 在 GPU 中加入越来越多的专用 AI 单元(Transformer Engine),NPU 则在增加通用计算能力
  • 软件生态决定成败:未来 3 年,AMD 和华为能否挑战 NVIDIA 的关键不在硬件算力,而在 CUDA 兼容性和开发者体验
  • 推理专用芯片崛起:Groq LPU、Cerebras WSE、Etched Sohu 等 AI 专用架构正在改写推理的性能/成本曲线

在 MirrorFrog 你可以找到以上所有芯片的驱动下载、开发文档和详细规格。