跳到主要内容

AI 推理专用 ASIC

AI 推理 ASIC 是专为推理工作负载定制的芯片,与训练 ASIC 不同,它们更关注延迟吞吐单位 token 成本

主流 AI 推理 ASIC 对比

型号厂商显存算力 (INT8)TDP互联提供方式
Groq 3 LPX 机柜NVIDIA(收购 Groq)128GB SRAM 聚合~640,000 TOPS~80kW (机柜)640 TB/s2026 H2 (256 LPU/机柜)
TPU 8i (Trillium 2)Google288GB HBM~22,000 TOPS (FP8 密集)N/A3D TorusGoogle Cloud (2026-04)
Google TPU v7 (Ironwood)Google192GB HBM4,614 TFLOPS (FP8)N/A3D Torus, 9,216 PodGoogle Cloud
AWS Trainium 3Amazon144GB HBM5,716 TFLOPS (FP8)~700WNeuronLink-v4AWS Trn3 (2025-12 GA)
AWS Inferentia 2Amazon32GB HBM2e~190 TOPS~150W12 芯片互联AWS Inf2 实例
AWS Inferentia 1AmazonN/A128 TOPS35WN/AAWS Inf1 实例
Google TPU v5eGoogle16GB HBM197 TOPSN/A2D Torus, 256 PodGoogle Cloud
Groq LPU (v1)Groq228MB SRAM1,000 TOPS (估)300W (系统)GroqSyncGroqCloud API
Trainium 2Amazon96GB HBM1,299 TFLOPS (FP8)~700WNeuronLink, 64 UltraServerAWS Trn2

选型建议

按 LLM 规模

  • 超大 LLM(>300B)TPU 8i (288GB HBM), TPU v7 Ironwood (192GB 单芯片)
  • 大 LLM(70B-300B):TPU v7 / Inferentia 2 (12 芯片 = 384GB) / Trainium 3
  • 中等 LLM(7B-70B):Inferentia 2 / Groq LPU / TPU v5e
  • 小 LLM(小于 7B):Inferentia 1 / Groq LPU

按延迟要求

  • 极致低延迟(TTFT < 20ms)Groq 3 LPX 机柜 (NVIDIA 收购后, 2026 H2)
  • 极低延迟(小于 50ms 首次 token):Groq LPU (v1)
  • 低延迟(小于 200ms):TPU 8i / TPU v5e / Inferentia 2
  • 批处理吞吐优先:Trainium 3 / TPU v7

按部署方式

  • AWS 云:Inferentia 2, Trainium 3 (2025-12 GA)
  • Google Cloud:TPU v5e, TPU v6e, TPU v7, TPU 8t (训练) + 8i (推理)
  • GroqCloud API(被 NVIDIA 收购后):Groq 3 LPX (2026 H2) + Groq LPU (v1)
  • 本地 / 私有云:Groq GroqRack, AWS Outposts, Intel Jaguar Shores (2027-2028)

关键差异

Inferentia 2 vs Groq LPU

  • Inferentia 2:可云端租赁,70B 模型需多芯片
  • Groq LPU:超低延迟 LLM,但单芯片 SRAM 仅 228MB(70B 模型需 30+ 芯片)

TPU v5e vs TPU v7

  • TPU v5e:推理成本最低,16GB 显存
  • TPU v7 Ironwood:192GB 大显存,单芯片可加载 70B+ 模型

详细产品页

相关类型