跳到主要内容

AI 推理专用 ASIC

AI 推理 ASIC 是专为推理工作负载定制的芯片，与训练 ASIC 不同，它们更关注延迟、吞吐和单位 token 成本。

主流 AI 推理 ASIC 对比

型号	厂商	显存	算力 (INT8)	TDP	互联	提供方式
Groq 3 LPX 机柜	NVIDIA（收购 Groq）	128GB SRAM 聚合	~640,000 TOPS	~80kW (机柜)	640 TB/s	2026 H2 (256 LPU/机柜)
TPU 8i (Trillium 2)	Google	288GB HBM	~22,000 TOPS (FP8 密集)	N/A	3D Torus	Google Cloud (2026-04)
Google TPU v7 (Ironwood)	Google	192GB HBM	4,614 TFLOPS (FP8)	N/A	3D Torus, 9,216 Pod	Google Cloud
AWS Trainium 3	Amazon	144GB HBM	5,716 TFLOPS (FP8)	~700W	NeuronLink-v4	AWS Trn3 (2025-12 GA)
AWS Inferentia 2	Amazon	32GB HBM2e	~190 TOPS	~150W	12 芯片互联	AWS Inf2 实例
AWS Inferentia 1	Amazon	N/A	128 TOPS	35W	N/A	AWS Inf1 实例
Google TPU v5e	Google	16GB HBM	197 TOPS	N/A	2D Torus, 256 Pod	Google Cloud
Groq LPU (v1)	Groq	228MB SRAM	1,000 TOPS (估)	300W (系统)	GroqSync	GroqCloud API
Trainium 2	Amazon	96GB HBM	1,299 TFLOPS (FP8)	~700W	NeuronLink, 64 UltraServer	AWS Trn2

选型建议

按 LLM 规模

超大 LLM（>300B）：TPU 8i (288GB HBM), TPU v7 Ironwood (192GB 单芯片)
大 LLM（70B-300B）：TPU v7 / Inferentia 2 (12 芯片 = 384GB) / Trainium 3
中等 LLM（7B-70B）：Inferentia 2 / Groq LPU / TPU v5e
小 LLM（小于 7B）：Inferentia 1 / Groq LPU

按延迟要求

极致低延迟（TTFT < 20ms）：Groq 3 LPX 机柜 (NVIDIA 收购后, 2026 H2)
极低延迟（小于 50ms 首次 token）：Groq LPU (v1)
低延迟（小于 200ms）：TPU 8i / TPU v5e / Inferentia 2
批处理吞吐优先：Trainium 3 / TPU v7

按部署方式

AWS 云：Inferentia 2, Trainium 3 (2025-12 GA)
Google Cloud：TPU v5e, TPU v6e, TPU v7, TPU 8t (训练) + 8i (推理)
GroqCloud API（被 NVIDIA 收购后）：Groq 3 LPX (2026 H2) + Groq LPU (v1)
本地 / 私有云：Groq GroqRack, AWS Outposts, Intel Jaguar Shores (2027-2028)

关键差异

Inferentia 2 vs Groq LPU

Inferentia 2：可云端租赁，70B 模型需多芯片
Groq LPU：超低延迟 LLM，但单芯片 SRAM 仅 228MB（70B 模型需 30+ 芯片）

TPU v5e vs TPU v7

TPU v5e：推理成本最低，16GB 显存
TPU v7 Ironwood：192GB 大显存，单芯片可加载 70B+ 模型

详细产品页

AWS Inferentia - 第一代
AWS Inferentia 2 - 32GB HBM
AWS Trainium 2 - 训练推理 fungible
AWS Trainium 3 - 2025-12 GA, 3nm
Google TPU v5p - 训练为主
Google TPU v6e (Trillium) - 训练/推理 fungible
Google TPU v7 (Ironwood) - 推理时代旗舰
Google TPU 8i - 2026-04 推理专用
Groq LPU - 超低延迟
NVIDIA Groq 3 LPX - 2026 H2 256 LPU 机柜
Qualcomm Cloud AI 100 - 低功耗推理

相关类型

主流 AI 推理 ASIC 对比
选型建议
关键差异
- Inferentia 2 vs Groq LPU
- TPU v5e vs TPU v7
详细产品页
相关类型