Skip to main content

Google Cloud TPU 8i (Trillium 2 / 推理专用)

产品概述

Google TPU 8i(代号 Trillium 2 推理版)是 2026-04-22 公布的最新一代推理专用 TPU,与同期公布的 TPU 8t 训练专用形成 8t + 8i 拆分架构。配备 288GB HBM(比 TPU v7 Ironwood 多 50%)、8,601 GB/s 带宽~5,500 TFLOPS BF16 算力(密集)。

TPU 8i 是 Google "AI 推理时代"战略的核心 —— Gemini API、Vertex AI 推理、Anthropic Claude on Vertex、Gemini 3 / 4 的在线服务全部基于 TPU 8i

核心规格

项目参数
架构TPU 8i(Trillium 2)
形态推理专用(区别于 8t 训练专用)
BF16 算力(密集)~5,500 TFLOPS
FP8 算力(密集)~11,000 TFLOPS
INT8 算力~22,000 TOPS
HBM 容量288 GB
HBM 带宽8,601 GB/s
ICI 互联1,200 GB/s
DCN 带宽200 Gbps
Pod 规模单芯片 ~ 256 颗
散热风冷 / 液冷均可
首发2026-04-22 公布

📌 8i 命名:TPU 8 代 + i = inference(推理)8i 是当前最大显存的推理 ASIC,单卡 288GB 可装 70B 模型(FP16)。

TPU 8i vs TPU v7 Ironwood(推理对比)

指标TPU v7 IronwoodTPU 8i提升
形态训练 + 推理通用推理专用形态拆分
BF16 算力2,307 TFLOPS~5,500 TFLOPS2.4×
FP8 算力4,614 TFLOPS~11,000 TFLOPS2.4×
HBM 容量192 GB288 GB1.5×
HBM 带宽7,380 GB/s8,601 GB/s1.17×
散热液冷为主风冷/液冷均可灵活
发布时间2025-112026-04-22

💡 TPU 8i 算力比 Ironwood 提升 2.4×:8,601 GB/s 带宽 + 288GB HBM 让 TPU 8i 在长上下文推理、超大模型推理场景中单卡可装70B+ 模型。

TPU 8i 推理范式优化

优化方向内容
超低延迟TTFT < 100ms(首 Token 延迟)
高吞吐10,000+ tok/s(70B 模型 FP8)
Long-context KV288GB 完整保留 1M+ token 上下文
MoE 推理Expert Parallel 原生支持
Speculative Decoding内部 speculative 加速
BatchingContinuous batching + PagedAttention
Continuous KV CacheKV Cache 跨请求共享(同 prefix 优化)

TPU 8i vs TPU 8t(同期拆分)

指标TPU 8t(训练)TPU 8i(推理)
定位训练推理
BF16 算力~3,500 TFLOPS~5,500 TFLOPS(更强)
HBM 容量216 GB288 GB(更大)
HBM 带宽6,528 GB/s8,601 GB/s(更高)
散热液冷风冷/液冷
Pod 规模9,216 颗256 颗
集成 CPUArm Axion无(独立)

💡 拆分目的:训练强调算力 + 互联,推理强调显存 + 带宽 + 散热灵活性。8t 液冷 + 大 pod,8i 风冷 + 小 pod + 超大显存

部署推荐配置

场景推荐配置
Gemini API 在线服务TPU 8i pod(百万级 QPS)
Claude on Vertex AITPU 8i 单芯片 / 4 芯片节点
Llama 4 70B 推理TPU 8i 单卡(288GB 装 FP16 70B
长上下文 RAGTPU 8i(1M+ token KV Cache
Edge / 离线推理TPU 8i 风冷版(无需液冷机房)

软件生态

  • JAX 0.5+:推理
  • PyTorch/XLA 2.5+:推理
  • vLLM 0.8+(TPU 后端):低延迟推理
  • Vertex AI Inference:Google 托管推理服务
  • Gemini API:内部最大用户

价格(推测)

实例每小时价格备注
TPU 8i v6e-equivalent~$3-5 / chip推测
TPU v7 Ironwood~$6-8 / chip当前主力
TPU 8i vs TPU v7+50% 价格 / +150% 算力性价比更高

TPU 8i 单美元 BF16 算力比 TPU v7 Ironwood 高 70%(按 2.4× 算力 / 1.5× 价格)。

适用场景

  • Frontier 模型推理(Gemini 3/4、Claude Opus 4.5)
  • 超低延迟在线服务(TTFT < 100ms)
  • 长上下文 RAG / Agent(1M+ token 推理)
  • 高吞吐离线推理(10,000+ tok/s)
  • 风冷部署(无需液冷机房)
  • ❌ 训练场景(应用 TPU 8t 而非 8i)

厂商信息

项目内容
厂商Google Cloud
首次公布2026-04-22(Google Cloud Next 2026)
产品页https://cloud.google.com/tpu
云端部署仅 Google Cloud(Vertex AI / Gemini API)
代号Trillium 2(推理版)

相关产品