跳到主要内容

AWS Trainium 3 (Trn3)

产品概述

AWS Trainium 32025-12-02 在 re:Invent 2025 大会上正式 GA,是第三代 AWS 自研 AI 训练芯片。3nm 工艺单芯片 FP8 算力 362 PFLOPs(密集),能效较 Trainium 2 提升 4 倍内存带宽提升 4 倍Trn3 UltraServer 通过 NeuronLink 互联 144 颗芯片(比 Trn2 UltraServer 的 64 颗多 2.25 倍)。

Trainium 3 是 AWS "AI 工厂"战略的核心 —— Amazon 内部 Bedrock、Anthropic Claude、AWS 客户的核心训练工作负载都开始向 Trn3 迁移。

核心规格

项目参数
架构Trainium3(NeuronCore-v4)
制程TSMC 3nm
NeuronCore8 颗/芯片(NeuronCore-v4)
HBM 容量144 GB(推测,2× Trainium 2)
HBM 带宽~4.5 TB/s(推测)
FP8 算力(密集)362 PFLOPS
BF16/FP161,300 TFLOPS(推测)
TDP~700 W
NeuronLinkNeuronLink-v4
首发2025-12-02 GA(re:Invent 2025)

📌 数据约定:AWS Trainium 采用 dense(密集) 算力为标准(与 AMD、Google 一致);与 NVIDIA sparse 算力不可直接比较。362 PFLOPS FP8 = dense

Trainium 2 vs Trainium 3 升级对比

指标Trainium 2Trainium 3提升
工艺TSMC 4nmTSMC 3nm+一代
NeuronCore8 颗 v38 颗 v4架构升级
HBM 容量96 GB144 GB(推测)1.5×
HBM 带宽2.9 TB/s~4.5 TB/s~1.55×
FP8 算力(密集)1,299 TFLOPS362,000 TFLOPS~278×(参见备注)
BF16/FP16667 TFLOPS1,300 TFLOPS
每芯片 FP8 算力提升4.4×官方数据
能效(每瓦性能)官方数据
内存带宽提升官方数据
发布时间2024-122025-12

⚠️ 362 PFLOPS = 单颗芯片(FP8 dense),而 Trainium 2 是 1,299 TFLOPS/颗。官方 4.4× 指算力提升(362,000 / 1,299 ≈ 278×);也可能口径不同(如含稀疏)。按 4.4× 官方倍数:Trainium 3 FP8 约 1,299 × 4.4 = 5,716 TFLOPS以官方 4.4× 算力提升为准

Trn3 UltraServer(机柜级)

项目配置
芯片数144 颗 Trainium 3(4× Trn2 UltraServer 的 64 颗)
HBM 总量~20.7 TB(144GB × 144)
NeuronLink-v4全互联,>10 TB/s 双向
FP8 算力(机柜)52 PFLOPS(dense)
BF16 算力(机柜)~187 PFLOPS
TDP(机柜)~100 kW
适用模型400B+ 参数 LLM 训练

Trn3 UltraServer = 单机柜可训练 400B 模型。一个 EC2 UltraCluster(>10 机柜)可支持1.4T+ 参数的巨型模型训练

Trn3 vs Trn2 UltraServer

指标Trn2 UltraServerTrn3 UltraServer提升
芯片数641442.25×
互联NeuronLink-v3NeuronLink-v4新一代
HBM 总量6.1 TB~20.7 TB3.4×
FP8 算力~83 TFLOPS (Trn2 64×1.3)52 PFLOPS~626×(或按 4.4× 算力 = 365 TFLOPS)
训练能力70B+ LLM400B+ LLM
发布时间2024-122025-12

AWS Neuron SDK 3

  • Neuron SDK 3.x:PyTorch 2.4+ / JAX 0.4+ / TensorFlow 2.16+ 全优化
  • Neuron Compiler 2.x:自动编译 + 图优化
  • NeuronX Distributed:大规模分布式训练库(与 PyTorch FSDP 集成)
  • NeuronX Nemo:LLM 微调框架(Megatron-LM 等价)
  • vLLM 0.7+ 优化版:低延迟推理

AWS Neuron = 类似 ROCm 的开源生态,全部 SDK 在 GitHub 开源(aws-neuron)。

EC2 实例类型

实例GPU配置用途
trn3.48xlarge1 颗 Trn3144GB HBM单芯片开发
trn3.96xlarge2 颗 Trn3288GB HBM小规模训练
trn3 UltraServer144 颗 Trn320.7 TB HBM超大规模训练

价格(推测)

实例每小时价格(on-demand)
trn3.48xlarge~$32(推测)
Trainium 2 同等实例~$16
价格提升
每美元 FP8 算力提升2.2×(按 4.4× 算力 / 2× 价格)

AWS 强调:Trainium 3 在每美元 FP8 算力显著优于 NVIDIA H100 / H200(2-3×)。

适用场景

  • 超大规模 LLM 训练(400B-1.4T 模型,UltraServer)
  • AWS Bedrock 模型预训练(Anthropic Claude、Meta Llama、Mistral)
  • 成本敏感型训练(价格低于 NVIDIA 30-50%)
  • 能源效率敏感(每瓦性能 4× 提升)
  • ❌ 非 AWS 部署(Trainium 仅在 EC2 出售)
  • ❌ 旧 NVIDIA 生态绑定(CUDA-only 代码迁移成本高)

厂商信息

项目内容
厂商Amazon Web Services (AWS)
首次发布2025-12-02(re:Invent 2025 GA)
产品页https://aws.amazon.com/machine-learning/trainium/
云端实例EC2 trn3.48xlarge / 96xlarge / UltraServer
SDKhttps://github.com/aws-neuron
合作方Anthropic / Meta / Mistral / HuggingFace

相关产品