AMD Instinct MI355X (288GB HBM3E)
产品概述
AMD Instinct MI355X 是 MI350 系列的 288GB HBM3E 升级版本,2025 H2 发布(MI350 是 192GB HBM3E)。基于 CDNA 4 架构,TSMC 3nm 制程,288GB HBM3E 内存(业界最大 HBM 容量),8 TB/s 内存带宽(业界最高带宽),4.6 PFLOPS FP8 dense 算力。是 AMD 在 NVIDIA B200/MI400 之间的关键产品,瞄准 AI 大模型训练与推理市场。
关键升级(vs MI350X 192GB):
- HBM 容量:192GB → 288GB(+50%)
- 内存带宽:6.4 TB/s → 8 TB/s(+25%)
- FP8 dense:3.6 PF → 4.6 PF(+28%)
- 支持 FP4 / FP6 新精度(MI350 仅 FP8)
- 互联:UALoF(Ultra Accelerator Link Fabric)600 GB/s(MI350 仅 200 GB/s PCIe)
核心规格
| 项目 | 参数 |
|---|
| 架构 | AMD CDNA 4(与 MI350 相同架构) |
| 制程 | TSMC 3nm (N3) |
| GPU 核心 | 304 个 CDNA 4 Compute Units |
| HBM | 288 GB HBM3E(业界最大) |
| HBM 通道 | 8 个 stack × 36GB HBM3E |
| 内存带宽 | 8 TB/s(业界最高) |
| FP4 sparse | 9.2 PFLOPS |
| FP6 sparse | 6.9 PFLOPS |
| FP8 dense | 4.6 PFLOPS |
| BF16 dense | 2.3 PFLOPS |
| FP16 dense | 2.3 PFLOPS |
| FP32 | 115 TFLOPS |
| TDP | ~750 W |
| 板卡形态 | OAM / PCIe Gen5 ×16 |
| 互联 | UALoF 600 GB/s(对标 NVLink 5) |
| 量产时间 | 2025 H2 |
| 单价(OAM) | ~$25,000(推测) |
与 MI350X 192GB 对比
| 指标 | MI355X 288GB | MI350X 192GB | 提升 |
|---|
| 制程 | 3nm | 3nm | 同 |
| HBM 容量 | 288GB | 192GB | +50% |
| HBM 带宽 | 8 TB/s | 6.4 TB/s | +25% |
| FP8 dense | 4.6 PF | 3.6 PF | +28% |
| FP4 支持 | 是(9.2 PF sparse) | 否 | 新增 |
| FP6 支持 | 是(6.9 PF sparse) | 否 | 新增 |
| 互联 | UALoF 600 GB/s | PCIe 5.0 200 GB/s | 3× |
| TDP | 750W | 750W | 同 |
| 价格(推测) | ~$25K | ~$20K | +25% |
与 NVIDIA B200 对比
| 指标 | AMD MI355X | NVIDIA B200 | 差异 |
|---|
| 内存 | 288GB HBM3E | 192GB HBM3E | MI355X +50% |
| 带宽 | 8 TB/s | 8 TB/s | 同 |
| FP8 dense | 4.6 PF | 4.5 PF sparse | MI355X 略胜(dense vs sparse) |
| FP4 sparse | 9.2 PF | 9 PF sparse | 同 |
| BF16 | 2.3 PF dense | 2.25 PF sparse | MI355X 略胜 |
| 互联 | UALoF 600 GB/s | NVLink 5 1.8 TB/s | B200 3× |
| TDP | 750W | 1000W | MI355X -25% |
| 软件 | ROCm 7 + Open | CUDA + 私有 | AMD 开放 |
| 价格 | ~$25K | $30-40K | MI355X -25% |
MI355X 优势:最大 HBM 容量(288GB)+ 最低 TDP(750W)+ 开放互联(UALoF),是 大模型推理最优 H/W 之一。
8 TB/s 内存带宽技术
| 维度 | 实现方式 |
|---|
| HBM3E | 8 个 stack × 1024-bit wide |
| 时钟 | 9.2 Gbps(业界最高) |
| PHY | AMD 自研 Infinity Fabric 内存控制器 |
| 预取 | 自适应预取算法 |
| 错误纠正 | On-die ECC + Side-band ECC |
UALoF(Ultra Accelerator Link Fabric)
| 维度 | 规格 |
|---|
| 带宽 | 600 GB/s 双向 |
| 拓扑 | 全互联 / Dragonfly+ |
| 协议 | 自研(类 NVLink 但开放) |
| 延迟 | ~1 μs |
| 支持 | MI300X / MI325X / MI350X / MI355X / MI400 全系列 |
| 管理 | UALink Consortium(2024-Q3 成立,AMD / Intel / Meta / Microsoft / Google 等) |
| 2025 成员 | 30+ 公司 |
| vs NVLink | 带宽 1/3,但 完全开放(NVLink 私有) |
UALoF 战略意义:打破 NVIDIA NVLink 垄断。B200 1.8 TB/s NVLink 是 UALoF 3×,但 UALoF 可与 任何厂商加速器互联(NVIDIA / Groq / Habana / Tenstorrent),是 未来 AI 数据中心互联标准。
厂商信息
AMD Instinct 产品线
| 产品 | 发布 | 内存 | FP8 dense | 状态 |
|---|
| MI250X | 2021-Q4 | 128GB HBM2E | 0 (FP16: 383 TF) | EOL |
| MI300X | 2023-Q4 | 192GB HBM3 | 1.3 PF | 量产 |
| MI325X | 2024-Q4 | 256GB HBM3E | 2.6 PF | 量产 |
| MI350X | 2025-Q3 | 192GB HBM3E | 3.6 PF | 量产 |
| MI355X | 2025 H2 | 288GB HBM3E | 4.6 PF | 新品 |
| MI400 | 2026 | 432GB HBM4 | 40 PF FP4 dense | 路线图中 |
关键特性
- 288GB HBM3E:业界最大 HBM 容量,超过 NVIDIA B200 192GB
- 8 TB/s 带宽:业界最高内存带宽
- FP4 / FP6 / FP8 多精度:新代低精度支持(NVIDIA Blackwell 同期)
- UALoF 600 GB/s:开放互联,对标 NVLink
- Helios 机柜:72× MI355X + 36× EPYC Venice + Pensando NIC(2025 H2)
- 开放 ROCm 软件:vs CUDA 私有
- 缺点:ROCm 软件成熟度仍落后 CUDA 2-3 年
Helios 机柜(72-GPU)
| 项目 | 配置 |
|---|
| GPU 数 | 72× MI355X |
| CPU 数 | 36× EPYC Venice (256 核 Zen 6) |
| NIC | Pensando Vulcano 800GbE |
| GPU 互联 | UALoF 全互联 |
| CPU-GPU | PCIe Gen5 x16 + Infinity Fabric |
| 总内存 | 20.7 TB HBM3E |
| 总算力 | 331 PF FP8 dense |
| 机柜 TDP | ~80 kW |
| 发布 | 2025 H2(与 MI355X 同步) |
适用场景
- ✅ 大模型训练(288GB 容纳更大模型,UALoF 互联多卡)
- ✅ LLM 推理(288GB 装 Llama 3 405B FP16 + 大 KV Cache)
- ✅ 多模态 AI(Stable Diffusion 3, Sora 训练)
- ✅ HPC + AI 融合(ROCm + MPI 兼容)
- ✅ 云服务商(开放生态,多云部署)
- ✅ 政府/国企(AMD 美国品牌)
- ❌ CUDA-only 专有工作负载
- ❌ NVLink 紧密耦合代码
MI355X vs MI400(2026)
| 指标 | MI355X (2025 H2) | MI400 (2026) | 提升 |
|---|
| 内存 | 288GB HBM3E | 432GB HBM4 | +50% |
| 带宽 | 8 TB/s | 19.6 TB/s | 2.45× |
| FP4 dense | 4.6 PF FP8 | 40 PF FP4 | ~9× |
| 互联 | UALoF 600 GB/s | UALoF 1.3 TB/s | 2.2× |
| 制程 | 3nm | 3nm+ (N3P) | 略新 |
| TDP | 750W | ~1000W | +33% |
相关卡