Skip to main content

Intel Gaudi 3 (Habana Labs)

产品概述

Intel Gaudi 3 于 2024 年 4 月发布(Intel Vision 大会),是 Gaudi 2 的全面升级。基于 5nm 工艺128GB HBM2e 显存,BF16 / FP8 算力 1,835 TFLOPS24× 200GbE RDMA 集成网卡。据 Intel 官方数据,Gaudi 3 在 LLM 训练上比 H100 快 50%,推理吞吐量高 50%,能效高 40%。

核心规格

项目参数
架构Gaudi 3(Habana 5 代)
制程TSMC 5nm
计算引擎64× TPC(每 8 个一组,8 组)
矩阵引擎8× MME(每 MME 64,000 平行操作)
显存128 GB HBM2e
显存带宽3.67 TB/s(+50% vs Gaudi 2)
片上 SRAM96 MB(12.8 TB/s 带宽)
BF16 Matrix1,835 TFLOPS(4× Gaudi 2)
FP8 Matrix1,835 TFLOPS
BF16 Vector28.7 TFLOPS
TDP900 W(风冷) / 1,200 W(液冷)
网络24× 200GbE RoCE(集成网卡)
PCIeGen 5 x16
形式OAM 2.0 (HL-325L) / PCIe Add-in Card (HL-338)

Gaudi 2 vs Gaudi 3

指标Gaudi 2Gaudi 3提升
工艺7nm5nm
显存96 GB128 GB+33%
带宽2.46 TB/s3.67 TB/s+49%
BF16 算力432 TFLOPS1,835 TFLOPS4.2×
网络24× 100GbE24× 200GbE
TDP600 W900 W+50%
PCIeGen 4Gen 5

厂商信息

项目内容
制造商Intel Corporation(Habana Labs)
官网https://habana.ai
产品页https://habana.ai/products/gaudi3/
白皮书https://www.intel.com/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html
发布2024 年 4 月(OEM Q2,PCIe 卡 Q4)

关键特性

  • 集成 24× 200GbE RoCE:1200 GB/s 双向带宽
  • Open Ethernet 标准:避免厂商锁定
  • MLPerf 性能验证
  • PyTorch 优化:从 H100 迁移只需 3 行代码改动
  • 对比 H200:Llama 2 7B/70B、Falcon 180B 推理快 30%

适用场景

  • LLM 训练与推理
  • 多模态 AI
  • 企业 GenAI(成本敏感)
  • 大规模分布式训练

相关产品对比