跳到主要内容

Samsung HBM-PIM (Aquabolt-XL)

产品概述

Samsung HBM-PIMProcessing-In-Memory)是三星电子推出的存算一体(Near-Data Processing)AI 加速器,将计算单元集成到 HBM 显存内部

2021-02 Hot Chips 首发(Aquabolt),2022-12 升级到 Aquabolt-XL,FP16 算力提升 2 倍。2024-2025 加速商业化(NVIDIA H200、三星自己 SG-Ready 平台)。

核心规格(Aquabolt-XL)

项目参数
架构HBM-PIM (Processing-in-Memory)
制程HBM: 1y nm DRAM / Logic: 4nm
HBM 容量12 GB(HBM2-PIM)
HBM 堆叠8-Hi(8 层 DRAM 堆叠)
集成算力1.2 TFLOPS FP16(每 HBM 堆叠)
能耗提升2.5×(vs 传统 HBM + GPU)
内存带宽307 GB/s(传统)+ PIM 内部 1 TB/s+
TDP+10%(vs 传统 HBM,集成 PIM 仅小幅增加)
接口HBM 接口(兼容现有 GPU 插槽)
首发2021-02(Aquabolt)/ 2022-12(XL)

存算一体(PIM)架构

传统架构瓶颈

  • 内存墙:AI 算力增长 1000×,内存带宽仅 100×
  • 数据搬运能耗:数据从 DRAM 到 GPU 寄存器,能耗是计算的 100-1000×

PIM 解决方案

  • 计算单元嵌入 DRAM 阵列(每个 bank 旁边)
  • 数据不出 DRAM即可计算
  • 消除"内存墙"瓶颈
  • 2.5× 能效比提升

PIM 内部架构

  • 每个 HBM 堆叠 = 8 层 DRAM
  • 每层集成 FP16 × 16 核 PIM 单元
  • HBM 内部 Programmable PIM 引擎
  • 通过普通 HBM 接口使用(无需修改 GPU)

性能对比(FP16 推理)

配置性能能耗
传统 HBM2 + A100312 TFLOPS300W
HBM-PIM (XL) + A100+2× AI 推理持平
HBM-PIM (XL) + H1001.7× 推理加速持平

关键:HBM-PIM 仅小幅修改 GPU 主板设计即可使用。

应用场景

大模型推理(推荐)

  • LLM 解码:Memory-bound 操作,PIM 完美匹配
  • 检索增强生成 (RAG):embedding 查表
  • 推荐系统:向量检索

数据中心

  • 三星 SG-Ready XA2000 服务器(搭载 HBM-PIM)
  • 2024 起进入商用

学术与开源

  • 三星 PIM SDK
  • UPMEM PIM(同类产品)
  • Mythic AI(NOR Flash PIM)

PIM 生态挑战

  • ⚠️ 生态早期:仅 Samsung 自有 SDK + 部分 OEM
  • ⚠️ 软件适配:需要重写算子利用 PIM
  • ⚠️ CUDA 兼容:当前仅支持特定算子
  • 三星 2024-2025 加速推动:与 NVIDIA 合作

厂商信息

项目内容
厂商Samsung Electronics(三星电子)
产品页https://semiconductor.samsung.com/dram/hbm/hbm-pim/
首发Aquabolt 2021-02 / Aquabolt-XL 2022-12
合作方NVIDIA(H200 集成)/ 韩国 KISTI 超算
目标市场大模型推理、推荐系统、HPC

适用场景

  • 大模型推理(Memory-bound 操作加速 2×)
  • ✅ RAG / 检索增强
  • ✅ 推荐系统向量检索
  • ✅ HPC 数据密集型计算
  • ⚠️ 训练(小规模数据复用优势小)
  • ❌ 算力密集型(GPU 已足够)

相关卡