跳到主要内容

创新架构 AI 芯片

除了主流 GPU 和 ASIC,还有一些公司尝试突破传统架构的 AI 处理器。它们采用数据流、确定性、脉动阵列等不同方法,追求特定场景下的极致性能。

创新架构 AI 芯片对比

型号厂商架构关键特性适用
Groq 3 LPX (机柜)NVIDIA(收购 Groq)Tensor Streaming v3256 LPU/机柜, 40 PB/s SRAM 聚合, 35× perf/W, TTFT < 20ms2026 H2 Agentic AI
Groq LPUGroqTensor Streaming确定性超低延迟LLM 实时推理
SambaNova SN40LSambaNova可重构数据流 (RDU)企业级一体机企业 LLM
Tenstorrent WormholeTenstorrentTensix (RISC-V)开源软件栈学术 / 开源
Tenstorrent GrayskullTenstorrentTensix (RISC-V)入门学术 / 开源
Graphcore Bow IPUGraphcoreMIMD1,472 独立核心GNN(已被收购)
Tesla DojoTesla自研 D1 训练芯片Dojo ExaPOD内部训练(Dojo 已停产)
Apple M-Series (M2/M3/M4 Max/Ultra)AppleAPU(统一内存)本地 LLM 推理创作者 / 本地 AI
Apple M3 Ultra (192GB)AppleAPU80 核 GPU + 192GB UMA70B+ 本地 LLM
Qualcomm AI 100QualcommHexagon NPU ASIC400 TOPS / 75W低功耗数据中心
Hailo-8 / 15Hailo数据流 NPU2.5W / 26 TOPS边缘视觉 AI
Samsung HBM-PIMSamsung存算一体 (PIM)1.2 TFLOPS / 堆叠Memory-bound 推理
BrainChip Akida 2BrainChip神经形态 (SNN)1.5W / 片上学习永远在线边缘

架构对比

传统 GPU (NVIDIA / AMD)

  • SIMT(单指令多线程)
  • HBM 显存
  • CUDA / ROCm 生态

Groq LPU

  • TSP(Tensor Streaming Processor)
  • 片上 SRAM(无 HBM)
  • 编译器定义硬件
  • 确定性延迟

SambaNova RDU

  • 数据流(非指令式)
  • HBM 显存
  • 多节点 coherent memory

Tenstorrent Tensix

  • RISC-V CPU + 矩阵/向量引擎
  • 片上 SRAM
  • 标准以太网互联
  • 完全开源软件

选型建议

按需求

  • 超低 LLM 延迟:Groq LPU / GroqCloud API
  • 企业级 LLM 私有部署:SambaNova SN40L 一体机
  • 开源 AI 社区 / 学术研究:Tenstorrent Wormhole
  • 图神经网络:Graphcore IPU(已被收购,未来存疑)

按软件生态成熟度

  • 成熟:SambaNova(PyTorch 集成)
  • 中等:Groq(LPU 编译器)
  • 发展中:Tenstorrent(开源生态)
  • 不明:Graphcore(公司被收购)

详细产品页

相关架构

相关类型