跳到主要内容

AWS Inferentia 2 (Inf2)

产品概述

AWS Inferentia 2 于 2022 年发布,是第二代 AWS 自研推理 ASIC。最大改进是支持 32GB HBM2e 显存芯片间互联,可以承载更大模型(70B+)。通过 Inf2 实例 提供,从 inf2.xlarge(单芯片)到 inf2.48xlarge(12 芯片)。

核心规格

项目参数
架构Inferentia 2(NeuronCore-v2)
NeuronCore4 颗/芯片
显存32 GB HBM2e
INT8 算力(估算)190 TOPS
FP16/BF16190 TFLOPS(估算)
芯片间互联支持(最高 12 芯片)
TDP约 150 W

Inf2 实例

实例芯片内存适用
inf2.xlarge132 GB轻量推理
inf2.8xlarge132 GB中等推理
inf2.24xlarge6192 GB大模型
inf2.48xlarge12384 GB70B+ 模型

厂商信息

项目内容
制造商Amazon (Annapurna Labs)
官网https://aws.amazon.com/machine-learning/inferentia/
产品页https://aws.amazon.com/ec2/instance-types/inf2/
SDKhttps://awsdocs-neuron.readthedocs-hosted.com/

关键特性

  • 芯片间互联:支持 12 芯片聚合 384GB 显存
  • 可承载 70B 模型推理(4-bit 量化)
  • DynamoAI 集成
  • 低延迟

适用场景

  • LLM 推理(10B-70B)
  • 推荐系统
  • 计算机视觉推理
  • 成本敏感型生产部署

相关产品对比