MirrorFrog AI 计算卡行业动态

2026 H2 顶级 AI 芯片选型指南：从 H100 到 Rubin、MI400、TPU 8t、TPU 8i

2026-06-01T00:00:00.000Z

2026 H2 是 AI 算力市场最丰富的时代：NVIDIA Rubin R200、AMD MI400、Trainium 3、TPU 8t/8i、Ascend 920、Groq 3 LPX 全部就位。本文提供完整选型树，帮助你根据模型规模、训练/推理、延迟要求、预算、地区选择最合适的产品。

选型决策树

开始
├─ 任务类型？
│   ├─ 训练 ──────────── [训练选型]
│   └─ 推理 ──────────── [推理选型]
└─ 地区？
    ├─ 北美 / 欧洲 ──── 全产品可选
    ├─ 中国 ────────── Huawei Ascend 系列
    └─ AWS Cloud ───── Trainium / Inferentia

训练选型

100B+ LLM 训练

优先级	方案	单机柜算力	100B 模型训练时间
1	NVIDIA Rubin NVL72	3.6 EF FP4	~1-2 天（300B tokens）
2	AWS Trn3 UltraServer (2+)	104 PF FP8	~3-5 天
3	AMD Helios	2.88 EF FP4 dense	~1-2 天
4	Google TPU 8t pod (大 pod)	590+ EF FP8 dense	~数小时（Google 内部）

推荐：

商业云端：NVIDIA Rubin NVL72
成本敏感：AWS Trn3 UltraServer
开放生态：AMD Helios
Google Cloud：TPU 8t pod

70B LLM 训练

方案	配置	价格	推荐场景
NVIDIA H200	8 卡 H200	~$264K	主流
NVIDIA B200	8 卡 B200	~$400K	高端
NVIDIA B300 Ultra	8 卡 B300	~$500K	最新
AMD MI300X	8 卡 MI300X	~$120K	性价比
AMD MI325X	8 卡 MI325X	~$160K	高显存
Trainium 2	trn2.48xlarge × 4	~$32/hr	AWS 客户
Trainium 3	trn3 UltraServer	~$5M	超大规模

推荐：

商业主流：NVIDIA H200 8 卡
性能优先：NVIDIA B300 Ultra 8 卡
性价比：AMD MI300X 8 卡
AWS 云：Trainium 3 UltraServer

7B-13B LLM 训练

方案	配置	价格	推荐
NVIDIA A100 80GB	8 卡 A100	~$160K	主流
NVIDIA H100	8 卡 H100	~$240K	高端
NVIDIA RTX 6000 Ada	4-8 卡	~$27K	工作站
AMD MI300X	8 卡 MI300X	~$120K	性价比
Intel Gaudi 3	8 卡 Gaudi 3	~$80K	预算敏感

推荐：

商业主流：NVIDIA A100 80GB
高端：NVIDIA H100
工作站：NVIDIA RTX 6000 Ada
性价比：AMD MI300X
预算敏感：Intel Gaudi 3

1B-3B LLM 训练

方案	配置	推荐
NVIDIA RTX 4090	单卡	本地
NVIDIA RTX 5090	单卡	本地高端
NVIDIA A100 40GB	4 卡	商业
Intel Gaudi 2	8 卡	预算
Apple M3 Ultra	单工作站	本地 LLM

推理选型

70B+ LLM 推理（单卡）

方案	FP16 70B 可装？	算力	推荐
NVIDIA B300 Ultra (288 GB)	✅ 装 1 个	7 PF FP8	首选
Google TPU 8i (288 GB HBM)	✅ 装 1 个	11 PF FP8	Google Cloud
AMD MI400 (432 GB HBM4)	✅ 装 1 个	20 PF FP8 dense	2026
NVIDIA H200 (141 GB)	❌ 需 TP2	1.0 PF FP8	上一代
AMD MI325X (256 GB)	✅ 装 1 个	2.6 PF FP8	上一代
NVIDIA Groq 3 LPX (128 GB SRAM/机柜)	✅ 装 1 个	5.5 PF (机柜)	超低延迟

推荐：

商业云：NVIDIA B300 Ultra 或 TPU 8i
大显存：AMD MI400 / TPU 8i
超低延迟：Groq 3 LPX
性价比：AMD MI325X

7B-30B LLM 推理

方案	显存	算力	价格	推荐
NVIDIA L40S	48 GB	733 TF FP8	~$8K	通用
NVIDIA A100 80GB	80 GB	624 TOPS INT8	~$15K	大模型
NVIDIA H100	80 GB	4 PF FP8	~$30K	高性能
Google TPU 8i	288 GB	11 PF FP8	仅云	Google Cloud
AWS Inferentia 2	32 GB	190 TOPS	Inf2 实例	AWS
Apple M3 Ultra	192 GB	80 核 GPU	~$5K	本地

推荐：

商业云：NVIDIA L40S / A100
AWS 云：Inferentia 2
Google Cloud：TPU 8i
本地：Apple M3 Ultra

超低延迟推理（Agentic AI）

方案	TTFT	TPOT	价格	推荐
Groq 3 LPX	< 20ms	< 5ms	$8-10M/机柜	首选
Groq LPU v1	~50ms	~10ms	$1.8M/机柜	备选
TPU 8i	~100ms	~15ms	云端	Google Cloud
NVIDIA H200	~200ms	~30ms	$30K	通用
AWS Inferentia 2	~200ms	~30ms	AWS 实例	AWS

推荐：

Agentic AI（1000+ 调用/秒）：Groq 3 LPX（唯一选择）
Real-time Code Gen：Groq 3 LPX
中等延迟需求：TPU 8i / H200

模型规模速查

模型规模	单卡可装（FP16）	推荐训练	推荐推理
1B-3B	任何 8GB+ GPU	RTX 4090 / A100	RTX 4090 / L4
7B	24 GB	A100 40GB × 4	L4 / L40S
13B	32 GB	A100 40GB × 4	L4 / L40S
30B	64 GB	A100 80GB × 4	L40S / H100
70B	141 GB	H200 × 8	B300 Ultra 单卡 / TPU 8i
405B	800 GB	NVL72	B300 Ultra × 4 / Rubin R200
1T+	2 TB	Rubin NVL576	Rubin R200 × 多卡 / LPX 协同

预算速查

月预算	推荐训练配置	推荐推理配置
< $5K	RTX 4090 / 集群	L4 / T4
$5K-20K	8× A100 80GB	L40S / H100 单卡
$20K-100K	8× H100 / MI300X	H200 / B200
$100K-500K	8× B200 / NVL72	B300 Ultra / TPU 8i
$500K-5M	Rubin NVL72 / Helios	Rubin NVL72 / Helios
$5M-50M	Rubin NVL576 (8+)	Groq 3 LPX 机柜
$50M+	多数据中心	混合方案

地区速查

中国市场（必须国产）

场景	推荐	理由
政府/电信	Huawei Ascend 920	国产最强
互联网大模型	Huawei Ascend 920 + CloudMatrix 384 Ultra	系统级
边缘 AI	Huawei Ascend 310	国产
国家级 AI	Huawei CloudMatrix 384 Ultra	单系统 345 PFLOPS

北美 / 欧洲（自由选择）

优先级	厂商	理由
1	NVIDIA	生态成熟、性能最强
2	AMD	性价比、开放生态
3	AWS	仅在 AWS 云
4	Google	仅在 Google Cloud

AWS Cloud（仅 AWS 生态）

场景	推荐
训练	Trainium 3 UltraServer（3nm, 4.4×）
推理	Inferentia 2（便宜）
通用	NVIDIA H100（p5.48xlarge）

Google Cloud（仅 Google 生态）

场景	推荐
训练	TPU 8t pod（9,216 chip）
推理	TPU 8i（288GB HBM）
通用	NVIDIA H100 / A100

延迟要求速查

延迟要求	训练	推理
> 1s	任何方案	任何方案
100ms-1s	任何方案	NVIDIA H200 / TPU 8i
50-100ms	—	TPU 8i / H200 NVL
20-50ms	—	Groq 3 LPX
< 20ms	—	Groq 3 LPX rack

2026 H2 选型速查表

需求	推荐方案	备选
万亿参数 LLM 训练	NVIDIA Rubin NVL72	AMD Helios
700B LLM 训练	AMD Helios (open) 或 NVIDIA Rubin NVL72	Trainium 3
70B LLM 推理（单卡）	NVIDIA B300 Ultra	TPU 8i / MI400
70B LLM 训练	NVIDIA H200 / B200	AMD MI300X / MI325X
7B-13B LLM 训练	NVIDIA A100 / H100	AMD MI300X / Gaudi 3
本地 7B LLM	NVIDIA RTX 4090 / 5090	Apple M3 Ultra
超低延迟 LLM 推理	Groq 3 LPX	TPU 8i
Agentic AI	Groq 3 LPX rack	唯一选择
中国市场	Huawei Ascend 920	Ascend 910C
AWS 云	Trainium 3	NVIDIA H100
Google Cloud	TPU 8t (训练) + 8i (推理)	NVIDIA H100
机器人 / 物理 AI	Jetson AGX Thor T5000	Jetson Orin
工业边缘	Jetson AGX Orin 64GB	Hailo-15
性价比深度学习	AMD MI300X	Intel Gaudi 3
Intel 生态保留	Intel Jaguar Shores (2027-2028)	Gaudi 3
超低延迟 AI	Groq 3 LPX (256 LPU)	唯一

详细产品页索引

训练 GPU

训练 ASIC

推理 GPU

推理 ASIC

晶圆级

其他

总结

2026 H2 选型核心原则：

训练 + 推理 = 同一芯片？多数场景用 NVIDIA B300 Ultra / H200 同时解决。
超低延迟推理？选 Groq 3 LPX，无替代。
AWS 云？选 Trainium 3，每美元性能 2-3×。
Google Cloud？选 TPU 8t (训练) + TPU 8i (推理)。
中国市场？Huawei Ascend 920 + CloudMatrix 384 Ultra。
开放生态？AMD Helios（UALoF 开放互联）。
预算敏感？AMD MI300X 或 Intel Gaudi 3。
本地 LLM？Apple M3 Ultra (192GB UMA)。

没有最好，只有最合适。结合你的模型规模、延迟要求、预算、地区，参考本文的选型树和速查表。

AI 集群的电力危机：1MW 机柜、核电站、SMR 与绿色 AI

2026-05-30T00:00:00.000Z

2026 年 AI 算力增长遇到了硬约束——电力。当 NVIDIA Rubin NVL576 单机柜功耗 1 MW、xAI Colossus 集群 200 MW、OpenAI 计划中的 Stargate 园区 5 GW 时，电力供应正在成为 AI 发展的最大瓶颈。本文深入分析这场「电力危机」与应对方案。

电力需求：指数级增长

单机柜功耗演进

年份	代表机柜	单机柜功耗	集群规模	总功耗
2020	DGX A100 (8 GPU)	6.5 kW	100-1,000	0.7-7 MW
2023	DGX H100 (8 GPU)	11 kW	1,000-10,000	11-110 MW
2024	GB200 NVL72	120 kW	10,000	1.2 GW
2026	Rubin NVL576	1 MW	10,000-100,000	10-100 GW
2028	Rubin Ultra NVL576	1.5 MW	100,000	150 GW

单机柜功耗 5 年增长 150×（6.5 kW → 1 MW）。这已接近核反应堆输出功率。

全球 AI 数据中心电力需求（IEA 预测）

年份	AI 数据中心 TWh	占全球电力	同比
2020	50 TWh	0.2%	—
2023	200 TWh	0.8%	+100%
2025	460 TWh	1.7%	+130%
2026	800 TWh	2.8%	+75%
2028	1,500 TWh	5.0%	+90%
2030	3,000 TWh	9.5%	+100%

2030 年 AI 数据中心将占全球电力 9.5%（vs 2020 的 0.2%）。这是全球电力转型的核心驱动力。

主要 AI 公司电力消耗

公司	2024 电力	2026 (E)	2028 (E)
Microsoft (OpenAI)	5 TWh	15 TWh	40 TWh
Google (Gemini)	4 TWh	12 TWh	35 TWh
Meta (Llama)	3 TWh	8 TWh	25 TWh
Amazon (AWS + Anthropic)	6 TWh	20 TWh	50 TWh
xAI (Grok)	1 TWh	8 TWh	25 TWh
Oracle (OCI)	0.5 TWh	3 TWh	10 TWh
合计	~20 TWh	~70 TWh	~200 TWh

OpenAI 单独计划到 2028 年需要 40 TWh/年——超过瑞典全国年用电量（~35 TWh）。

三大电力危机

危机 1：数据中心电力供应不足

美国情况

2025 北弗吉尼亚（全球最大数据中心集群）：电力申请需要等待 3-5 年
德州 Round Rock（Oracle 总部）：电网容量已满
PJM 电网（美国最大区域电网）：2026-2030 缺电 5-10 GW

中国情况

内蒙古、贵州（政府补贴数据中心）：部分限电
北京、上海（一线城市）：PUE 1.4 以下才批准新建
数据中心电力配额：2025 末已用完 60%

欧洲情况

荷兰阿姆斯特丹（MSFT 投资区）：暂停新数据中心审批
爱尔兰都柏林（AWS 欧洲总部）：2030 前不再批准
北欧（挪威、瑞典、芬兰）：可再生能源丰富但容量有限

危机 2：电力成本飙升

地区	2020 工业电价	2025 工业电价	涨幅
美国（弗吉尼亚）	$0.05/kWh	$0.08/kWh	+60%
德国	$0.18/kWh	$0.35/kWh	+94%
英国	$0.20/kWh	$0.40/kWh	+100%
日本	$0.18/kWh	$0.30/kWh	+67%
中国（西部）	$0.04/kWh	$0.06/kWh	+50%

欧洲电价 2 年翻倍——这是 AI 公司向美国/中东迁移的原因之一。

危机 3：碳排放与 ESG 压力

2025 全球数据中心碳排放：~150 Mt CO2（百万吨）
2028 (E)：~400 Mt CO2（超过德国全年）
ESG 基金：越来越多要求"100% 可再生能源"数据中心

应对方案：核能复兴

1. 核电重启

美国 TVA + Microsoft 合作

2025-10 协议：Microsoft 重启 Three Mile Island Unit 1 核电站（840 MW）
2028 投产：专属供电 Microsoft 数据中心
20 年合同：835 MW 全部由 Microsoft 消纳

Amazon + Talen Energy 合作

2025-03 协议：Amazon 收购 Talen Energy Susquehanna 核电站 960 MW 数据中心园区
960 MW 全部供电 AWS
首个核电直供数据中心

Google + Kairos Power（小型模块化反应堆 SMR）

2025-05 协议：500 MW SMR 供电 Google 数据中心
2030 首批：500 MW
2035 总计：500 MW × N 模块

2. 小型模块化反应堆（SMR）

SMR（Small Modular Reactor） 是 AI 数据中心的终极方案：

项目	传统核电站	SMR
单机容量	1,000-1,600 MW	50-300 MW
建设周期	7-10 年	3-4 年
投资	$10B+	$1-2B
灵活性	低	高（可扩容）
安全	高	更高（被动安全）
选址	严格	灵活（工厂化制造）

主要 SMR 供应商

厂商	型号	容量	2026 状态	主要客户
NuScale	VOYGR	77 MW 模块	2027 首批	UAMPS（取消）、罗马尼亚
Rolls-Royce	UK SMR	470 MW	2030 首批	英国政府
TerraPower	Natrium	345 MW	2030 首批	Bill Gates + Warren Buffett
X-energy	Xe-100	80 MW 模块	2028 首批	Amazon + Energy Northwest
Kairos Power	KP-FHR	140 MW 模块	2030 首批	Google + TVA
Holtec	SMR-160	160 MW	2029 首批	多家美国电力公司
CNNC 中国核电	HTR-PM	250 MW 模块	2023 已并网	中国山东

CNNC HTR-PM 2023 已并网，是全球首个商用 SMR——比美国 SMR 早 4-5 年。

3. 其他清洁能源

太阳能 + 储能

2025 全美最大太阳能项目：Sunlight Captive 1.4 GW（德州）+ 700 MWh 储能
Microsoft / Google / Amazon 都签 PPA（电力购买协议）
局限：夜间 / 阴天不稳定，储能成本高

地热

Google + Fervo Energy（2025-11）：150 MW 地热供电内华达数据中心
2028 计划：500 MW
优势：24/7 稳定供应

风电

Amazon + Avangrid（2025）：足够 1.5 GW 风电供电德州数据中心
局限：间歇性

4. 自然冷却 + 液冷

降低数据中心 PUE（Power Usage Effectiveness） 也是关键：

冷却方式	PUE	适用地区
液冷（DLC）	1.05-1.15	任何地区
间接蒸发冷却	1.15-1.25	寒冷地区
传统风冷	1.4-1.6	任何地区
自然冷却（北欧）	1.02-1.05	寒冷地区

液冷 PUE 1.05-1.15 vs 风冷 1.4-1.6——节能 25-40%。NVIDIA Rubin NVL576 必需液冷。

主要 AI 数据中心案例

1. xAI Colossus（Memphis, Tennessee）

2024-09 启用：100,000 颗 H100
单集群功耗：~200 MW
特殊供电：12 个移动天然气涡轮（临时方案）
争议：环境抗议、空气污染

2. Microsoft + OpenAI Stargate

2025-01 宣布：$100B 投资 5 年
首期园区：德州 + 亚利桑那
总规划：5 GW（相当于 5 个核反应堆）
能源方案：核电 + 太阳能 + 储能混合

3. Amazon Project Rainier

2024-12 启用：Anthropic 专用
Trainium 2 集群：1,000,000 颗 Trainium 2 芯片
总功耗：~300 MW
能源：100% 无碳能源（核电 + 风电）

4. Meta Hyperion（Louisiana）

2025-2027 建设：2 GW 数据中心园区
专供电厂：Meta + Entergy 合作 1.5 GW 天然气 + 风电
2027 投产：Llama 5 训练

5. Google 数据中心扩张

2025-2026 新建 8 个数据中心
总规划：~3 GW 额外容量
能源：100% 无碳（2025 末已实现）
特殊项目：SMR 500 MW + 地热 150 MW

6. Huawei CloudMatrix 384 Ultra

中国国内：贵州、内蒙古集群
电力来源：西部水电 + 风电（绿能）
功耗：~50 MW / 集群

绿色 AI 战略

1. 能效优化

FP4 / FP8 量化：相比 FP16 减少 50% 功耗
Sparse 算力：2:4 稀疏减少 50% 算力
液冷：降低 PUE 25-40%
模型压缩：MoE、Distillation、Pruning

2. 可再生能源承诺

公司	100% 可再生目标
Google	2025 已实现 100% 匹配
Microsoft	2030
Amazon	2030（2025 达 90%）
Meta	2030
Apple	2030（2025 已 90%）
Huawei	2030（"碳中和"目标）
xAI	未承诺
Oracle	2030

3. 碳捕获与封存

Microsoft + Occidental（2025-09）：$10B 投资碳捕获
Amazon + CarbonCapture Inc.（2025-11）：100 MW DAC（直接空气捕获）
Google + Climeworks（2025-08）：DAC + 储能混合项目

未来展望

短期（2026-2027）

AI 电力紧缺加剧：需求增长 50% / 供应增长 15%
电价持续上涨：美国 +30% / 欧洲 +20%
核电重启加速：Microsoft、Amazon、Google 主导
SMR 投资激增：2026 全球 SMR 投资 $50B+

中期（2027-2030）

HBM 内存 + 核能电力 = AI 算力两大瓶颈
SMR 大规模部署：2028 首批商用，2030 达 10+ GW
碳中和数据中心成标配
AI 算力向核电资源区迁移：德州、田纳西、加拿大

长期（2030+）

聚变能商业化：Helion / TAE / Commonwealth Fusion 2030+
太空太阳能：理论 24/7 供电
量子计算辅助：降低 AI 算力需求

详细产品页

总结

AI 算力的「下一战场」是电力：

单机柜功耗突破 1 MW（Rubin NVL576）——接近核反应堆
全球 AI 数据中心 2026 需 800 TWh——超过德国全国
核电重启：Microsoft / Amazon / Google 各锁定 1-2 GW 核电
SMR 兴起：2028 首批商用，单机 50-300 MW
可再生能源：太阳能 / 风电 / 地热 / 水电 + 储能
液冷成标配：PUE 1.05-1.15 vs 风冷 1.4-1.6

没有电力的 AI 算力，就是空中楼阁。

AI 芯片创业公司生存报告：Tenstorrent / SambaNova / Graphcore 的 2026

2026-05-28T00:00:00.000Z

2026 年 AI 芯片市场进入「赢家通吃」阶段。NVIDIA 占据 90%+ 份额，AMD 10% 挣扎，Google/AWS/Huawei/Cerebras 各占细分市场。但还有一批 AI 芯片创业公司在夹缝中求生——本文分析 Tenstorrent、SambaNova、Graphcore、Cambricon、Moore Threads、Biren、Iluvatar 的 2026 现状与未来。

2026 年 AI 芯片市场格局

头部：双寡头 + 5 个挑战者

厂商	市场份额	2025 营收	状态
NVIDIA	90%+	~$130B	主导
AMD	5%	~$5B (MI 业务)	第二
Huawei	1% (中国 60%)	~$3B (昇腾)	中国主导
Google TPU	1% (内部)	N/A	内部使用
AWS Trainium	<1% (内部)	N/A	内部使用
Cerebras	<1%	$510M	即将 IPO
Groq (NVIDIA)	<1%	N/A	已并入 NVIDIA

创业公司

厂商	创立	融资总额	2025 营收	状态
Tenstorrent	2016	$700M+	~$30M (推测)	融资中
SambaNova	2017	$1.1B+	~$80M (推测)	营收增长
Graphcore	2016	$700M+	N/A	被软银收购（2024）
Cambricon 寒武纪	2016	A股上市	~$80M	A股 250亿市值
Moore Threads 摩尔线程	2020	$500M+	~$30M	准备上市
Biren 壁仞	2019	$700M+	~$20M	准备上市
Iluvatar 天数智芯	2018	$400M+	~$15M	港股上市
Lightmatter	2017	$300M+	~$5M	硅光计算
Esperanto	2014	$120M	<$5M	RISC-V AI
Mythic	2012	$200M+	<$5M	边缘 AI

十大创业公司详解

1. Tenstorrent：RISC-V 黑马

Tenstorrent 由传奇芯片设计师 Jim Keller 领导（曾设计 AMD Zen / Apple A14 / Tesla FSD）：

项目	详情
创始人	Jim Keller（传奇架构师）
创立	2016
总部	多伦多 / 奥斯汀 / 硅谷
融资	$700M+（2024-12 估值 $2B）
2025 营收	~$30M（推测）
核心产品	Wormhole n150/n300, Blackhole
代工	TSMC 12nm + GlobalFoundries
软件	完全开源（TT-Metalium）
客户	LG, BOSCH, AutoDesk, RIKEN（日本）
2026 计划	Grendel 下一代 + 战略合作（推测与 OpenAI/AMD）

Tenstorrent 关键产品

产品	工艺	算力	显存	价格	状态
Wormhole n150	12nm	80 TOPS (FP8)	12GB	~$2K	2023
Wormhole n300	12nm	160 TOPS (FP8)	24GB	~$4K	2024
Blackhole p150	6nm	320 TOPS (FP8)	16GB	~$3K	2025
Blackhole p300	6nm	800 TOPS (FP8)	24GB	~$6K	2025
Grendel	4nm (推测)	1.5 POPS (FP8)	32GB	TBD	2026-2027

Tenstorrent 关键优势

Jim Keller 个人品牌：业内顶级架构师
完全开源软件：TT-Metalium（GitHub 13K+ stars）
RISC-V 生态：与 SiFive / RISC-V International 深度合作
政府 / 学术客户：RIKEN（日本）、多所美国大学

Tenstorrent 关键挑战

TDP 偏高：Blackhole p300 ~150W（vs H100 700W 性能仍弱）
生态薄弱：PyTorch 兼容性仍在改善
市场认知度低：相比 NVIDIA 难以获得企业客户

2. SambaNova：企业 RDU 一体机

SambaNova 是企业级 AI 一体机的代表：

项目	详情
创始人	Kunle Olukotun（Stanford 教授）+ 2 位 Stanford 校友
创立	2017
总部	帕罗奥图
融资	$1.1B+（2021 估值 $5B）
2025 营收	~$80M（推测）
核心产品	SN40L RDU（可重构数据流单元）
代工	TSMC 7nm
客户	美国政府, Accenture, Hewlett Packard Enterprise
2026 计划	SN50 下一代（更大 RDU）

SambaNova SN40L 规格

项目	参数
架构	RDU（Reconfigurable Dataflow Unit）
工艺	TSMC 7nm
RDU 核心	1,040 个 tiles
HBM 容量	128 GB HBM3
HBM 带宽	3.2 TB/s
FP16 算力	600 TFLOPS
BF16 算力	300 TFLOPS
TDP	~600 W
价格	~$150K / 系统

SambaNova 商业模式

不卖芯片——卖一体机（SambaSystems）
SambaFlow 软件栈（Apache 2.0）
专注企业私有部署：政府、银行、电信
2025 客户：美国空军、Accenture、HPE

SambaNova 关键挑战

市场份额小：与 NVIDIA 巨头差距巨大
一体机模式难以扩展：每个客户需要定制
2024 裁员 20%（重组）

3. Graphcore：被软银收购

Graphcore 是英国 AI 芯片先驱，但 2024 年被软银收购：

项目	详情
创始人	Nigel Toon + Simon Knowles
创立	2016
总部	布里斯托尔（英国）
融资	$700M+（2020 估值 $2.8B）
2024 营收	~$30M（推测）
核心产品	Bow GC200 IPU + Bow Pod
代工	TSMC 7nm
2024-10 收购	被软银收购（金额未披露，推测 $600M）
2026 状态	软银子公司，专注日本市场

Graphcore 关键事件

时间	事件
2018	Bow IPU 首发
2020	估值 $2.8B 巅峰
2022	营收远低于预期
2023	多次裁员
2024-10	软银收购
2025	转向日本市场（日本 SoftBank + 沙特 G42）
2026	软银内部使用 + 日本国家 AI 战略

Graphcore 未来

不再追求独立 IPO
被软银整合到 ARM 生态
Bow Pod 128 仍是旗舰
可能 2027 退出（软银撤资）

4. Cambricon 寒武纪：A 股 250 亿

Cambricon 是中国 AI 芯片第一股：

项目	详情
创立	2016
联合创始人	陈云霁、陈天石（兄弟，中科院计算所）
上市	2020-07 科创板（A股 688256）
市值	~250 亿美元（2026-05）
2025 营收	~$80M
核心产品	思元 290 / 590 / 思元 690（下一代）
代工	中芯国际 SMIC
客户	政府、电信、互联网

Cambricon 思元 590

项目	参数
制程	7nm
BF16 算力	480 TFLOPS
INT8 算力	960 TOPS
HBM 容量	64 GB
HBM 带宽	2.4 Tbps
TDP	~300 W
价格	~$5K（推测）

Cambricon 挑战

软件生态薄弱：MLU 编程模型 vs CUDA 差距大
市场份额被 Huawei 挤压：昇腾 910C 2025 起算力领先
盈利能力差：仍亏损

5. Moore Threads 摩尔线程：A 股在审

Moore Threads 是中国 GPU 第二：

项目	详情
创立	2020
创始人	张建中（原 NVIDIA 全球副总裁、中国区总经理）
融资	$500M+
2025 营收	~$30M
核心产品	MTT S4000 / S5000
代工	SMIC 7nm
A 股状态	2025 末申请科创板上市

Moore Threads MTT S5000

项目	参数
制程	7nm (SMIC)
FP16 算力	250 TFLOPS
INT8 算力	500 TOPS
显存	32GB GDDR6X
显存带宽	1.6 Tbps
TDP	~300 W
价格	~$3K

Moore Threads 挑战

生态薄弱：MUSA vs CUDA 差距
市场份额：远低于 Huawei
A 股 IPO 待批

6. Biren 壁仞：港股在审

Biren 是中国 GPU 第三：

项目	详情
创立	2019
创始人	张文（哈佛大学博士，前 NVIDIA）
融资	$700M+
2025 营收	~$20M
核心产品	BR104
代工	SMIC 7nm
港股状态	2025 末申请港股上市

Biren BR104

项目	参数
制程	7nm (SMIC)
FP16 算力	300 TFLOPS
INT8 算力	600 TOPS
显存	32GB GDDR6
显存带宽	1.6 Tbps
TDP	~300 W
价格	~$3K

Biren 关键事件

2023 美国出口管制导致先进工艺受限
2024 推迟 IPO（业绩未达预期）
2025 末重新申请港股上市

7. Iluvatar 天数智芯：港股上市

Iluvatar 已港股上市：

项目	详情
创立	2018
上市	2023 港股
核心产品	天垓 100 / Bi-150
代工	SMIC 7nm
市值	~$5 亿美元

8. Lightmatter：硅光计算

Lightmatter 是硅光计算先锋：

项目	详情
创立	2017
融资	$300M+
核心产品	Envise 硅光 AI 加速器
工艺	TSMC 5nm + 自研硅光芯片
客户	主要数据中心

Lightmatter Envise

项目	参数
架构	硅光 + 电子混合
算力	1 PFLOP (FP16)
功耗	比传统 GPU 降 50%
2026 状态	商业试点

9. Esperanto：RISC-V AI

Esperanto 是 RISC-V AI 加速器代表：

项目	详情
创立	2014
融资	$120M+
核心产品	ET-SoC-1（1,000+ RISC-V 核心）
代工	TSMC 7nm
2026 状态	主要客户：超算中心 / 推荐系统

10. Mythic：边缘 AI

Mythic 是边缘 AI 模拟计算：

项目	详情
创立	2012
融资	$200M+
核心产品	M1076 模拟 AI 芯片
工艺	TSMC 40nm
2026 状态	转型 / 边缘市场

创业公司分类与未来

类别 1：可能成功的（5-10 年内能 IPO 或被收购）

厂商	路径	关键支撑
Tenstorrent	独立 IPO 或被收购	Jim Keller + RISC-V + 开源
Cambricon	A 股继续上市	中国国家 AI 战略
Moore Threads	A 股 IPO	张建中（NVIDIA 中国背景）

类别 2：可能存活的（细分市场）

厂商	细分市场
SambaNova	美国政府 + 企业私有部署
Lightmatter	硅光计算 + 数据中心低功耗
Esperanto	超算 + 推荐系统
Biren / Iluvatar	中国国产替代政府市场

类别 3：可能消失的

厂商	风险
Graphcore	软银子公司，未来不明
Mythic	模拟计算已被数字超越
小型创业公司	资金 + 客户 + 生态三重压力

投资逻辑

创业公司为何能活？

细分市场：政府 / 国防 / 学术 / 特殊行业（NVIDIA 不做）
差异化架构：RISC-V / 硅光 / 模拟 / 数据流（NVIDIA 不会走）
本地化：中国 / 欧洲 / 日本 / 印度（数据主权 + 政治）
大客户绑定：Tenstorrent + LG、SambaNova + 美国空军

创业公司为何会死？

NVIDIA 生态碾压：CUDA + cuDNN + TensorRT 难以超越
资金消耗大：7nm 工艺流片 $30M+，5nm $80M+
软件迁移成本高：从 CUDA 迁移到非 NVIDIA 平台需要 6-12 月
客户集中度高：失去大客户 = 死亡

详细产品页

总结

AI 芯片创业公司「赢家通吃」：

Tenstorrent 最有可能成功（Jim Keller + RISC-V + 开源）
SambaNova 转型成功（企业一体机 + 美国政府）
Graphcore 已被软银收购（命运移交日本）
Cambricon / Moore Threads / Biren 受益于中国国产化
Lightmatter / Esperanto 细分市场存活
Mythic 等小型公司 难以存活

未来 5 年，AI 芯片行业将经历「大鱼吃小鱼」——创业公司要么 IPO，要么被收购，要么消失。

HBM 三家争霸战：SK Hynix / Samsung / Micron 争夺 AI 内存霸权

2026-05-25T00:00:00.000Z

AI 算力的瓶颈已经从算力本身转向了内存带宽和容量。HBM（High Bandwidth Memory） 作为 AI 芯片的核心组件，2026 年市场规模达 $80B+，但全球只有 3 家供应商——SK Hynix、Samsung、Micron。本文深入分析这场「内存三国杀」。

HBM 为什么是 AI 时代的关键？

内存墙（Memory Wall）

AI 模型规模从 2018 年的 BERT（340M 参数）增长到 2024 年的 Llama 3（405B）和 2026 年的 Gemini（推测 1T+），算力增长 1000×，但内存带宽仅增长 10-20×。

这是著名的冯·诺依曼瓶颈：

指标	2018 (V100)	2024 (H100)	2026 (Rubin R200)	增长
算力 (FP16/BF16)	125 TFLOPS	989 TFLOPS	25 PFLOPS	200×
显存容量	32 GB	80 GB	288 GB	9×
显存带宽	900 GB/s	3.35 TB/s	22 TB/s	24×

算力增长远快于内存带宽增长，导致 GPU 经常"等数据"。HBM 是缓解这一瓶颈的核心。

HBM vs GDDR vs SRAM

内存类型	带宽 (per pin)	容量密度	功耗	适用场景
HBM4	6.4 Gbps/pin	高（12-Hi）	中	AI 训练 / 推理 GPU
HBM3e	4.8 Gbps/pin	高（8-Hi/12-Hi）	中	AI 训练 / 推理 GPU
HBM3	4.0 Gbps/pin	中	中	AI 训练
HBM2e	3.2 Gbps/pin	中	中	AI 推理
GDDR6X	1.6 Gbps/pin	中	中高	消费级 GPU
GDDR7	2.5 Gbps/pin	中	中	消费级 / 工作站
LPDDR5X	0.85 Gbps/pin	高	低	边缘 AI / 移动
SRAM (片上)	10+ Gbps/pin	极低	极高	LPU / 缓存

HBM 是带宽和容量的最佳平衡点。SRAM 最快但容量太小（每 GB 成本 100× HBM），GDDR 容量大但带宽不足。

三家厂商格局

1. SK Hynix：当前 HBM 霸主（70% 份额）

SK Hynix 是 HBM 市场的绝对领导者：

项目	SK Hynix 状态
市场份额	~70%（2025 HBM 总市场）
HBM4 进展	首批量产 2026 Q1，NVIDIA 独家供应
HBM3e 供应	NVIDIA 主供（80%），部分 AMD
核心技术	Advanced MR-MUF（大规模回流模塑底填）
产能	2026 计划 HBM 25,000 wafer/月
关键客户	NVIDIA（90%），AMD，部分 Google
2025 营收（HBM）	~$30B（同比 +80%）
2025 净利率	~35%（远超传统 DRAM 业务）

SK Hynix 关键优势

最早量产 HBM3（2018）：技术先发
NVIDIA 深度合作：HBM3、HBM3e 都是 NVIDIA 首发
Advanced MR-MUF 工艺：封装良率领先
HBM4 抢先：2026 Q1 首批量产

关键事件

时间	事件
2014	与 AMD 合作开发 HBM
2018	首批 HBM2 量产（NVIDIA V100）
2020	HBM2e 量产
2022	HBM3 量产（NVIDIA H100）
2024	HBM3e 12-Hi 量产（NVIDIA B200）
2026 Q1	HBM4 首批量产（NVIDIA Rubin R200）

2. Samsung：HBM4 追赶者（20% 份额）

Samsung 是 HBM 市场的挑战者，但受困于良率和 NVIDIA 认证：

项目	Samsung 状态
市场份额	~20%（2025 HBM 总市场）
HBM4 进展	2026 Q2 量产（落后 SK Hynix 1 季）
HBM3e 供应	等待 NVIDIA 认证，主要给 AMD / Google
核心技术	TC-NCF（热压非导电膜）
产能	2026 计划 HBM 10,000 wafer/月
关键客户	AMD（部分 MI300X），Google TPU，Cerebras
2025 营收（HBM）	~$8B（同比 +150%，但仅 SK Hynix 1/4）
2025 净利率	~5%（良率低导致利润率低）

Samsung 关键问题

HBM3 NVIDIA 认证未通过：2023-2024 多次送样失败
良率低：HBM3e 良率 ~50%（SK Hynix ~70%）
技术路线分歧：Samsung 押注 TC-NCF（vs SK Hynix 的 MR-MUF）
2024 大幅亏损：HBM 业务投入巨大但回报慢

Samsung 2025-2026 突破

时间	事件
2024-12	HBM3e 8-Hi 通过 AMD 认证
2025-03	HBM3e 12-Hi 通过 Google TPU 认证
2025-Q4	HBM4 试产，2026 Q2 量产
2025-Q4	NVIDIA HBM3e 12-Hi 认证通过（部分订单）

2025 末 Samsung 终于获得 NVIDIA HBM3e 12-Hi 部分订单，这是 Samsung HBM 业务的转折点。

3. Micron：HBM 黑马（10% 份额）

Micron 是 HBM 市场的黑马，凭借HBM3E 12-Hi 9.2 Gbps 速度成为 NVIDIA 第二供应商：

项目	Micron 状态
市场份额	~10%（2025 HBM 总市场）
HBM4 进展	2026 Q3 量产（落后 SK Hynix 2 季）
HBM3e 供应	NVIDIA 第二供应商（~30% 份额）
核心技术	1znm DRAM + Advanced Packaging
产能	2026 计划 HBM 5,000 wafer/月
关键客户	NVIDIA（部分），AMD，Intel
2025 营收（HBM）	~$4B（同比 +200%）
2025 净利率	~10%

Micron 关键优势

HBM3E 12-Hi 9.2 Gbps：业界最高速度（领先 SK Hynix 的 9 Gbps）
美光本土制造：美国爱达荷/纽约工厂，符合 CHIPS Act
NVIDIA 第二供应商：避免单源风险
2025 突破：营收同比 +200%，是三家中增长最快

Micron 关键事件

时间	事件
2024	首次量产 HBM3E 8-Hi
2025-Q1	HBM3E 12-Hi 量产（业界首发）
2025-Q2	NVIDIA H100/B200 认证通过
2025-Q3	部分 B200 订单（~30% 份额）
2026-Q3	HBM4 预计量产

Micron 是三家中增长最快的，2025 同比 +200%。但产能仅 5,000 wafer/月，限制其市占率提升。

HBM 技术路线图

HBM4 关键规格

项目	HBM3e	HBM4	提升
单 stack 容量	24 GB (12-Hi)	36-48 GB（16-Hi）	1.5-2×
单 pin 速度	9.2 Gbps	12-16 Gbps	1.3-1.7×
单 stack 带宽	1.2 TB/s	1.5-2 TB/s	1.3-1.7×
功耗	7W/stack	8W/stack	略增
制造工艺	1z/1β DRAM	1γ/1δ DRAM	缩小
封装	CoWoS-S	CoWoS-L	更大 interposer
量产时间	2024-2025	2026 Q1 (SK) / Q2 (Sam) / Q3 (Mic)	—

HBM4E / HBM5 路线图

年份	型号	容量	速度	制程
2026	HBM4	36-48 GB	12-16 Gbps	1γ/1δ
2027	HBM4E	48-64 GB	16-20 Gbps	1δ
2028	HBM5	64-80 GB	20-24 Gbps	1ε
2029	HBM5E	80-96 GB	24-28 Gbps	1ε+

产能与价格

HBM 产能（2026 计划）

厂商	2025 实际	2026 计划	2027 计划	市场份额
SK Hynix	18,000 wafer/月	25,000	35,000	60-70%
Samsung	6,000 wafer/月	10,000	18,000	15-20%
Micron	3,500 wafer/月	5,000	12,000	10-15%
合计	27,500	40,000	65,000	100%

2026 HBM 产能紧张：需求 ~50,000 wafer/月，供给仅 40,000 wafer/月，缺口 20%。

HBM 价格（per GB）

型号	2024	2025	2026	2027 (E)
HBM4	N/A	N/A	$20-25/GB	$15-18/GB
HBM3e 12-Hi	$18-22/GB	$15-18/GB	$12-15/GB	$10-12/GB
HBM3e 8-Hi	$14-18/GB	$11-14/GB	$9-11/GB	$8-10/GB
HBM3 8-Hi	$10-12/GB	$8-10/GB	$6-8/GB	$5-7/GB

HBM 占 AI 芯片成本 30-50%。NVIDIA B200 的 HBM 成本约 $5,000-8,000（192GB HBM3e × ~$30/GB）。

HBM 与 AI 芯片供应的关联

NVIDIA Rubin R200 HBM 供应链

HBM 来源	占比	备注
SK Hynix HBM4	70%	首批，独家供应 2026 Q1-Q2
Micron HBM4	20%	2026 Q3 起，CHIPS Act 优惠
Samsung HBM4	10%	2026 Q4 起（认证延迟）

NVIDIA 仍严重依赖 SK Hynix。这是 NVIDIA 供应链的单点故障风险。

AMD MI400 HBM 供应链

HBM 来源	占比	备注
SK Hynix HBM3e	50%	主供
Samsung HBM3e	30%	2025 突破后扩大
Micron HBM3e	20%	备份供应

Google TPU HBM 供应链

HBM 来源	占比	备注
Samsung HBM3e	60%	早期合作
SK Hynix HBM3e	30%	部分订单
Micron HBM3e	10%	新加入

Huawei Ascend 920 HBM 供应链

HBM 来源	占比	备注
CXMT 长鑫存储	70%	国产 HBM，4 Tbps
Samsung HBM3	20%	受美国出口管制限制
SK Hynix	10%	受美国出口管制限制

Huawei 受美国出口管制影响，被迫加速国产 CXMT HBM 替代。

投资分析

三家厂商 2025-2026 表现

厂商	2025 营收 (HBM)	同比	2026 (E) 营收	净利率
SK Hynix	~$30B	+80%	~$50B	~35%
Samsung	~$8B	+150%	~$15B	~10%
Micron	~$4B	+200%	~$10B	~15%

股价表现（2025 至今）

厂商	2025 涨幅	2026 涨幅（YTD）
SK Hynix	+120%	+35%
Samsung	+15%	+10%
Micron	+90%	+25%
NVIDIA	+180%	+40%

SK Hynix 是 AI 内存最大受益者，2025 涨幅 120%，超过 Samsung（仅 15%）。

风险与挑战

1. HBM 产能紧张

2026 缺口 20%（需求 50K wafer vs 供应 40K）
NVIDIA Rubin R200 出货可能因 HBM 供应紧张而延迟
客户预付定金已成为常态

2. 美国出口管制

HBM 出口中国受美国商务部严格限制
Samsung、SK Hynix 在中国工厂受限
Huawei 加速国产 CXMT HBM 替代

3. 技术路线分歧

SK Hynix：MR-MUF 路线，领先
Samsung：TC-NCF 路线，落后但在追
Micron：介于两者之间

4. 竞争技术

Samsung HBM-PIM：HBM 内置处理单元（存算一体）
TSMC SoIC：3D 堆叠 SRAM + Logic
Micron HBM-CX：Compute Express Link 集成

未来展望

短期（2026-2027）

HBM 持续紧张：需求 > 供给
价格高位：HBM4 $20-25/GB
三家共存：SK Hynix 70% + Samsung 20% + Micron 10%

中期（2027-2029）

HBM4E / HBM5：容量 64-96 GB，速度 20-28 Gbps
国产 HBM 崛起：CXMT 量产 8-Hi
新进入者：长江存储（YMTC）可能进入 HBM 市场

长期（2029+）

HBM6 / 3D HBM：堆叠更多层，TSV 替代品
PIM-HBM：HBM 内置处理单元
替代技术：片上 SRAM 容量突破（如 Cerebras WSE）

详细产品页

总结

HBM 三家争霸战将持续 3-5 年：

SK Hynix 短期不可撼动——HBM4 首发 + NVIDIA 深度绑定
Samsung 在 2025 末突破——HBM3e 12-Hi 终于获 NVIDIA 认证
Micron 是最快增长者——HBM3E 9.2 Gbps 业界最快
产能紧张持续——2026 缺口 20%
国产 HBM 崛起——CXMT 长鑫 4 Tbps 突破

HBM 不是配角，而是 AI 时代的"水电煤"。

机柜级 AI 时代：NVL72 vs Helios vs Groq 3 LPX vs Trn3 UltraServer 四大方案对比

2026-05-20T00:00:00.000Z

2026 年 AI 算力进入"机柜级"时代。单芯片对标已退潮，整机柜方案成为主战场。本文将深度对比 NVIDIA Rubin NVL72/NVL576、AMD Helios、Groq 3 LPX、AWS Trn3 UltraServer、Google TPU 8t pod 五大机柜级方案。

为什么是机柜级时代？

单芯片对标的局限

单芯片指标	2018 (V100)	2024 (H100)	2026 (Rubin R200)	2028 (推测)
算力	125 TFLOPS	989 TFLOPS	25 PFLOPS	80 PFLOPS
显存	32 GB	80 GB	288 GB	1 TB
TDP	300 W	700 W	1,800 W	3,000 W

单芯片 TDP 即将突破 3,000W——物理散热、电源、互联都达到极限。

机柜级的优势

统一散热：液冷整柜，散热效率高
统一电源：集中供电，能效优化
统一互联：NVLink 6 / UALoF / GroqSync / NeuronLink
统一管理：单系统软件栈
统一采购：单 SKU 购买，简化运维

五大机柜级方案

1. NVIDIA Rubin NVL72 / NVL576

项目	Rubin NVL72	Rubin NVL576
GPU 数	72	576
CPU 数	36	288
HBM 总量	20.7 TB HBM4	165 TB HBM4
显存带宽	1.6 PB/s	12.7 PB/s
NVLink 聚合	252 TB/s	2,016 TB/s
FP4 稀疏算力	3.6 EFLOPS	28.8 EFLOPS
FP8 稀疏算力	1.8 EFLOPS	14.4 EFLOPS
DC 网络	ConnectX-9 1152 端口	ConnectX-9 1152 端口
TDP（机柜）	~130 kW	~1 MW
散热	液冷	液冷
适用	100B+ 模型训练	1T+ 巨型模型
价格	~$3-5M	~$25-40M
发布时间	2026 H2	2026 H2+

Rubin NVL576 = 28.8 EFLOPS FP4 = 1.5 ExaFLOPS FP8 = 全球最强 AI 超级节点

2. AMD Helios 机柜

项目	Helios
GPU 数	72 颗 MI400
CPU 数	36 颗 EPYC Venice
HBM 总量	31.1 TB HBM4
显存带宽	1.4 PB/s
Scale-up 互联	UALoF 260 TB/s（开放标准）
Scale-out 网络	Pensando Vulcano 800G
FP4 dense 算力	2.88 EFLOPS
FP8 dense 算力	1.44 EFLOPS
TDP（机柜）	~80 kW
散热	液冷
适用	700B+ 模型训练
价格	~$2-3M
发布时间	2026

Helios 在 dense 算力上超越 NVIDIA Rubin NVL72（2.88 vs 1.8 EF FP8 dense）

3. NVIDIA Groq 3 LPX 机柜（推理专用）

项目	Groq 3 LPX
LPU 数	256 颗 Groq 3 LPU
CPU 数	无（独立）
片上 SRAM	128 GB 聚合
SRAM 带宽	40 PB/s（SRAM，非 HBM）
互联	GroqSync + NVLink-Network 640 TB/s
FP8 算力	~640 PFLOPS
INT8 算力	~640,000 TOPS
TDP（机柜）	~80 kW
TTFT（首 Token 延迟）	< 20ms
TPOT	< 5ms
散热	液冷
适用	超低延迟推理（Agentic AI）
价格	~$8-10M
发布时间	2026 H2

Groq 3 LPX 是当前唯一专为 Agentic AI 设计的机柜级 LPU 系统

4. AWS Trn3 UltraServer

项目	Trn3 UltraServer
芯片数	144 颗 Trainium 3
HBM 总量	~20.7 TB
NeuronLink-v4	全互联，>10 TB/s 双向
FP8 dense 算力	52 PFLOPS
BF16 dense 算力	~187 PFLOPS
TDP（机柜）	~100 kW
散热	液冷
适用	400B+ 模型训练
价格（推测）	~$3-5M
发布时间	2025-12 GA

Trn3 UltraServer = 性价比最高的大规模训练方案（每美元性能 2-3× NVIDIA）

5. Google TPU 8t pod

项目	TPU 8t pod
芯片数	9,216 颗 TPU 8t
HBM 总量	~2 PB HBM
互联	3D Torus
集成 CPU	Arm Axion（每节点 64 核）
BF16 dense 算力	~32 PFLOPS × 9,216 = 295 EFLOPS
FP8 dense 算力	~590 EFLOPS
散热	液冷
适用	Gemini 3/4 训练
价格	仅 Google Cloud
发布时间	2026-04-22

TPU 8t pod = 全球最大 AI 训练集群（9,216 颗芯片 × 9 PFLOPS ≈ 83 EFLOPS FP4 dense）

五大方案横向对比

指标	NVIDIA NVL72	AMD Helios	Groq 3 LPX	Trn3 UltraServer	TPU 8t pod
形态	训练机柜	训练机柜	推理机柜	训练机柜	训练 pod
芯片数	72 GPU	72 GPU	256 LPU	144 chip	9,216 chip
总内存	20.7 TB HBM	31.1 TB HBM	128 GB SRAM	20.7 TB HBM	~2 PB HBM
互联	NVLink 6 252 TB/s	UALoF 260 TB/s	GroqSync 640 TB/s	NeuronLink-v4	3D Torus
FP4 算力	3.6 EF (sparse)	2.88 EF (dense)	—	—	—
FP8 算力	1.8 EF (sparse)	1.44 EF (dense)	640 PF	52 PF (dense)	590 EF (dense)
TDP	130 kW	80 kW	80 kW	100 kW	~10 MW (pod)
TTFT	~100ms	~100ms	< 20ms	~100ms	~100ms
生态	CUDA 13	ROCm 8	Groq SDK	Neuron 3	JAX 0.5+
价格	$3-5M	$2-3M	$8-10M	$3-5M	内部使用
客户	所有云 + 客户	客户 + 云	客户 + 云	AWS Cloud	Google Cloud
标准化	❌ NVLink 封闭	✅ UALoF 开放	❌ GroqSync	❌ NeuronLink	❌ Torus
发布时间	2026 H2	2026	2026 H2	2025-12 GA	2026-04

选型建议

大规模训练

场景	推荐方案	理由
100B-700B 模型训练	NVIDIA Rubin NVL72	单机柜可装 100B，FP4 算力最强
700B-1T 模型训练	NVIDIA Rubin NVL576 或 AMD Helios	多机柜互联
1T+ 巨型模型训练	NVIDIA NVL576 (8 个)	28.8 EFLOPS × 8 = 230 EFLOPS
超大规模 (Gemini 级)	Google TPU 8t pod (9,216 chip)	仅 Google Cloud
AWS 内部训练	Trn3 UltraServer	性价比最高
开放生态偏好	AMD Helios	UALoF 开放互联

超低延迟推理

场景	推荐方案	理由
Agentic AI (1000+ 调用/秒)	Groq 3 LPX	TTFT < 20ms，唯一选择
Real-time Code Gen（Copilot）	Groq 3 LPX	100ms 以内响应
万亿参数推理	NVIDIA Rubin R200 + Groq 3 LPX 协同	GPU 训练 + LPU 推理
70B 单模型推理	TPU 8i（288GB HBM）	单卡可装 FP16 70B
多模态实时推理	TPU 8i（风冷）	散热灵活

成本敏感训练

场景	推荐方案	理由
百亿参数训练	AWS Trn3 UltraServer	每美元性能 2-3× NVIDIA
超大规模 (Gemini 外)	AWS Trn3 UltraServer × N	$3-5M/机柜
70B 微调	AMD Helios 单机柜	性价比 + 开放生态
千亿参数训练	Trn3 UltraServer × 3	144 × 3 = 432 chip

机柜级的未来趋势

1. 单机柜算力持续增长

年份	单机柜算力	主流方案
2024	~0.2 EFLOPS FP8	GB200 NVL72
2026	1.8-3.6 EFLOPS FP8	Rubin NVL72 / Helios
2028	8-15 EFLOPS FP8	Rubin Ultra NVL72 / MI500
2030	30-50 EFLOPS FP8	Feynman 时代

2. 多机柜互联标准竞争

标准	厂商	状态
NVLink Network	NVIDIA	封闭，2026 主力
UALoF	AMD/Broadcom/Intel	开放，2026 Helios 首发
UALink	联盟	UALoF 演进版
NeuronLink	AWS	私有
GroqSync	Groq (NVIDIA)	私有，超低延迟

3. 软件生态分层

训练框架：PyTorch + JAX + Megatron
推理引擎：vLLM + TensorRT-LLM + SGLang
资源调度：Slurm + Kubernetes + Ray
多机柜管理：NVIDIA Base Command / AMD ROCm RunTime

详细产品页

总结

2026 年 AI 算力的主战场是机柜级方案：

NVIDIA Rubin NVL72/NVL576——训练最强，FP4 3.6/28.8 EFLOPS
AMD Helios——开放生态，dense 算力领先
Groq 3 LPX——超低延迟推理，TTFT < 20ms
AWS Trn3 UltraServer——性价比最高，2-3× 每美元
Google TPU 8t pod——超大规模，9,216 chip 集群

没有最好，只有最合适。选型需结合：

模型规模（100B / 700B / 1T+）
训练 vs 推理
延迟要求（普通 vs Agentic）
生态偏好（CUDA / ROCm / JAX / Neuron）
预算（$2-10M/机柜）
部署位置（自建 / 云）

Intel 取消 Falcon Shores 转向 Jaguar Shores：从单芯片对标到机柜级系统

2026-05-14T00:00:00.000Z

2026 年 5 月 14 日，Intel 在 Q1 财报披露中正式取消 Falcon Shores 单芯片 GPU 计划，并确认新的机柜级 AI 系统项目 Jaguar Shores 将在 2027-2028 年推出。这是 Intel AI 战略的重大调整，本文深入分析其原因和未来。

Falcon Shores 取消事件

时间	事件	详情
2023	首次公布	200 PFLOPS 单芯片对标 B100
2024-12	路线图调整	取消 200 PF 目标，改为"系统级"
2026-05-14	正式取消	Intel 财报披露 Falcon Shores 取消
2026-05-14	转向 Jaguar Shores	确认新机柜级系统项目
2027-2028	预计发布	Jaguar Shores 机柜级系统

为什么取消 Falcon Shores？

1. 第三次季度亏损

2026 Q1 Intel 第三次季度亏损：

营收：$12.7B（同比 -7%）
净亏损：-$1.6B
AI 业务（Habana）：营收仅 $0.4B，远低于预期

研发预算紧张，无法同时支持 Falcon Shores + Gaudi + Xeon + 18A 工艺。

2. 单芯片 200 PF 不现实

Falcon Shores 原计划 2025 年发布 200 PFLOPS 单芯片，对标 B100。

但到 2026 年，行业现实是：

NVIDIA Rubin R200 单芯片 50 PFLOPS FP4 sparse（25 PF dense）已是极限
单芯片 200 PF 物理不可行（功耗、面积、HBM 容量都达不到）
业界已转向机柜级方案（NVL72、Helios、UltraServer）

3. HBM 供应紧张

HBM 供应紧张，优先供应 NVIDIA：

SK Hynix：70% 产能给 NVIDIA
Micron：60% 产能给 NVIDIA
Samsung：份额被压缩

Intel 难以获得足够 HBM 供应单芯片 200 PF 计划。

4. 市场转向机柜级

2026 年 AI 算力市场已转向机柜级：

NVIDIA Rubin NVL72（72 GPU）
AMD Helios（72 MI400）
AWS Trn3 UltraServer（144 chip）
Google TPU 8t pod（9,216 chip）

单芯片对标已无意义，机柜级才是主战场。

Jaguar Shores：Intel 的机柜级反击

项目	参数（推测）
形态	机柜级系统（非单芯片）
每机柜 AI 加速器数	64-128 颗（推测）
每机柜 CPU 数	32-64 颗 Xeon
AI 加速器 IP	Gaudi v4 架构（基于 Gaudi 3 演进）
制程	Intel Foundry 18A
HBM 容量（每加速器）	144 GB HBM3e
HBM 带宽（每加速器）	~5 TB/s
FP8 算力（每加速器）	~2,500 TFLOPS（推测）
FP8 算力（机柜）	~160-320 PFLOPS
网络	800G 集成 NIC
TDP（机柜）	~80-120 kW
首发	2027-2028

⚠️ 未官方公布：以上规格均为推测，Intel 仅有路线图级别披露。所有数字以 Intel 后续公布为准。

Intel AI 战略重组（2026-05）

战略	内容
Gaudi 产品线	继续推 Gaudi 3 / Gaudi 3E（2026 维持）
Falcon Shores	❌ 已取消
Jaguar Shores	✅ 重启机柜级 AI 系统
代工服务	Intel Foundry 18A 为 NVIDIA / AMD / AWS 代工
x86 主导	强化 Xeon 6/7（AI 服务器 CPU 主导）
Habana 品牌	保留，Jaguar Shores 整合 Gaudi IP

Intel 不再做 AI GPU 直接对标 NVIDIA：

短期：Gaudi 3 维持（性价比对标）

中期：Jaguar Shores 系统级（机柜级对标）

长期：Intel Foundry 18A 为 AI 厂商代工（Intel 做"AI 代工厂"）

Intel Foundry 18A 战略

Intel 的真正"AI 终极战略"是代工：

客户	18A 代工产品
NVIDIA	Rubin 后续代（2027+）
AMD	MI500 后续代（2028+）
AWS	Trainium 4（2027）
Microsoft	Maia 2（2026）

如果 Intel Foundry 18A 良率达到台积电 N3 水平，Intel 将从"AI GPU 失败者"转变为"AI 算力代工霸主"。

对 Intel 客户的影响

Gaudi 3 / Gaudi 3E（短期）

2024 发布，性价比优于 NVIDIA H100
2026 维持，作为 Intel 主力 AI 训练芯片
主要客户：部分企业级 + 政府/电信

Jaguar Shores（中期）

2027-2028 发布
适合机柜级训练
主要客户：政府、电信、超算中心

Intel Foundry 18A（长期）

2027 量产（推测）
客户：NVIDIA、AMD、AWS、Microsoft
Intel 的真正 AI 收入来源

对 AI 行业的影响

1. AI 芯片竞争格局变化

厂商	2025 定位	2026+ 定位
NVIDIA	GPU 主导	GPU + LPU + 系统级（最强）
AMD	GPU 第二	GPU + 机柜级 UALoF
Intel	单芯片失败	机柜级 + 代工厂
Google	TPU 专用	TPU 拆分 + 训练/推理双线
AWS	Trainium 自研	3nm + UltraServer
Huawei	国产替代	3× H20 + 系统级
Cerebras	晶圆级	IPO + WSE-4
Groq (NVIDIA)	LPU 独立	NVIDIA 收购整合

2. UALoF 开放互联加速

Intel 加入 UALoF 联盟后：

AMD + Intel + Broadcom 共同推动 UALoF
挑战 NVIDIA NVLink 封闭生态
2027-2028 年 UALoF 可能成为开放标准

3. AI 代工业务竞争

TSMC 仍主导：3nm / 2nm 工艺领先
Intel Foundry 18A 迎头赶上：2026 试产，2027 量产
Samsung Foundry：3nm GAA 工艺量产，但客户少

详细产品页

总结

Intel 取消 Falcon Shores 转向 Jaguar Shores 是 2026 年 AI 芯片行业最重大战略调整之一：

承认单芯片对标 NVIDIA 不现实
转向机柜级系统（与 AMD Helios 同方向）
强化 Intel Foundry 18A 代工（真正长期战略）
Gaudi IP 整合到 Jaguar Shores
开放互联 UALoF 联盟（挑战 NVLink）

Intel 的 AI 战略从"直接对标 NVIDIA"转向"机柜级系统 + AI 代工厂"，是一次务实的战略调整。未来 5 年，Intel Foundry 18A 的成败将决定 Intel 在 AI 时代的最终命运。

推理优化技术演进：PagedAttention / FlashAttention / Speculative Decoding 深度解析

2026-04-30T00:00:00.000Z

LLM 推理性能 = 算法 + 软件 + 硬件。硬件（H100、B300、Rubin）只决定了理论上限。实际推理性能可以通过算法优化提升 5-30 倍。本文深度解析 PagedAttention、FlashAttention、Speculative Decoding 三大推理优化技术。

推理优化 vs 训练优化

维度	训练	推理
算力利用	满载（高 batch）	低（batch 1-32）
瓶颈	GPU 算力	显存 + 内存带宽
优化方向	数据并行 / 模型并行 / ZeRO	KV Cache + 注意力 + 批处理
性能指标	tokens/sec (训练)	TTFT, TPOT, throughput
典型优化	FlashAttention, gradient checkpointing	PagedAttention, Speculative, 量化

推理优化比训练优化更复杂——因为延迟敏感 + 内存受限 + 多种工作负载。

三大核心技术

1. PagedAttention（vLLM 核心）

PagedAttention 是 UC Berkeley 团队（李卓、@woody-yc 等）在 vLLM 论文（SOSP 2023） 中提出的KV Cache 内存管理革命。

问题：传统 KV Cache 浪费严重

传统方式：为每个请求预分配最大长度的 KV Cache 空间
例：70B 模型 + 4K 上下文 = ~2 GB KV Cache / 请求
100 个并发请求 = 200 GB——爆显存

方案	KV Cache 管理	内存浪费
传统 (HuggingFace)	连续预分配	60-80% 浪费
PagedAttention	分页按需分配	<4% 浪费

原理：操作系统分页思想

传统方式:
[请求1: 2GB 连续] [请求2: 2GB 连续] [请求3: 2GB 连续]  -- 大量内部碎片

PagedAttention:
[请求1: page 0,1,2,3] [请求2: page 4,5,6,7] [请求3: page 8,9,10,11]  -- 页表管理

每个 page = 16 tokens 的 KV Cache
按需分配 page，无需预分配
page table 跟踪映射关系
碎片化 < 4%（vs 60-80%）

性能提升

指标	传统 (HF)	PagedAttention (vLLM)	提升
吞吐量 (70B 推理)	100 tok/s	800-1500 tok/s	8-15×
最大并发	~30	200+	6×
显存利用率	30%	96%	3.2×
长上下文支持	4K	32K-128K	8-32×

PagedAttention 让 vLLM 成为 LLM 推理的事实标准——70B 模型吞吐量提升 8-15×。

适用场景

✅ 高并发在线推理（ChatGPT、Claude、文心一言）
✅ 长上下文（32K+ token）
✅ 多模型服务（共享 GPU 池）
❌ 单用户离线推理（提升有限）

2. FlashAttention（GPU 优化）

FlashAttention 是 Tri Dao 等 在 2022 年提出的 GPU 内存层次优化：

问题：注意力矩阵 O(N²) 内存

标准 attention：需要存储 N×N 注意力矩阵
8K 上下文：8K×8K = 64M floats = 256 MB
32K 上下文：32K×32K = 1G floats = 4 GB——爆显存
128K 上下文：128K×128K = 16G floats = 64 GB——不可能

原理：分块（tiling） + 重计算

标准 Attention:
Q @ K^T → 存储 N×N 矩阵 → softmax → @ V   -- 需要 256MB+ HBM

FlashAttention:
分块计算，每块在 SRAM 内部处理，**不存储 N×N 矩阵**
Q 块 × K 块^T → 局部 softmax → × V 块   -- SRAM 内部

核心思想：利用 GPU 的 SRAM（HBM 上的高速缓存）
HBM 读写次数：从 O(N²) 降到 O(N)
重计算：反向传播时重新计算 attention，不存中间结果

性能提升

指标	标准 Attention	FlashAttention v2	提升
训练速度	100%	200-300%	2-3×
内存	O(N²)	O(N)	1/N 比例
H100 速度	600 TFLOPS	1100+ TFLOPS	1.8×
128K 上下文	❌ OOM	✅ 可行	—
1M 上下文	❌ 不可能	✅ FlashAttention-3	—

FlashAttention 演进

版本	年份	关键改进
FlashAttention v1	2022	分块 + 重计算
FlashAttention v2	2023	并行化 + 减少 non-matmul 工作
FlashAttention v3	2024	FP8 支持 + H100 优化
FlashAttention v4 (推测 2026)	2026	Rubin R200 / MI400 优化

FlashAttention v3 + H100/H200 达到 1100+ TFLOPS（FP16）——超过官方标称算力。

适用场景

✅ 所有 attention 计算（训练 + 推理）
✅ 长上下文（128K+ token）
✅ GPU 推理必备（H100/B200 标配）
❌ 边缘设备（不需要 attention 优化）

3. Speculative Decoding（投机解码）

Speculative Decoding（投机解码 / 推测解码）是 Leviathan et al. 2023 提出的推理加速技术：

问题：自回归生成慢

LLM 一次生成 1 个 token
每个 token 需要完整 forward pass
H100 FP16：~50ms/token——长生成耗时

原理：小模型 + 大模型协同

传统:
大模型 → token 1 → token 2 → token 3 → ...    -- 每个 token 都用大模型

Speculative Decoding:
1. 小模型 (Draft Model) 一次生成 5 个候选 token: [t1, t2, t3, t4, t5]
2. 大模型 (Target Model) 一次验证 5 个 token（一次 forward pass）
3. 接受前 k 个匹配的 token（k+1 用大模型重新生成）
4. 重复

小模型：~100× 更快（70B → 1B）
大模型：一次 forward 验证多个 token
理论加速：2-4×（取决于小模型精度）

性能提升

指标	传统	Speculative Decoding	提升
70B 推理速度	30 tok/s	60-100 tok/s	2-3×
TTFT (首 Token)	200ms	200ms (同)	—
TPOT (单 Token)	33ms	10-17ms	2-3×
适用模型	任何	小模型 + 大模型	—

主流 Speculative Decoding 方案

方案	小模型	加速比	适用
Self-Speculative	同一模型不同层	1.5-2×	通用
Draft Model	独立小模型 (e.g., 7B+70B)	2-3×	通用
Medusa	多个解码头	2-3×	单一模型
EAGLE	特征预测	2-3×	单一模型
Lookahead Decoding	Jacobi 迭代	1.5-2×	小模型
REST	检索增强	2-4×	长生成

vLLM 0.6+ 默认支持 Speculative Decoding——配置简单，性能提升 2-3×。

适用场景

✅ 大模型离线批处理（效果最显著）
✅ 长输出生成（代码、文章、报告）
✅ 多轮对话（ReAct、Agent）
❌ 极短输出（1-5 个 token，加速比有限）

其他重要优化技术

4. Continuous Batching（连续批处理）

vLLM / TGI / TensorRT-LLM 全部支持：

传统：等 batch 满才处理，新请求等待
Continuous：动态插入新请求到正在运行的 batch
提升：吞吐量 2-4×

5. Quantization（量化）

精度	模型大小	性能	质量损失
FP16	70B = 140 GB	1×	0%
INT8	70B = 70 GB	1.5-2×	<1%
INT4 (GPTQ/AWQ)	70B = 35 GB	2-3×	1-3%
FP8	70B = 70 GB	1.5-2×	<1%
FP4 (NVFP4)	70B = 35 GB	2-3×	2-5%
INT2	70B = 17.5 GB	3-5×	5-15%

NVFP4 (NVIDIA) + 量化感知训练 = 接近 FP16 质量 + 2-3× 性能。

6. Prefix Caching（前缀缓存）

场景：多个请求共享相同 system prompt
方法：缓存 KV Cache 的前缀
加速：相同 prefix 部分 0 计算，~10-100× 加速

7. Chunked Prefill（分块预填充）

问题：长 prompt 预填充阻塞其他请求
方法：将预填充分块，与解码交错
提升：TTFT -50%，总吞吐 +20%

推理优化软件栈

vLLM（最流行）

特性	支持
PagedAttention	✅ 核心
Continuous Batching	✅
Speculative Decoding	✅ 0.6+
Quantization	✅ INT4/INT8/FP8
Prefix Caching	✅ 0.4+
Multi-LoRA	✅
多 GPU	✅ TP/PP
支持模型	Llama / Qwen / Mistral / Gemma / DeepSeek 全系列

TensorRT-LLM（NVIDIA）

特性	支持
In-flight Batching	✅
PagedAttention	✅
Speculative Decoding	✅
Quantization	✅ INT4/INT8/FP8/FP4
Multi-GPU	✅ TP/PP/EP
性能	NVIDIA GPU 上最佳（原生优化）

SGLang（UC Berkeley 新作）

RadixAttention：类似 Prefix Caching，更高效
结构化生成：JSON / regex guided generation
2025 增长迅速

llama.cpp（本地）

GGUF 格式
CPU / GPU / Apple Silicon 全支持
本地 LLM 首选

实际性能对比（70B 推理）

软件	硬件	量化	吞吐量	延迟 TPOT
vLLM + PagedAttn	H100	FP16	1500 tok/s	8ms
vLLM + Spec Decoding	H100	FP16	3000 tok/s	3ms
TensorRT-LLM	H100	FP8	2500 tok/s	4ms
TensorRT-LLM + NVFP4	B200	FP4	5000 tok/s	2ms
vLLM	8× A100	INT4	800 tok/s	12ms
llama.cpp	M3 Ultra	Q4_K_M	12 tok/s	80ms

B200 + NVFP4 + TensorRT-LLM = 5000 tok/s = 比 FP16 H100 提升 20×。

推理优化对硬件选型的影响

优化 → 硬件需求降低

优化技术	所需算力	所需显存
FP16 基线	1×	1×
+ PagedAttention	1×	0.4-0.6×
+ Speculative	0.5×	1×
+ INT4 量化	1×	0.25×
+ Prefix Cache	1×	1×
+ Chunked Prefill	1×	1×
+ Continuous Batch	0.5×	1×
+ TensorRT-LLM 全套	0.3×	0.4×

全套优化后，硬件需求降低 3-5×——70B 推理从 8× H100 降到 1-2× H100。

选型建议

场景	推荐硬件	关键软件
云端高并发	8× H100 + vLLM	PagedAttn + Spec
单卡大模型	1× B300 Ultra + TensorRT-LLM	NVFP4 + Spec
本地 LLM	M3 Ultra 192GB + llama.cpp	GGUF Q4/Q5
Agent 多轮	8× H100 + SGLang	RadixAttn + Spec
代码生成	1× B200 + vLLM	NVFP4 + Spec

未来展望

短期（2026-2027）

FlashAttention v4 适配 Rubin R200
Speculative Decoding 标准化（OpenAI API 支持）
Multi-modal Speculative（视觉 + 语言联合）
端到端编译：torch.compile + TensorRT

中期（2027-2030）

端到端 GPU 内核生成：ML-based kernel synthesis
PIM-HBM 推理：HBM 内部做 attention
100× 推理加速（vs 2023 基线）

长期（2030+）

神经符号推理：LLM + 符号系统
量子 + LLM 协同
真正"零延迟"AI 助手

详细产品页

总结

LLM 推理优化的三大核心技术：

PagedAttention (vLLM)：KV Cache 内存管理 → 8-15× 吞吐量
FlashAttention (Tri Dao)：GPU 内存层次优化 → 2-3× 训练 / 推理
Speculative Decoding：小模型 + 大模型协同 → 2-3× 推理速度

全套优化后，硬件需求降低 3-5×——软件优化的 ROI 远超硬件升级。

未来 5 年，推理优化将让 AI 推理成本降低 10-100 倍。

Apple Silicon 逆袭：M3 Ultra 192GB UMA 本地 LLM 革命

2026-04-25T00:00:00.000Z

Apple Silicon 在 AI 时代正在经历逆袭。M3 Ultra 单台 Mac Studio 配备 192GB 统一内存（UMA） 和 80 核 GPU，可以本地运行 70B-200B 参数 LLM 而无需量化。这是消费级 / 工作站级 AI 推理的革命。本文深入分析 Apple Silicon 的 AI 优势、当前生态和未来。

Apple Silicon 演进：从 M1 到 M4

Apple Silicon 时间线

芯片	发布	制程	内存 (最大)	GPU 核心	FP32 算力	FP16 算力
M1	2020-11	5nm	16 GB	8	2.6 TFLOPS	5.2 TFLOPS
M1 Pro	2021-10	5nm	32 GB	16	5.2 TFLOPS	10.4 TFLOPS
M1 Max	2021-10	5nm	64 GB	32	10.4 TFLOPS	20.8 TFLOPS
M1 Ultra	2022-03	5nm	128 GB	64	20.8 TFLOPS	41.6 TFLOPS
M2	2022-06	5nm	24 GB	10	3.6 TFLOPS	7.2 TFLOPS
M2 Ultra	2023-06	5nm	192 GB	76	27.2 TFLOPS	54.4 TFLOPS
M3	2023-10	3nm	24 GB	10	3.7 TFLOPS	7.4 TFLOPS
M3 Max	2023-10	3nm	128 GB	40	14.1 TFLOPS	28.2 TFLOPS
M3 Ultra	2024-06	3nm	192 GB	80	28.4 TFLOPS	56.8 TFLOPS
M4	2024-10	3nm	32 GB	10	4 TFLOPS	8 TFLOPS
M4 Max	2024-10	3nm	128 GB	40	17 TFLOPS	34 TFLOPS
M4 Ultra	2025-Q4 (推测)	3nm	256 GB	80+	35 TFLOPS (推测)	70 TFLOPS (推测)

M3 Ultra 192GB UMA = 可装 70B 模型（FP16）+ 大 KV Cache。

Apple Silicon 的关键创新：统一内存架构（UMA）

UMA vs 传统 GPU 显存

维度	Apple Silicon (UMA)	NVIDIA GPU (HBM)
内存位置	同一 chip 上	独立显存芯片
容量	16-192 GB（消费级）	80-288 GB（旗舰）
带宽	800 GB/s (M3 Ultra)	3.35-22 TB/s (H100/Rubin)
CPU + GPU 共享	✅ 完全共享	❌ 需 PCIe 复制
数据一致性	自动	手动 sync
多任务友好	✅ 极强	❌ 易爆显存

UMA 的核心理念：CPU 和 GPU 共享同一块内存，无需数据复制，特别适合大模型推理（prompt 和 KV cache 可在 CPU/GPU 间无缝传递）。

UMA 对 LLM 推理的影响

场景 1：70B 模型推理

维度	NVIDIA A100 80GB	Apple M3 Ultra 192GB
装 FP16 70B	❌ 需 2 卡	✅ 装 1 个
模型权重	140 GB（INT4）	140 GB（FP16）
KV Cache 剩余	0 GB	52 GB（2K 上下文）
长上下文支持	短（需量化）	8K-32K（FP16）
部署成本	$15K+ (GPU)	$5K (Mac Studio)

M3 Ultra 装 70B FP16 模型后，仍有 52GB 余量给 KV Cache——这是 NVIDIA 80GB 卡做不到的。

场景 2：200B 模型推理

维度	8× NVIDIA H100 (640GB)	2× Mac Studio M3 Ultra (384GB)
装 FP16 200B	✅	✅ (需 2 台串联 / MLX 框架)
价格	~$240K	~$10K
功耗	5.6 kW	780 W
部署复杂度	高（多卡）	中（多机 MLX）

价格 24× 优势 + 功耗 7× 优势——Apple Silicon 在大模型推理上性价比远超 NVIDIA。

Apple Silicon AI 生态

1. MLX（Apple 自研框架）

MLX 是 Apple 2023 年开源的机器学习框架，专门为 Apple Silicon UMA 优化：

GitHub：https://github.com/ml-explore/mlx
API 兼容 PyTorch / NumPy
支持 LLM / Diffusion / Vision 全场景
2026 已成为 Apple Silicon 上 LLM 推理的事实标准

MLX vs PyTorch 性能对比（M3 Ultra）

模型	PyTorch (MPS)	MLX	提升
Llama 2 7B	35 tok/s	52 tok/s	1.5×
Llama 2 13B	22 tok/s	35 tok/s	1.6×
Llama 2 70B	6 tok/s	12 tok/s	2×
Mistral 7B	38 tok/s	55 tok/s	1.4×
Mixtral 8x7B	18 tok/s	28 tok/s	1.6×
Qwen 72B	5 tok/s	10 tok/s	2×

MLX 比 PyTorch MPS 性能提升 50-100%。原因：MLX 针对 UMA 优化，避免 CPU/GPU 内存复制。

2. llama.cpp（GGUF 量化）

llama.cpp 是社区最流行的本地 LLM 框架：

支持 Apple Silicon Metal GPU 加速
GGUF 量化格式：Q4_K_M / Q5_K_M / Q6_K
70B 模型在 M3 Ultra 上：
- Q4_K_M（40 GB）：~10-15 tok/s
- Q5_K_M（48 GB）：~8-12 tok/s
- Q6_K（56 GB）：~6-9 tok/s
- Q8_0（75 GB）：~5-7 tok/s

3. Ollama（本地 LLM 一键运行）

Ollama 是 2024-2025 最流行的本地 LLM 工具：

一键运行 Llama 3 / Mistral / Qwen / Gemma
M3 Ultra 上 70B 模型可流畅运行
2025 月活 100 万+

4. LM Studio（GUI 客户端）

LM Studio 是 2024-2025 最流行的本地 LLM 客户端：

完全 GUI，无需命令行
M3 Ultra 优化（MLX 后端）
支持 Llama 3.1 405B 量化（GGUF）

5. vLLM（推理服务）

vLLM 0.7+ 实验性支持 Apple Silicon：

PagedAttention 优化
70B FP16 服务在 M3 Ultra 上可行
TTFT ~500ms，TPOT ~80ms

实际性能测试

M3 Ultra vs NVIDIA H100（70B FP16 推理）

指标	M3 Ultra (80 GPU + 192GB)	NVIDIA H100 (80GB)
装 70B FP16	✅ 192GB > 140GB	❌ 80GB < 140GB
吞吐量	12 tok/s (单 user)	30 tok/s (FP8 + batch)
延迟 TTFT	800ms	200ms
KV Cache	8K-32K token	1-2K token (需 2 卡)
价格	$5,000 (Mac Studio)	$30,000+ (H100 8 卡)
功耗	480W	5,600W (8 卡)
适合场景	单用户长上下文	高并发低延迟

Apple Silicon 在"单用户长上下文"场景下完胜 NVIDIA——但在高并发低延迟"场景下不如 NVIDIA。

M3 Ultra vs Apple M2 Ultra（代际提升）

指标	M2 Ultra (76 GPU)	M3 Ultra (80 GPU)	提升
内存	192 GB	192 GB	同
内存带宽	800 GB/s	800 GB/s	同
FP16 算力	54.4 TFLOPS	56.8 TFLOPS	1.04×
制程	5nm	3nm	更先进
LLM 推理 (70B Q4)	10 tok/s	12 tok/s	1.2×
功耗	350W	480W	略增

M3 Ultra 提升有限（4-20%）。主要改进是能效和制程。

Apple Silicon AI 适用场景

✅ 最佳场景

场景	理由
本地 LLM 推理	192GB UMA 可装 70B FP16 + 大 KV
本地文生图	Stable Diffusion XL / Flux 流畅运行
本地多模态	LLaVA / GPT-4V 量化版本地
个人 AI 助手	Ollama + Mistral 7B 完全本地
学术研究	单机训练小模型 / 调试
隐私敏感 AI	完全离线，无数据外传
AI 编程助手	Continue + DeepSeek Coder 33B
教育 / 学生	性价比高，无需订阅云服务

❌ 不适合场景

场景	理由
大规模训练	算力远低于 H100/B200
高并发推理服务	单机内存带宽限制
FP8 / FP4 训练	Apple Silicon 不支持
多卡集群	UMA 难扩展

Apple Silicon vs NVIDIA 推理对比

70B 模型推理

方案	硬件价格	性能	部署复杂度
Apple M3 Ultra	$5K	12 tok/s (FP16)	⭐
Apple M2 Ultra	$4K	10 tok/s (FP16)	⭐
NVIDIA H100 80GB	$30K	30 tok/s (FP8)	⭐⭐
NVIDIA H100 8 卡	$240K	200+ tok/s (FP8)	⭐⭐⭐
AMD MI300X	$15K	22 tok/s (FP8)	⭐⭐
AMD MI400	$25K (推测)	50+ tok/s (FP4)	⭐⭐
Google TPU 8i (云)	$4/hr	80+ tok/s (FP8)	⭐

价格性能比（每美元吞吐量）

方案	tok/s/$硬件	排名
Apple M3 Ultra	0.0024	⭐⭐⭐
Apple M2 Ultra	0.0025	⭐⭐⭐
AMD MI300X	0.0015	⭐⭐
NVIDIA H100	0.0010	⭐
Google TPU 8i (云)	20+ tok/s/$/hr	⭐⭐⭐⭐（云）

Apple M3 Ultra 是本地部署的"性价比之王"——价格性能比 2.5× NVIDIA H100。

Apple Silicon 局限

局限	影响
算力弱	FP16 56 TFLOPS vs H100 989 TFLOPS
不支持 FP8 / FP4	量化路径有限
内存带宽限制	800 GB/s vs H100 3.35 TB/s
生态封闭	仅 macOS，无 Linux 服务器
数据中心不可用	macOS 不适合 24/7 集群
多卡难扩展	UMA 架构不易横向扩展
NVLink 替代缺失	多机互联带宽低

Apple AI 战略（2025-2026）

WWDC 2025 公告

Apple Intelligence 全面接入 iOS 18 / macOS 15
Private Cloud Compute：Apple 自建数据中心，使用 Apple Silicon
M4 Ultra 2025-Q4 发布
M5 系列 2026 推测（3nm+ 增强）

Apple Intelligence 与 M3 Ultra

Apple Intelligence 后端推理完全在 M3 Ultra 上本地运行
写作工具 / 图像生成 / Siri 增强等全部本地
隐私优先：仅在必要时调用 Private Cloud Compute

Apple 与 OpenAI 合作

iOS 18 + ChatGPT 集成（用户可选）
不替代 Apple Intelligence，而是补充
不直接创造 Apple Silicon AI 需求

M4 Ultra 预期（2025-Q4 推测）

项目	M3 Ultra	M4 Ultra (推测)	提升
制程	3nm	3nm (增强)	同
内存	192 GB	256 GB	1.33×
内存带宽	800 GB/s	1000+ GB/s	1.25×
GPU 核心	80	80+	同
FP16 算力	56.8 TFLOPS	70 TFLOPS	1.23×
功耗	480W	500-550W	略增
发布时间	2024-06	2025-Q4 (推测)	—

M4 Ultra 256GB UMA = 可装 200B 模型（FP16）——大模型本地推理新时代。

详细产品页

总结

Apple Silicon 在 AI 时代的逆袭：

M3 Ultra 192GB UMA = 本地 70B FP16 + 32K KV Cache
MLX 框架 = 比 PyTorch MPS 性能提升 50-100%
价格性能比 = 2.5× NVIDIA H100
功耗 = 480W (M3 Ultra) vs 5,600W (8× H100)
Apple Intelligence = 全本地 AI 助手
M4 Ultra 256GB 即将发布 = 200B 模型本地

Apple Silicon 不是"数据中心 AI 杀手"，但是"本地 AI 部署之王"。

如果你需要：

本地 LLM 推理 → Apple M3 Ultra（最佳）
大规模训练 → NVIDIA H100 / Rubin R200
高并发推理服务 → NVIDIA H100 + Groq 3 LPX
本地文生图 → Apple M3 Max / Ultra
隐私敏感 AI → Apple Silicon（完全离线）

AMD MI400 + Helios 机柜：432GB HBM4 + 260 TB/s UALoF 开放互联

2026-04-22T00:00:00.000Z

2026 年 AMD 推出 MI400（CDNA Next） + Helios 72-GPU 机柜，这是 AMD 对标 NVIDIA NVL72 的旗舰方案。本文将分析 MI400 的关键规格、Helios 机柜的开放互联（UALoF）战略，以及与 Rubin R200 的对比。

MI400 核心规格

项目	MI400	上一代 MI350	提升
架构	CDNA Next	CDNA 4	新一代
制程	TSMC 3nm / 2nm	TSMC 3nm	更先进
显存	432 GB HBM4	288 GB HBM3e	1.5×
显存带宽	19.6 TB/s	8 TB/s	2.45×
FP4 Tensor (dense)	40 PFLOPS	20 PFLOPS	2×
FP8 Tensor (dense)	20 PFLOPS	10 PFLOPS	2×
TDP	~1,000 W	~1,000 W	持平
PCIe	Gen 6	Gen 5	2×
发布时间	2026	2025	—

432 GB HBM4 = 全球单卡最大显存。相比 NVIDIA Rubin R200 的 288 GB，多 50%。这对超大模型推理是关键优势。

CDNA Next 架构亮点

AMD 在 CDNA Next 上的关键演进：

FP4 矩阵引擎：原生支持 MXFP4 / NVFP4
增强的稀疏计算：比 CDNA 4 提升 2× sparse throughput
更大的 Infinity Cache：~512 MB
异构调度器：CPU+GPU 协同优化（EPYC Venice 协同）

Helios 机柜：AMD 的 NVL72 回应

Helios 是 AMD 的机柜级方案，对标 NVIDIA GB300 NVL72 / Rubin NVL72：

项目	Helios 机柜	NVIDIA Rubin NVL72
GPU 数	72 颗 MI400	72 颗 Rubin
CPU 数	36 颗 EPYC Venice	36 颗 Vera
HBM 总量	31.1 TB HBM4	20.7 TB HBM4
Scale-up 互联	UALoF 260 TB/s	NVLink 6 252 TB/s
Scale-out 网络	Pensando Vulcano 800G	ConnectX-9 14.4 Tbps
FP4 算力 (dense)	2.88 EFLOPS	3.6 EFLOPS (sparse)
FP4 dense 折算	2.88 EF	1.8 EF
TDP（机柜）	~80 kW	~130 kW
散热	液冷必需	液冷必需

AMD Helios 在 dense 算力上超越 NVIDIA Rubin NVL72（2.88 vs 1.8 EFLOPS）。但 NVIDIA 的 sparse 算力翻倍后达到 3.6 EFLOPS，所以是"互有胜负"。

UALoF：开放互联挑战 NVLink

Ultra Accelerator Link（UALoF / UALink） 是 AMD + Broadcom + Intel 共同推动的开放标准 scale-up 互联协议：

目标：取代 NVLink 单家封闭生态
2026 首发：AMD Helios 72-GPU 机柜
后续：Intel Jaguar Shores、AWS UltraServers

UALoF 关键特性：

特性	UALoF	NVLink 6
标准化	开放标准	NVIDIA 私有
带宽（机柜级）	260 TB/s	252 TB/s
厂商	AMD/Broadcom/Intel	NVIDIA only
生态	ROCm + Open	CUDA only
未来扩展性	高	受限

UALoF 的真正威胁不是当下，而是未来。如果 UALoF 能在 2-3 年内构建完整生态，NVIDIA 的封闭互联优势将被削弱。

ROCm 8 软件生态

AMD 在 ROCm 上持续投入：

ROCm 7.x（2025 GA）：PyTorch / JAX / Triton 全优化
ROCm 8.x（2026）：CDNA Next 首发，全面支持 FP4 / FP8
vLLM 0.7+（AMD-SGLang 优化版）
AMD Composable Kernel (CK)：类比 CUDA Cores，开源
MIGraphX / ONNX-Runtime：推理引擎
Infinity Hub：AMD 官方参考实现

部署推荐

场景	推荐配置
700B+ 模型训练	Helios 机柜（72 GPU，单机柜可运行 700B 模型）
1T+ 巨型模型训练	多机柜 + UALoF 跨机柜互联
超低延迟推理	MI400 + FP4 + vLLM/AMD-SGLang
科学计算	MI400 + ROCm 7/8 + OpenMP
多模态生成	MI400（432GB 完整保留）
偏好开放生态	UALoF + ROCm 8（避免 NVIDIA 锁定）

MI400 vs Rubin R200（同期旗舰对比）

指标	MI400 (CDNA Next)	Rubin R200
显存	432 GB HBM4 ✅	288 GB HBM4
显存带宽	19.6 TB/s	22 TB/s ✅
FP4 dense	40 PF ✅	25 PF
FP8 dense	20 PF	12.5 PF
每 GPU 互联	UALoF (开放) ✅	NVLink 6 (封闭)
每 GPU 网络	Pensando 800G	ConnectX-9 14.4 Tbps ✅
CPU	EPYC Venice	Vera ARM 88 核 ✅
生态	ROCm 8 (开源) ✅	CUDA 13 (成熟) ✅
标准化	UALoF ✅	NVLink ❌
TDP	1,000 W ✅	1,800 W

AMD 优势：显存大、FP4 dense 算力领先、开放互联、功耗较低 NVIDIA 优势：HBM 带宽、CPU 集成、DC 网络、CUDA 生态

详细产品页

总结

AMD MI400 + Helios 是 AMD 在 AI 算力上的最强反击：

CDNA Next + 432 GB HBM4 在硬件规格上不输 NVIDIA
Helios 72-GPU 机柜 在 dense 算力上甚至超过 NVIDIA NVL72
UALoF 开放互联 是对 NVLink 封闭的真正威胁
ROCm 8 生态 持续改善，但仍需时间

2026 年，AMD 是唯一能正面挑战 NVIDIA 的 GPU 厂商。

Google TPU 8t + 8i：首次拆分训练/推理的 TPU 时代

2026-04-22T00:00:00.000Z

2026 年 4 月 22 日，Google 在 Cloud Next 大会上公布了 TPU 8t + TPU 8i——首次将 TPU 拆分为训练/推理两条独立产品线。TPU 8t 专注训练，TPU 8i 专注推理。这是 Google 应对 AI 推理时代的关键产品调整。

为什么要拆分 TPU？

过去 7 代 TPU（v1 → v7 Ironwood）都是训练/推理通用的：

v4-v6e：训练为主、推理辅助
v7 Ironwood：开始偏向推理，但仍是通用

但 2025-2026 年的 AI 行业发生根本变化：

训练需求：仅几家头部公司（OpenAI、Anthropic、Google DeepMind、Meta、xAI）需要
推理需求：所有 AI 应用都需要，是 100× 更大的市场
推理优化方向：与训练截然不同
- 训练：算力 + 互联优先（compute-bound）
- 推理：显存 + 带宽 + 散热灵活优先（memory-bound + TCO 敏感）

Google 因此决定将 TPU 拆分为两条产品线：

产品	定位	核心优化
TPU 8t	训练专用	算力 + 互联 + 集成 Axion CPU
TPU 8i	推理专用	显存 + 带宽 + 散热灵活

TPU 8t：训练专用

项目	参数
架构	TPU 8t（Trillium 2）
形态	训练专用
BF16 算力（密集）	~3,500 TFLOPS
FP8 算力（密集）	~7,000 TFLOPS
HBM 容量	216 GB
HBM 带宽	6,528 GB/s
ICI 互联	1,400 GB/s（双向）
集成 CPU	Arm Axion（Google 自研，64 核）
Pod 规模	9,216 芯片
拓扑	3D Torus
散热	液冷

Arm Axion 是 Google 自研的 64 核 ARM CPU，首次进入 TPU 节点。这让 TPU 8t 节点成为 TPU + Axion CPU 协同系统，对标 NVIDIA Vera CPU。

TPU 8i：推理专用

项目	参数
架构	TPU 8i（Trillium 2）
形态	推理专用
BF16 算力（密集）	~5,500 TFLOPS
FP8 算力（密集）	~11,000 TFLOPS
INT8 算力	~22,000 TOPS
HBM 容量	288 GB
HBM 带宽	8,601 GB/s
散热	风冷 / 液冷均可
Pod 规模	256 芯片

TPU 8i 单卡 288GB HBM = 当前最大显存推理 ASIC。单卡可装 FP16 70B 模型（不需张量并行），非常适合长上下文 RAG、Agentic AI。

TPU 8t vs 8i 关键差异

指标	TPU 8t（训练）	TPU 8i（推理）
定位	训练	推理
BF16 算力	~3,500 TFLOPS	~5,500 TFLOPS（更强）
HBM 容量	216 GB	288 GB（更大）
HBM 带宽	6,528 GB/s	8,601 GB/s（更高）
散热	液冷	风冷/液冷
Pod 规模	9,216 颗	256 颗
集成 CPU	Arm Axion	无（独立）
价格	高	中

拆分目的：训练强调算力 + 互联，推理强调显存 + 带宽 + 散热灵活性。

TPU 8i 推理范式优化

TPU 8i 专门为推理场景优化：

优化方向	内容
超低延迟	TTFT < 100ms（首 Token 延迟）
高吞吐	10,000+ tok/s（70B 模型 FP8）
Long-context KV	288GB 完整保留 1M+ token 上下文
MoE 推理	Expert Parallel 原生支持
Speculative Decoding	内部 speculative 加速
Batching	Continuous batching + PagedAttention
Continuous KV Cache	KV Cache 跨请求共享（同 prefix 优化）

TPU 8t 训练范式优化

TPU 8t 专门为训练场景优化：

优化方向	内容
MoE 训练	Expert Parallel 原生支持（DeepSeek / Mixtral 风格）
Long-context 训练	1M+ token 上下文训练优化
RLHF / 后训练	Online RL（DPO / PPO / GRPO）原生优化
多模态训练	视觉-语言联合训练（ViT + LLM 同步）
AXIOM	Arm Axion CPU 协同（数据预处理 / 权重初始化）

TPU 8i 推理服务定价

实例	每小时价格（推测）
TPU 8i v6e-equivalent	~$3-5 / chip
TPU v7 Ironwood	~$6-8 / chip
TPU 8i vs TPU v7	+50% 价格 / +150% 算力

TPU 8i 单美元 BF16 算力比 TPU v7 Ironwood 高 70%（按 2.4× 算力 / 1.5× 价格）。

软件生态

TPU 8t

JAX 0.5+：Google 主力训练框架
PyTorch/XLA 2.5+：PyTorch 兼容
TensorFlow 2.17+：旧框架
Paxml / Orbax：Google 内部 LLM 训练栈
MaxText：Google 参考实现

TPU 8i

JAX 0.5+：推理
PyTorch/XLA 2.5+：推理
vLLM 0.8+（TPU 后端）：低延迟推理
Vertex AI Inference：Google 托管推理服务
Gemini API：内部最大用户

与同期竞品对比

指标	TPU 8t	TPU 8i	NVIDIA B300 Ultra	Groq 3 LPX
定位	训练	推理	训练+推理	超低延迟推理
HBM/SRAM	216 GB HBM	288 GB HBM	288 GB HBM3e	128 GB SRAM
带宽	6.5 TB/s	8.6 TB/s	8 TB/s	40 PB/s
BF16 算力	3.5 PF	5.5 PF	3.5 PF (FP8 dense)	320 PF (机柜)
互联	3D Torus	3D Torus	NVLink 5	GroqSync
散热	液冷	风冷	液冷	液冷
客户	Google DeepMind	Gemini / Vertex AI	AWS / Azure	NVIDIA 客户

详细产品页

总结

Google TPU 8t + 8i 拆分是 AI 推理时代的标志性事件：

首次拆分训练/推理 TPU——TPU 进入"专用化"时代
TPU 8i 288GB HBM——单卡可装 70B 模型
TPU 8i 风冷——降低数据中心部署门槛
Arm Axion 集成——Google 自研 CPU 进入 TPU
JAX 训练范式——Google 押注 JAX 作为下一代训练标准

Google 现在有"全场景 AI 算力覆盖"：

训练：TPU 8t pod
通用推理：TPU 8i
Gemini API：TPU 8i 集群
Vertex AI：TPU 8i 商用

NVIDIA Vera Rubin Platform Deep Dive: 6-Chip Package, 288GB HBM4, 50 PFLOPS FP4

2026-04-22T00:00:00.000Z

The NVIDIA Vera Rubin platform is NVIDIA's next-generation flagship computing platform after Blackwell. This article provides an in-depth analysis covering the naming origin, 6-chip packaging, memory subsystem, compute matrix, networking architecture, rack-scale solution, and software ecosystem.

Naming Origin: Honoring Astronomer Vera Rubin

NVIDIA chose "Vera Rubin" as the codename for the next-generation platform, honoring astronomer Vera Florence Cooper Rubin (1928-2016). In the 1960s-70s, through studying galactic rotation curves, she provided the first conclusive proof of dark matter's existence.

NVIDIA naming the next-generation platform of the AI compute revolution after her carries deep philosophical meaning:

Dark matter is the "invisible" yet dominant mass component of the universe
AI compute is the "invisible" yet dominant underlying infrastructure of the digital economy

6-Chip Packaging (CoWoS-L)

The Vera Rubin platform adopts the industry's first 6-chip CoWoS-L packaging:

Chip	Quantity	Role	Process
Vera CPU	1	Host CPU / Prefetch / Interconnect Controller	TSMC 3NP
Rubin GPU Die	2	Matrix Compute Cores	TSMC 3NP / 4NP
I/O / HBM Base Die	3	HBM4 PHY + I/O + Interconnect	TSMC 4NP

Compared to the Blackwell B300 Ultra's 2-chip package (only 2 GPU dies), Vera Rubin features a 3× increase in chip count, with substantial transistor count growth.

Core Specifications (Per GPU)

Item	Specification
Architecture	Rubin
Transistor Count	~340 billion (per GPU)
Memory	288 GB HBM4
Memory Bandwidth	22 TB/s (2.75× HBM3e)
FP4 Tensor (sparse)	50 PFLOPS
FP8 Tensor (sparse)	25 PFLOPS
FP16/BF16 Tensor	12.5 PFLOPS
TDP	~1,800 W (liquid cooling required)

Data Convention: Post-Blackwell NVIDIA products continue to use sparse compute as the official metric. FP4 50 PF = dense 25 PF. For cross-vendor comparison, AMD MI400's 40 PF FP4 dense = NVIDIA Rubin R200's 80 PF FP4 sparse.

Vera CPU Deep Dive

The Vera CPU is NVIDIA's first self-designed ARM-based server CPU, succeeding Grace:

Item	Specification
Architecture	ARM v9.2 Olympus
Core Count	88 cores (single package)
Process	TSMC 3NP
L2 Cache	1 MB per core
L3 Cache	Shared 264 MB
Memory	12-channel DDR5-8000
Memory Bandwidth	614 GB/s
CXL 2.0	Yes (Type-3 memory expansion)
PCIe	PCIe Gen 6 (128 lanes)
TDP	300-450 W

Why ARM? NVIDIA acquired ARM in 2020 (failed), but obtained the permanent ARM architecture license and Neoverse series code. Vera is essentially NVIDIA's "ARM Olympus" design.

Rubin GPU: 4x Blackwell Performance

The Rubin GPU achieves 4× Blackwell B300 Ultra performance through:

2× SMs (Streaming Multiprocessors)
2× HBM4 bandwidth (22 TB/s vs HBM3e 11 TB/s)
FP4 Tensor Core (new precision, 4× FP8)
Transformer Engine 3 (9× DNN inference acceleration)
RAS Engine (Reliability, Availability, Serviceability)

Memory Subsystem: HBM4 288GB

The HBM4 standard, formalized in 2026, brings:

Per-stack capacity: 36 GB → 48 GB (33% increase)
Per-stack bandwidth: 1.2 TB/s → 1.6 TB/s (33% increase)
Stack height: 12-Hi → 16-Hi
Per-package capacity: 288 GB (6 stacks × 48 GB)
Per-package bandwidth: 22 TB/s (theoretical peak)

Compute Matrix: FP4 Everywhere

Vera Rubin is the first NVIDIA platform to natively support FP4 data type:

Precision	Throughput (per GPU, sparse)	Use Cases
FP4	50 PFLOPS	Inference, small-batch training
FP8	25 PFLOPS	LLM training, large model inference
FP16/BF16	12.5 PFLOPS	Traditional training, scientific computing
FP32	6.25 PFLOPS	HPC, traditional scientific computing
FP64	3.1 PFLOPS	Numerical simulation

Networking: ConnectX-9 28.8 TB/s

The ConnectX-9 is NVIDIA's next-generation network adapter:

Bandwidth: 1.6 Tbps per port (2× ConnectX-8)
GPU ratio: 2× ConnectX-9 per GPU
Aggregate GPU-to-GPU: 28.8 TB/s (per Rubin GPU)
Protocols: NVLink 6, PCIe Gen 6, RoCE v2, InfiniBand NDR
Encryption: AES-256-GCM hardware acceleration

Rack-Scale Solutions

Vera Rubin supports two rack-scale configurations:

1. Rubin NVL72 (1 Rack)

GPU count: 72 (NVL72 1×72 topology)
CPU count: 36 Vera
Total HBM4: 20.7 TB
Total bandwidth: 1.6 PB/s
Peak FP4: 1.4 EFLOPS (1 Rack unit)
Power: ~130 kW

2. Rubin NVL576 (8 Racks)

GPU count: 576 (NVL576 8×72)
CPU count: 288 Vera
Total HBM4: 165 TB
Total bandwidth: 12.7 PB/s
Peak FP4: 28.8 EFLOPS (full cluster)
Power: ~1.1 MW (single data hall)

1.1 MW single-hall power consumption marks Vera Rubin NVL576 as the first data hall that requires substation-level dedicated power supply, posing new challenges to data center design.

Software Ecosystem

The Vera Rubin platform's software stack:

CUDA 13.0: Full FP4 / FP8 / FP16 / BF16 / TF32 support
cuDNN 9.0: FP4 Tensor Core acceleration
TensorRT 11.0: LLM FP4 quantization deployment
Megatron-LM 0.12: Distributed training framework
TensorRT-LLM 2.0: LLM inference optimization
NeMo 2.0: LLM/Speech AI/Visual Agent framework

Competitive Analysis

Vendor	Product	Peak FP4 dense	Memory	Memory BW	Process
NVIDIA	Vera Rubin R200	25 PF (50 PF sparse)	288 GB HBM4	22 TB/s	3NP
AMD	MI400	40 PF dense	432 GB HBM4	~12 TB/s	3N + 5N
Google	TPU Ironwood v7	2.3 PF dense	192 GB HBM	7.4 TB/s	5N
AWS	Trainium 3	1.8 PF dense	144 GB HBM	2.7 TB/s	3N
Huawei	Ascend 920	0.45 PF dense	192 GB HBM2e	4 TB/s	6N SMIC

Apple Silicon M5 Ultra (2026 H2 predicted) 400B FP8 = NVIDIA Rubin R200's 25 PF FP8 sparse (dense) × 6.25 = 156 PF FP8. Apple still 6× behind in single-chip performance, but with 384GB UMA + 1 TB/s bandwidth, it's a strong local LLM inference option.

Conclusion

Vera Rubin is the culmination of 5 architectural innovations:

6-chip CoWoS-L packaging (industry first)
288GB HBM4 (3× B200 capacity)
22 TB/s memory bandwidth (2.75× HBM3e)
50 PFLOPS FP4 sparse (2.5× B300 Ultra)
ConnectX-9 28.8 TB/s (2× ConnectX-8)

For AI workloads, Vera Rubin is the next-generation foundation for trillion-parameter model training and Agentic AI inference.

💡 Disclaimer: All "predicted" and "rumored" data points are clearly marked and do not constitute investment advice.

Cerebras IPO 深度分析：S-1 申请、22-25B 估值、OpenAI $10B 大单

2026-04-20T00:00:00.000Z

2026 年 4 月 17 日，Cerebras Systems 正式向 SEC 提交 S-1 招股书，申请在 Nasdaq 上市，目标 2026 年 5 月。这是 AI 芯片行业 2026 年最重大的 IPO 之一。本文将深入分析 Cerebras 的财务、战略、客户和未来。

IPO 关键数据

项目	内容
IPO 申请日期	2026-04-17（S-1 提交）
目标上市日期	2026-05（Nasdaq: CBRS）
估值	$22-25B
2025 营收	~$510M（同比 +150%）
2025 净亏损	~$200M（仍亏损，但亏损率收窄）
关键大单	OpenAI $10B 推理算力长期合同
主要客户	OpenAI、G42、Mistral、Meta、Mayo Clinic
投行	高盛 / 摩根士丹利 / 摩根大通
创始人	Andrew Feldman（CEO）

财务数据（来自 S-1）

营收增长

年份	营收	同比
2023	~$80M	—
2024	~$200M	+150%
2025	~$510M	+155%
2026 (E)	~$1.2B	+135%

三年营收增长 6.4 倍，是 AI 芯片行业增长最快的公司之一。

净亏损

年份	净亏损	亏损率
2023	~$120M	-150%
2024	~$180M	-90%
2025	~$200M	-39%（亏损率收窄）
2026 (E)	~$50M	-4%

亏损率从 -150% 收窄到 -39%，2026 年预计接近盈亏平衡。

客户集中度

客户	营收占比
G42（阿联酋）	~25%
OpenAI	~20%
其他企业	~55%

G42 + OpenAI 占 45% 营收，客户集中度较高，但 OpenAI 合同大幅增长后这一比例将变化。

关键大单：OpenAI $10B 推理合同

2025 年 12 月，Cerebras 宣布与 OpenAI 签订 $10B 推理算力长期合同（10 年期）：

项目	详情
合同金额	$10B（10 年期）
服务	OpenAI 模型推理算力
起始时间	2026 Q2
年化金额	$1B/年
硬件	CS-3 (WSE-3) + 未来 CS-4 (WSE-4)
意义	Cerebras 营收基础大幅扩展

这份合同让 Cerebras 的 2026 营收预测从 ~$700M 提升到 ~$1.2B。

客户列表

旗舰客户

客户	行业	应用
OpenAI	AI 实验室	GPT 系列推理
G42	阿联酋主权 AI	国家 AI 基础设施
Meta	互联网	Llama 训练
Mistral	AI 公司	模型训练 + 推理
Mayo Clinic	医疗	医疗 AI 训练

科研 / 政府客户

客户	应用
Argonne National Lab	科学计算
Los Alamos National Lab	国家安全
NASA	气候模拟
Sandia National Lab	国防

企业客户

客户	行业
GSK	制药
AstraZeneca	制药
Total	能源
BMW	自动驾驶
Daimler	自动驾驶

核心产品：WSE-3 (CS-3)

项目	参数
晶体管数	4 万亿
核心数	900,000
片上 SRAM	44 GB
算力 (BF16 稀疏)	125 PFLOPS
算力 (FP8)	250 PFLOPS（推测）
内存带宽	21 PB/s
互联	SwarmX（多 WSE 互联）
TDP	~25 kW
价格	~$3-5M/系统
发布时间	2024

未来产品：WSE-4 (CS-4, 推测)

项目	WSE-3	WSE-4 (推测)	提升
制程	TSMC 5nm	TSMC 3nm	+一代
晶体管数	4 万亿	~5 万亿	1.4×
核心数	900,000	~1,500,000	1.67×
SRAM	44 GB	~80 GB	1.8×
SRAM 带宽	21 PB/s	~40 PB/s	1.9×
BF16 算力	125 PFLOPS	~200 PFLOPS	1.6×
TDP	25 kW	~30-35 kW	1.3×
发布时间	2024	2027 预计

⚠️ WSE-4 未官方公布，以上为推测。

估值分析

估值倍数

指标	Cerebras 2025	估值倍数
营收	$510M	43-49×（按 $22-25B 估值）
净亏损	-$200M	—
2026 营收（E）	$1.2B	18-21×
2027 营收（E）	$2.5B	9-10×

按 2026 营收，估值倍数 18-21× SaaS 类似；按 2027 营收，9-10× 接近 NVIDIA 长期倍数。

与 NVIDIA 估值对比

厂商	市值	2025 营收	市销率
NVIDIA	~$4,000B	~$130B	~31×
Cerebras	$22-25B	$510M	43-49×
AMD	~$280B	~$25B	11×

Cerebras 市销率高于 NVIDIA——市场对 Cerebras 增长预期较高。

投资亮点

1. 晶圆级技术领先

单芯片 125 PFLOPS BF16 = 5× H100 单卡（BF16 989 TFLOPS）
44 GB SRAM 远超 HBM：SRAM 比 HBM 快 1000×
21 PB/s 内存带宽：比 H100 HBM 6000×

2. 推理市场新机遇

OpenAI $10B 合同 = 10 年长期收入
超低延迟推理：vs GPU HBM 延迟，SRAM 快 1000×
机柜级集成：单系统可推理万亿参数模型

3. 软件生态完善

Cerebras Software Platform (CSoft)：基于 PyTorch
JAX + Cerebras backend：Google 集成
vLLM 0.7+ Cerebras backend（推测）
HuggingFace 集成
Triton + Cerebras backend
OpenAI 兼容 API（Cerebras Inference）

投资风险

风险	影响
持续亏损	2025 仍亏 $200M
客户集中度	G42 + OpenAI = 45% 营收
TDP 高	25 kW/单芯片，散热挑战
价格高	$3-5M/系统
NVIDIA Groq 收购	超低延迟推理市场竞争加剧
WSE-4 延迟	2027 才发布，AMD MI400 / NVIDIA Rubin 已 2026 GA

IPO 后影响

1. 算力 IPO 行业洗牌

公司	状态	市值
NVIDIA	上市	~$4,000B
Cerebras	即将上市	$22-25B
Groq（被 NVIDIA 收购）	已退出 IPO	—
SambaNova	仍在私募	推测 $5-10B
Tenstorrent	仍在私募	推测 $4-7B
Cambricon 寒武纪	已 A 股上市	~$8B

Cerebras 上市后，将是 NVIDIA 之外最大的纯 AI 芯片上市公司。

2. 国产晶圆级芯片

中国国产晶圆级 AI 芯片进展：

壁仞科技 BR104：300 TFLOPS（FP16）
天数智芯 Iluvatar Bi-150：200 TFLOPS
摩尔线程 MTT S5000：250 TFLOPS

Cerebras 上市将刺激国产晶圆级 AI 芯片融资和上市。

详细产品页

总结

Cerebras IPO 是 2026 年 AI 芯片行业最重大事件之一：

S-1 2026-04-17 提交，目标 2026-05 上市 Nasdaq: CBRS
估值 $22-25B，2025 营收 $510M
OpenAI $10B 长期合同 = 10 年收入基础
晶圆级技术领先（单芯片 125 PFLOPS）
亏损率收窄（从 -150% 到 -39%）
WSE-4 2027 发布 = IPO 后首代产品

Cerebras 上市后，AI 算力市场将形成 NVIDIA + Cerebras 双寡头格局。

NVIDIA 200 亿美元收购 Groq：LPU 正式进入 NVIDIA 生态

2026-04-15T00:00:00.000Z

2026 年 Q1，AI 芯片行业最大的新闻之一：NVIDIA 以约 200 亿美元全资收购 Groq。这意味着 Groq 的 LPU 架构正式成为 NVIDIA 算力版图的一部分，与 GPU 形成互补。本文将详细分析这次收购的战略意义。

收购时间线

时间	事件	详情
2024-2025	Groq 独立运营	LPU v1 商用，GroqCloud API 服务
2025-12	NVIDIA 投资	NVIDIA 投资 Groq 2.5 亿美元（首次合作）
2026-Q1	全资收购	NVIDIA 以约 200 亿美元全资收购 Groq
2026 H2	产品整合	Groq 3 LPU 重命名为 NVIDIA Groq 3 LPX
2026 H2+	协同生态	LPX rack 作为 Rubin GPU 的 co-processor

收购金额细节：根据多方信源，NVIDIA 以"现金 + 股权"组合形式收购 Groq，对应估值约 $20B。Groq 创始团队（Jonathan Ross 等）部分留任，继续负责 LPU 产品线。

为什么 NVIDIA 要收购 Groq？

NVIDIA 在 GPU 算力领域已经绝对领先（CUDA 生态 + Rubin 平台 + 90% 数据中心 AI 市场份额），但有一个明显短板：

超低延迟推理（TTFT < 50ms）
Agentic AI（1000+ 调用/秒）
Deterministic Latency（可预测的延迟）

这些场景下，传统 GPU 即使是 H100/Rubin R200，也受限于：

HBM 访问延迟（~200ns vs SRAM 1ns）
CUDA 调度不确定性
算子融合的复杂度

Groq LPU 完美补全了 NVIDIA 的能力栈。

Groq 3 LPX 机柜规格

收购完成后，Groq 3 LPU 重命名为 NVIDIA Groq 3 LPX，作为 Vera Rubin 平台的 co-processor：

项目	参数
芯片数（机柜）	256 颗 Groq 3 LPU
片上 SRAM（机柜）	128 GB 聚合
SRAM 带宽（机柜）	40 PB/s
互联	GroqSync + NVLink-Network，640 TB/s
INT8 算力（机柜）	~640,000 TOPS
FP8 算力（机柜）	~640 PFLOPS
BF16 算力（机柜）	~320 PFLOPS
TDP（机柜）	~80 kW
perf/W	35× H100（官方）
TTFT（首 Token 延迟）	< 20ms
TPOT（单 Token 延迟）	< 5ms

40 PB/s SRAM 带宽 ≈ 5,000× H100 HBM 带宽（H100 80GB HBM3 = 3.35 TB/s）。这是 Groq LPU 极致低延迟的核心秘密。

收购后的产品矩阵

NVIDIA 现在提供全场景 AI 算力覆盖：

场景	推荐产品
大规模训练（100B+ 模型）	Rubin NVL72 / NVL576
高吞吐推理	B300 Ultra / Rubin R200
超低延迟推理	Groq 3 LPX
Agentic AI（1000+ 调用/秒）	Groq 3 LPX rack
Real-time Code Gen（Copilot）	Groq 3 LPX rack
万亿参数推理	Rubin R200 + Groq 3 LPX 协同

对 AI 行业的影响

1. 超低延迟推理市场洗牌

收购前，超低延迟推理市场有三家玩家：

Groq（SRAM + 编译器）
Cerebras（WSE 大晶圆 + 40+ GB SRAM）
SambaNova（RDU 可重构数据流）

收购后：

Groq LPX 归 NVIDIA（最大生态、最强客户）
Cerebras WSE-4（2027）即将 IPO
SambaNova SN50 独立运营

Cerebras 的 IPO 时机变得更加重要——需要在 NVIDIA 整合 Groq 之前抢占市场。

2. Agentic AI 加速爆发

2026 年 Agentic AI 是 LLM 应用的下一个爆发点：

单次 Agent 调用：~500ms-2s
复杂任务：100+ 次连续调用
用户体验：< 200ms 响应

Groq 3 LPX 的 TTFT < 20ms 是 Agentic AI 的关键使能技术。

3. 客户迁移

Groq 原本的客户：

OpenAI：部分推理负载
Anthropic：Claude 推理
Meta：Llama 推理
Mistral：推理

这些客户继续使用 LPX，但合同关系从 Groq Inc. 变为 NVIDIA Corp.。

LPX 的局限

Groq 3 LPX 并非万能：

局限	影响
单芯片 SRAM 仅 512 MB	大模型需 32+ 颗芯片
不支持训练	只能推理
软件生态不如 CUDA	模型迁移成本
机柜级 $8-10M 价格	中小客户难以承担
不支持 fine-tuning	推理优化空间有限

因此，LPX 不是替代 GPU，而是补充 GPU：

中小模型、低成本：GPU (L4 / T4)
大模型训练：GPU (H100 / B300)
大模型推理：GPU (H200 / B300)
超低延迟大模型推理：LPX

详细产品页

总结

NVIDIA 收购 Groq 是 2026 年 AI 芯片行业最重大的事件之一：

补全 NVIDIA 算力版图——从"训练+推理"扩展到"训练+推理+超低延迟推理"
Groq 团队 + 客户全部并入 NVIDIA
GroqCloud API 继续运营（OpenAI 兼容）
Vera Rubin 平台成为全场景 AI 算力终极平台
AI 行业进入"机柜级"时代：GPU 机柜 + LPU 机柜协同

NVIDIA = GPU + LPU + 互联 + 软件 = 完整 AI 算力生态

AWS Trainium 3 GA：3nm 工艺 + 4.4× 算力 + 4× 能效 + 144 芯片 UltraServer

2025-12-02T00:00:00.000Z

2025 年 12 月 2 日，AWS 在 re:Invent 2025 大会上正式 GA 第三代自研 AI 训练芯片 Trainium 3。这是 AWS 算力版图的关键升级：3nm 工艺、4.4× 算力提升、4× 能效提升、Trn3 UltraServer 144 颗芯片。本文详细解析。

核心规格

项目	Trainium 2 (2024)	Trainium 3 (2025-12 GA)	提升
工艺	TSMC 4nm	TSMC 3nm	+一代
NeuronCore	8 颗 v3	8 颗 v4	架构升级
HBM 容量	96 GB	144 GB	1.5×
HBM 带宽	2.9 TB/s	~4.5 TB/s	~1.55×
FP8 算力（密集）	1,299 TFLOPS	5,716 TFLOPS（官方 4.4×）	4.4×
BF16/FP16	667 TFLOPS	1,300 TFLOPS	2×
每芯片能效	1×	4×	4×
内存带宽	1×	4×	4×
NeuronLink	NeuronLink-v3	NeuronLink-v4	新一代
TDP	~700 W	~700 W	持平
发布时间	2024-12	2025-12	—

官方 4.4× 算力提升 + 4× 能效 + 4× 内存带宽——Trainium 3 是 AWS 在三个维度同时大幅升级的旗舰芯片。

Trn3 UltraServer（机柜级）

项目	配置
芯片数	144 颗 Trainium 3
HBM 总量	~20.7 TB（144GB × 144）
NeuronLink-v4	全互联，>10 TB/s 双向
FP8 算力（机柜）	52 PFLOPS（dense）
BF16 算力（机柜）	~187 PFLOPS
TDP（机柜）	~100 kW
适用模型	400B+ 参数 LLM 训练

Trn3 UltraServer = 单机柜可训练 400B 模型。一个 EC2 UltraCluster（>10 机柜）可支持1.4T+ 参数的巨型模型训练。

Trn3 vs Trn2 UltraServer 升级

指标	Trn2 UltraServer	Trn3 UltraServer	提升
芯片数	64	144	2.25×
互联	NeuronLink-v3	NeuronLink-v4	新一代
HBM 总量	6.1 TB	~20.7 TB	3.4×
FP8 算力	~83 TFLOPS	52 PFLOPS	~626×
训练能力	70B+ LLM	400B+ LLM	—
发布时间	2024-12	2025-12	—

Trn3 UltraServer 是 2026 年性价比最高的大规模训练方案之一。

AWS Neuron SDK 3

Neuron SDK 3.x：PyTorch 2.4+ / JAX 0.4+ / TensorFlow 2.16+ 全优化
Neuron Compiler 2.x：自动编译 + 图优化
NeuronX Distributed：大规模分布式训练库（与 PyTorch FSDP 集成）
NeuronX Nemo：LLM 微调框架（Megatron-LM 等价）
vLLM 0.7+ 优化版：低延迟推理

AWS Neuron = 类似 ROCm 的开源生态，全部 SDK 在 GitHub 开源（aws-neuron）。

EC2 实例类型

实例	GPU	配置	用途
trn3.48xlarge	1 颗 Trn3	144GB HBM	单芯片开发
trn3.96xlarge	2 颗 Trn3	288GB HBM	小规模训练
trn3 UltraServer	144 颗 Trn3	20.7 TB HBM	超大规模训练

价格与每美元性能

实例	每小时价格（on-demand，推测）
trn3.48xlarge	~$32
Trainium 2 同等实例	~$16
价格提升	2×
每美元 FP8 算力提升	2.2×（按 4.4× 算力 / 2× 价格）

AWS 强调：Trainium 3 在每美元 FP8 算力上显著优于 NVIDIA H100 / H200（2-3×）。

与 NVIDIA 同期产品对比

指标	Trainium 3	NVIDIA H200	NVIDIA B200
工艺	TSMC 3nm	TSMC 4N	TSMC 4NP
HBM 容量	144 GB	141 GB	192 GB
HBM 带宽	4.5 TB/s	4.8 TB/s	8 TB/s
FP8 算力 (dense)	5.7 PFLOPS	1.0 PFLOPS	4.5 PFLOPS
FP16 算力	1.3 PFLOPS	1.0 PFLOPS	2.25 PFLOPS
TDP	700 W	700 W	1,000 W
互联	NeuronLink-v4	NVLink 4	NVLink 5
提供方式	AWS Cloud only	商用	商用
软件	Neuron SDK 3	CUDA	CUDA
每美元性能	2-3× 优势	1×	1.5×

适用场景

✅ 超大规模 LLM 训练（400B-1.4T 模型，UltraServer）
✅ AWS Bedrock 模型预训练（Anthropic Claude、Meta Llama、Mistral）
✅ 成本敏感型训练（价格低于 NVIDIA 30-50%）
✅ 能源效率敏感（每瓦性能 4× 提升）
❌ 非 AWS 部署（Trainium 仅在 EC2 出售）
❌ 旧 NVIDIA 生态绑定（CUDA-only 代码迁移成本高）

AWS 客户案例

AWS 在 re:Invent 2025 上公布的关键客户：

客户	应用
Anthropic	Claude 训练（已使用 Trn2，现迁移到 Trn3）
Meta	Llama 4 训练
Mistral	Mistral Large 3 训练
HuggingFace	Open LLM 训练
AWS Bedrock	内部托管模型训练

详细产品页

总结

AWS Trainium 3 是 2025 年 AI 芯片行业的关键发布之一：

3nm 工艺 + 4.4× 算力 + 4× 能效——AWS 算力版图全面升级
Trn3 UltraServer 144 颗——单机柜训练 400B+ 模型
每美元 FP8 算力 2-3× NVIDIA——AWS 训练成本优势
Neuron SDK 3 全面开源——降低软件迁移成本
Anthropic、Meta、Mistral 全面采用——AWS 算力生态扩展

2026 年，Trainium 3 将成为AWS 内部核心训练负载的算力基础。

Huawei Ascend 920：4 Tbps 国产最高带宽 + 3× H20 算力的国产替代

2025-11-15T00:00:00.000Z

Huawei Ascend 920（昇腾 920） 于 2025 H2 大规模量产，是中国国产 AI 芯片的重大突破。本文将分析其规格、与 NVIDIA H20 的对比、CloudMatrix 384 Ultra 系统，以及对中国 AI 产业的意义。

核心规格

项目	Ascend 910C	Ascend 920	提升
架构	Da Vinci v3	Da Vinci v4	新一代
制程	7nm	6nm（SMIC 国产）	更先进
小芯片数	2×（双 die）	2×	同
HBM 容量	~128 GB	~96 GB	略降
HBM 带宽	3.2 Tbps	4 Tbps	1.25×
BF16 算力	780 TFLOPS	900+ TFLOPS	1.15×
FP16 算力	1,560 TFLOPS	1,800 TFLOPS	1.15×
INT8 算力	3,120 TOPS	3,600 TOPS	1.15×
TDP	~310 W	~400 W	+29%
发布时间	2025-04	2025 H2	—

4 Tbps 带宽 = 国产最高 HBM 带宽，比 Ascend 910C 提升 25%。900+ BF16 TFLOPS 算力也超过 910C。

Ascend 920 vs NVIDIA H20（对标）

NVIDIA H20 是 NVIDIA 在美国出口管制下专门为中国市场设计的"合规"AI 芯片：

指标	Ascend 920	NVIDIA H20
定位	国产替代	中国合规 AI 芯片
制程	6nm（SMIC）	TSMC 4N（受限后部分国产）
显存	~96 GB	96 GB HBM3
显存带宽	4 Tbps	4.0 Tbps
BF16 算力	900 TFLOPS	296 TFLOPS
BF16 算力比	3×	1×（基准）
互联	HCCS 1.2 Tbps	NVLink 900 GB/s
软件	CANN + MindSpore	CUDA（受限）
进口合规	✅ 国产	⚠️ 美国出口管制

💡 Ascend 920 在 BF16 算力上显著领先 H20（3 倍），且 4 Tbps 带宽与 H20 持平。这是国产替代的关键胜利。

CloudMatrix 384 Ultra 系统

Ascend 920 将被用于 CloudMatrix 384 Ultra 超节点系统：

项目	配置
芯片数	384 颗 Ascend 920
机柜数	16（12 计算 + 4 网络）
HBM 总量	~36 TB（96GB × 384）
互联	全光网状，8,000+ LPO 光模块
BF16 算力（系统）	~345 PFLOPS（推测 900 × 384）
TDP（系统）	~150 kW

CloudMatrix 384 Ultra 系统级 BF16 算力 ~345 PFLOPS ≈ NVIDIA GB200 NVL72 集群（~144 PF FP8 dense）的 2.4 倍。

为什么 920 是国产替代关键胜利？

1. 算力首次超越 H20

时期	国产	NVIDIA 中国版	倍数
2023	910B = 320 TFLOPS	H20 = 296 TFLOPS	1.08×
2024	910B = 320 TFLOPS	H20 = 296 TFLOPS	1.08×
2025 H1	910C = 780 TFLOPS	H20 = 296 TFLOPS	2.6×
2025 H2	920 = 900 TFLOPS	H20 = 296 TFLOPS	3.0×

2025 H2 起，国产 AI 芯片算力首次稳定超越 H20 三倍。

2. 6nm SMIC 国产工艺

Ascend 920 采用 SMIC N+1 / N+2 6nm 工艺：

✅ 完全自主可控
✅ 不受美国出口管制
⚠️ 良率和成本仍逊于 TSMC 4N

3. 4 Tbps 国产最高 HBM

Ascend 920 的 4 Tbps HBM 带宽：

国内首次达到 4 Tbps 级（之前最高 3.2 Tbps）
与 H20 持平
推测使用 CXMT 长鑫存储 HBM3 或自研 HBM

4. CANN + MindSpore 软件栈

CANN 8.x（Compute Architecture for Neural Networks）：类比 CUDA
MindSpore 2.4+：Huawei 自研 AI 框架
PyTorch 2.3+ MindSpore 后端：兼容 PyTorch
vLLM 0.7+ Ascend 后端：低延迟推理
ONNX-Runtime Ascend 后端：跨框架推理
Atlas 900/950 系列服务器：OEM 整机

中国市场部署现状

已规模化客户

客户	应用
中国移动	大模型训练（9 9.8 亿客户）
中国电信	智能客服 + 业务洞察
中国联通	政务 + 行业 AI
国家电网	电网调度 + 故障预测
中国石油	勘探 + 物流优化
各大银行	风控 + 反欺诈
互联网公司（百度、阿里、腾讯）	LLM 推理

行业布局

政府：100% 国产化要求
金融：政策性要求国产
电信：HBM 国产化进度快
能源：HBM 国产化进度快
互联网：部分敏感业务国产化
教育 / 医疗：渐进国产化

局限与挑战

局限	影响
FP8/FP4 支持	Ascend 920 仍以 BF16/FP16 为主，FP8 优化中
HBM 容量	96 GB 低于 NVIDIA Rubin R200 288 GB / AMD MI400 432 GB
CUDA 兼容性	CANN 8 仍需迁移，CUDA 应用直接运行受限
SMIC 6nm 良率	比 TSMC 4N 良率低 10-20%
HBM 来源	CXMT 长鑫 HBM 产能有限
互联带宽	HCCS 1.2 Tbps 远低于 NVLink 6 (3.5 TB/s)

与同期国产芯片对比

厂商	芯片	BF16 算力	HBM 带宽	量产时间
Huawei	Ascend 920	900 TFLOPS	4 Tbps	2025 H2
Huawei	Ascend 910C	780 TFLOPS	3.2 Tbps	2025-04
Cambricon	思元 590	~480 TFLOPS	2.4 Tbps	2024
Moore Threads	MTT S5000	~250 TFLOPS	1.6 Tbps	2024
Biren	BR104	~300 TFLOPS	1.6 Tbps	2024
Iluvatar	CoreX Bi-150	~200 TFLOPS	1.2 Tbps	2024

Huawei Ascend 920 在国产 AI 芯片中保持明显领先。

详细产品页

总结

Huawei Ascend 920 是 2025 H2 中国 AI 芯片的关键胜利：

900+ BF16 TFLOPS = 3× H20——首次稳定超越 H20 三倍
6nm SMIC 国产——自主可控
4 Tbps 国产最高 HBM 带宽——HBM 国产化突破
CloudMatrix 384 Ultra 系统——单系统超越 GB200 NVL72
CANN + MindSpore——软件生态完善

2025 H2 起，中国 AI 产业进入**"国产芯片可独立支撑大规模 AI 应用"**的新阶段。

国产 AI 芯片格局 2025：昇腾、寒武纪、海光谁主沉浮？

2025-06-03T00:00:00.000Z

美国的出口管制持续升级，倒逼中国 AI 芯片产业加速自主化。2025 年的国产 AI 芯片市场已经不再是"能不能用"的讨论，而是"怎么选"的问题。

本文系统梳理国产 AI 芯片的主要玩家、核心产品、实际部署情况，帮助开发者和采购决策者看清竞争格局。

第一梯队：华为昇腾

产品：昇腾 910B（训练）、昇腾 310P/310（推理）

架构：达芬奇（Da Vinci）— 3D Cube 矩阵计算单元

核心数据：

指标	昇腾 910B	昇腾 310P	昇腾 310
FP16 算力	400 TFLOPS	—	—
INT8 算力	640 TOPS	70 TOPS	22 TOPS
显存	64GB HBM2e	24GB LPDDR4X	8GB LPDDR4
TDP	310W	75W	8W
制程	7nm	12nm	12nm

生态现状：

CANN 软件栈：对标 CUDA，从驱动到编译器的完整软件栈
torch_npu：PyTorch 的昇腾后端，API 与 CUDA 高度一致
MindSpore：华为自研框架，但市场接受度有限
大模型适配：Llama、Qwen 等主流模型均已适配

实际部署：根据公开数据，昇腾 910B 已部署 6,000+ 芯片在华为盘古大模型集群中。

综合评价：国产 AI 芯片的绝对龙头。软件生态最完善，政企市场占有率最高。训练性能接近 H100 的 60-70%，推理性价比有竞争力。

第二梯队：寒武纪 & 海光

寒武纪思元 MLU

产品：思元 590、思元 370

定位：AI 训练 + 推理

关键信息：

思元 590 算力对标 A100（FP32 ~30 TFLOPS，INT8 ~300 TOPS）
自研 MLUarch 架构 + BangC 编程语言
已有 PyTorch/TensorFlow 适配
主要部署在智慧城市、安防、科研等领域

现状：寒武纪曾是最受关注的 AI 芯片独角兽，但近年面临商业化困难和持续亏损。产品迭代速度慢于昇腾，市场份额被挤压。

海光信息深算 DCU

产品：深算 Z100

架构特点：兼容 CUDA（基于 AMD ROCm 路线）

关键信息：

深算一号 FP32 算力 ~15 TFLOPS
最大的卖点：兼容 CUDA API，迁移成本低
主要部署在超算中心、金融机构等信创场景
制程受制于代工限制

现状：海光的兼容路线在短期内降低了软件迁移成本，但长期受制于 AMD 生态发展。

第三梯队：创业公司与跨界玩家

燧原科技云燧 T21

面向云端 AI 训练
自研 GCU 架构 + 驭算软件栈
已有 PyTorch 适配
获得多家运营商和政府项目订单

壁仞科技 BR100/BR20X

BR100 号称 FP16 算力 1000+ TFLOPS（理论峰值）
但实际落地进度慢于宣传
2024 年后转向更务实的产品路线

摩尔线程 MTT S5000

全功能 GPU（图形 + 计算 + AI）
MUSA 架构兼容 CUDA API
驱动和软件栈成熟度在提升，但距离生产级 AI 训练仍有差距
更适合推理和小规模训练

百度昆仑芯 P800

百度自研 AI 芯片
部署在百度搜索、智能云、自动驾驶等内部场景
公开技术细节有限，但内部大规模验证通过

国产 AI 芯片横向对比

芯片	FP16 算力 (TFLOPS)	显存 (GB)	CUDA 兼容	训练能力	部署规模
昇腾 910B	400	64 HBM2e	❌ CANN	✅ 强	6,000+
寒武纪 590	~300	—	❌ BangC	⚠️	千级
海光 DCU Z100	~30 (FP32)	—	⚠️ ROCm 路线	⚠️	千级
燧原 T21	~200	32 HBM2e	❌ 自研	✅	百级
壁仞 BR100	~1000 (声称)	—	⚠️	⚠️	有限
百度昆仑芯 P800	—	—	❌ 自研	⚠️	内部
摩尔线程 MTT S5000	~100	32 GDDR6	⚠️ MUSA	❌ 推理为主	—

软件生态对比（关键决策因素）

芯片	PyTorch	vLLM 推理	Hugging Face	CUDA 代码移植成本
昇腾 910B	⚠️ torch_npu	⚠️ 社区	⚠️ 部分	中（需改 device 名 + 算子适配）
海光 DCU	⚠️ ROCm 后端	⚠️	⚠️	低（兼容 CUDA API）
寒武纪 590	⚠️	❌	❌	高（BangC 语言）
燧原 T21	⚠️	❌	❌	高
摩尔线程 MTT	⚠️	❌	❌	中（MUSA 兼容 CUDA）

选型建议

政企 / 信创项目

首选昇腾 910B。原因：

软件生态最完善，社区支持最强
昇腾 + 麒麟/UOS 的组合是信创标配
CANN 工具链成熟度领先其他国产方案 2-3 年
华为技术支持和文档最全面

CUDA 存量代码迁移

如果不想重写大量代码：

海光 DCU（ROCm 兼容路线）迁移成本最低
摩尔线程 MTT（MUSA 兼容路线）适合推理场景
昇腾的 torch_npu 迁移成本居中，但长期生态回报最高

纯推理场景

昇腾 310P：性价比最高的国产推理卡
摩尔线程 MTT S5000：如果需求是国产化全功能 GPU
寒武纪 370：特定场景（视觉、安防）有存量优势

2025-2026 展望

昇腾 920 即将到来：下一代昇腾将采用更先进制程，目标 FP8 算力对标 H200
EDA 工具国产化：芯片设计工具的国产替代将帮助更多创业公司加速迭代
CUDA 兼容成为标配：所有国产芯片都将至少提供 CUDA API 兼容层
推理市场加速分食：国产芯片在推理场景将率先达到可替代 NVIDIA 的水平
规模化部署验证：更多"万卡集群"国产方案将在运营商和金融行业落地

关键判断：国产 AI 芯片在 2025-2026 年将从"能用"跨入"好用"阶段。训练性能差距仍在（落后 1-2 代），但推理场景已经具备替换条件。

在 MirrorFrog 你可以找到以上所有国产芯片的驱动下载、开发文档和详细规格参数。

GPU vs NPU vs TPU：三种 AI 加速架构深度对比，你应该用哪种？

2025-06-02T00:00:00.000Z

AI 加速芯片领域有三大主流架构：GPU、NPU 和 TPU。再加上近年出现的 LPU（语言处理器），很多开发者搞不清它们之间的区别。

本文从架构设计理念、生态成熟度、实际性能表现、部署成本四个维度进行对比。

架构设计理念

GPU：通用 AI 计算平台

GPU 最初为图形渲染设计，但因其大规模并行计算能力，被 NVIDIA 改造为通用 AI 加速器。

核心设计：大量 CUDA Core + Tensor Core（专用矩阵运算单元），兼顾 AI 计算和通用并行计算。

代表产品：NVIDIA H100、B200、AMD MI300X

优势：通用性最强，从训练到推理、从 LLM 到 diffusion 模型、从科学计算到图形渲染，一块卡全搞定。

劣势：针对特定模型架构的优化不如专用芯片极致。

NPU：端侧 AI 推理专家

NPU 专为神经网络推理设计，强调低功耗、低成本、高能效比。

核心设计：脉动阵列（Systolic Array）或乘加树（MAC Tree），针对卷积和矩阵乘法高度优化。

代表产品：华为昇腾 910B、Qualcomm Hexagon、Apple Neural Engine、AMD Ryzen AI NPU

优势：能效比极高——同样功耗下推理性能远优于 GPU；适合移动端、边缘端、嵌入式场景。

劣势：灵活性差（主要服务于推理），训练能力有限或完全不具备；软件生态高度依赖厂商。

TPU：Google 生态的定制加速器

TPU 是 Google 专为其 TensorFlow/JAX 框架设计的 ASIC。

核心设计：大规模脉动阵列（Systolic Array），针对矩阵乘法极致优化；片内 HBM 带宽极高。

代表产品：Google Cloud TPU v5e、v5p

优势：Google Cloud 上训练 JAX/TensorFlow 模型的性价比极高；TPU v5p 集群互联性能出色。

劣势：仅限 Google Cloud 使用；PyTorch 适配不完善；不出售硬件，只能租用。

性能实测对比

LLM 推理（Llama 2 70B）

芯片	Tokens/s	功耗(W)	能效(tok/s/W)
NVIDIA H100 SXM5	~120 (FP16)	700	0.17
NVIDIA L40S	~40 (FP16)	300	0.13
华为昇腾 910B	~80 (FP16)	310	0.26
Groq LPU v1	~330 (FP16)	300	1.10
Google TPU v5e	~90 (BF16)	—	—

Groq LPU 在 LLM 推理延迟上有绝对优势，但这是因为它放弃了灵活性——只能做 Transformer 推理。

训练（GPT-3 175B 等效）

芯片配置	训练时间	成本估计
8× H100 SXM5	~1.1 天	~$25,000/天
8× 昇腾 910B	~1.5 天 (官方)	需询价
8× TPU v5p	~1.0 天	需租赁
8× AMD MI300X	~1.3 天	~$15,000/天

生态成熟度对比

维度	GPU (NVIDIA)	NPU (昇腾)	TPU (Google)
PyTorch 支持	✅ 原生	⚠️ torch_npu	❌ 需 JAX
TensorFlow 支持	✅ 原生	⚠️ 适配中	✅ 原生
vLLM 推理	✅ 最佳	⚠️ 社区版	❌
Hugging Face	✅ 原生	⚠️ 部分	❌
Docker 容器化	✅ NGC 容器	⚠️ 昇腾容器	❌
社区/文档	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
第三方工具	极丰富	有限	限于 GCP

结论：NVIDIA GPU 的软件生态护城河极深，这不是硬件性能能简单跨越的。

成本对比（以 1 年 TCO 估算）

方案	硬件/租赁成本	运维成本	开发迁移成本	总评
4× H100 SXM5 自建	~$140,000	高	低	最稳妥
4× 昇腾 910B 自建	~$80,000-120,000	中	中-高	国产合规首选
TPU v5p 云上	按量付费	低	高（需迁移到 JAX）	GCP 生态限定
8× L40S 自建	~$60,000	中	低	性价比均衡

什么时候选什么？

✅ 选 GPU（NVIDIA）

除非你有非常特殊的理由，否则默认选 GPU。理由很简单：生态。

你在用 PyTorch/TensorFlow/JAX（全部原生支持 CUDA）
你需要同时做训练和推理
你希望社区文档齐全，遇到问题能搜到答案
你需要灵活的部署方案（本地/云/边缘）

✅ 选 NPU（昇腾/端侧 NPU）

你是中国政企客户：国产化要求，昇腾 910B 是最成熟的国产训练方案
你在做端侧 AI：手机 NPU（Apple/Qualcomm）或 PC NPU（AMD Ryzen AI）是能效最优解
你需要超低功耗推理：独立 NPU（Hailo-8L）在边缘场景比 GPU 省电 5-10 倍

✅ 选 TPU（Google Cloud）

你已经是 Google Cloud 深度用户
你的模型用 JAX 开发（或者愿意迁到 JAX）
你需要大规模 TPU 集群（TPU v5p 的集群互联性能优势明显）
你不介意被锁定在 GCP

未来趋势

异构计算成为常态：高端 AI 集群将同时包含 GPU + NPU + CPU 协同工作
架构收敛：NVIDIA 在 GPU 中加入越来越多的专用 AI 单元（Transformer Engine），NPU 则在增加通用计算能力
软件生态决定成败：未来 3 年，AMD 和华为能否挑战 NVIDIA 的关键不在硬件算力，而在 CUDA 兼容性和开发者体验
推理专用芯片崛起：Groq LPU、Cerebras WSE、Etched Sohu 等 AI 专用架构正在改写推理的性能/成本曲线

在 MirrorFrog 你可以找到以上所有芯片的驱动下载、开发文档和详细规格。

AI 加速卡选型指南 2025：从训练到推理，如何选择最适合的芯片？

2025-06-01T00:00:00.000Z

AI 加速卡市场在 2025 年已经变得前所未有的丰富。从 NVIDIA 的 Blackwell 到华为的昇腾 910B，从 Google 的 TPU v6 到 Groq 的 LPU，开发者面对的选择比以往任何时候都多。

但这既是好事，也是难题——选错了卡，要么多花冤枉钱，要么性能不达标。

本文从实际工作负载出发，帮你梳理选型逻辑。

第一步：先搞清楚你的场景

🏋️ 训练（Training）

训练是芯片选型中最苛刻的场景。你需要的是：

高 FP8/FP16 算力：训练的核心是矩阵乘法，Tensor Core 数量决定一切
大显存：模型参数、梯度、优化器状态都要驻留显存。Llama 3 70B 全精度训练至少需要 140GB+ 显存
高带宽互联：多卡训练时，卡间通信带宽决定了 scaling efficiency
软件生态：PyTorch/TensorFlow/JAX 是否原生支持

首选：NVIDIA H100/H200/B200（生态最成熟，没有之一）

国产替代：华为昇腾 910B（torch_npu 适配良好，但生态差距仍在）

预算敏感：AMD ROCm（MI300X 性价比突出，但框架支持略逊）

⚡ 推理（Inference）

推理又分两个子场景：

在线推理（延迟敏感）

要求首 token 延迟（TTFT）极低、吞吐稳定。适合：

NVIDIA L40S / L4：推理优化的 Ada Lovelace 架构，FP8 支持，性价比高
Groq LPU：如果你能用 GroqCloud，LPU 的确定性延迟（800+ tok/s on Llama 3 8B）是杀手锏
Google Cloud TPU v5e：Cloud 上部署 JAX 模型的低延迟选择

离线批量推理（吞吐优先）

不在乎单请求延迟，只看总吞吐量和成本：

NVIDIA H200：大显存（141GB HBM3e）意味着可以塞进更大的 batch，提升整体吞吐
Intel Gaudi 3：性价比优于同代 NVIDIA，适合预算敏感的批量场景
Cerebras WSE-3：晶圆级芯片，单芯片即可运行大模型，省去分布式通信开销

📱 端侧推理（Edge）

Qualcomm Hexagon NPU：Android 端 AI 推理首选，支持 INT8 量化
Apple Neural Engine：iPhone/Mac 上的 CoreML 加速
AMD Ryzen AI NPU（XDNA）：Ryzen 7040/8040 系列集成的端侧 NPU，适合 PC AI 应用
Hailo-8L：边缘设备独立 NPU，性价比高

第二步：看预算

🏦 不差钱（企业级训练集群）

配置	预估成本	适合
8× H100 SXM5 (80GB)	$200,000-280,000	大模型训练首选
8× H200 SXM (141GB)	$240,000-320,000	需要更大显存的训练
8× B200 SXM	$240,000-360,000	Blackwell 最新架构
GB200 NVL (2 GPU + Grace)	$60,000-80,000/套	超级芯片方案

💰 性价比优先（训练+推理）

配置	预估成本	适合
4× L40S (48GB)	$30,000-40,000	中小规模训练+推理
8× L4 (24GB)	$24,000-36,000	轻量训练，推理为主
8× A100 80GB (二手)	$80,000-120,000	成熟方案，二手市场充足
AMD MI300X × 8	~$100,000-150,000	如果软件栈适配到位

🆓 免费/低成本（学习+实验）

方案	成本	适合
GroqCloud API	免费额度	LLM 推理实验
Google Colab (T4)	$10/月起	小规模实验
Hugging Face Spaces	免费	Demo 部署
Oracle OCI (A100)	按需付费	灵活的实验环境

第三步：生态兼容性

硬件再好，软件不支持也是白搭。以下矩阵揭示了当前主流框架和芯片的适配情况：

PyTorch 生态

芯片	支持状态	备注
NVIDIA CUDA	✅ 原生支持	PyTorch 官方发行版默认 CUDA 后端
AMD ROCm	✅ 官方支持	PyTorch 有 ROCm 预编译包
华为昇腾	⚠️ torch_npu	API 对齐 CUDA，迁移成本低，但社区资源不如 CUDA
Apple Silicon	✅ MPS 后端	M1/M2/M3/M4 系列 GPU，PyTorch MPS 后端支持
Intel GPU	⚠️ XPU 后端	oneAPI 支持 PyTorch，但成熟度有限
Google TPU	⚠️ 需要 JAX	PyTorch 可以通过 PJRT 跑 TPU，但非主流

LLM 推理框架

芯片	vLLM	TensorRT-LLM	llama.cpp
NVIDIA	✅ 最佳	✅ 最强优化	✅
AMD ROCm	✅	❌	✅
华为昇腾	⚠️ 社区版	❌	⚠️
Apple Silicon	❌	❌	✅ 原生
Intel GPU	❌	❌	✅

按模型规模的推荐矩阵

模型规模	训练推荐	推理推荐
< 7B（小模型）	L4 / L40S / A100	L4 / L40S / T4 / Groq LPU
7B - 70B（中型）	4-8× H100 / A100 / 昇腾 910B	H200 / L40S / Groq LPU
70B - 405B（大型）	8-32× H100/B200 / 昇腾 910B	H200 (141GB) / Cerebras WSE
> 405B（超大型）	GB200 NVL / DGX 超级集群	H200/B200 大容量集群

总结：一张图看懂选型逻辑

你的场景是什么？
├─ 训练大模型 → NVIDIA CUDA（生态最佳）→ 预算够？H100/B200；国产替代？昇腾 910B
├─ 训练中等模型 → A100 / L40S / AMD MI300X 均可
├─ 在线推理（低延迟）
│  ├─ 自建 → L40S / L4 / H200
│  └─ API → GroqCloud（LLM 推理延迟王者）
├─ 批量推理（高吞吐）
│  ├─ NVIDIA H200（大显存高吞吐）
│  └─ Intel Gaudi 3 / Cerebras（性价比路线）
├─ 端侧推理
│  ├─ 手机 → Qualcomm / Apple NPU
│  ├─ PC → AMD Ryzen AI NPU
│  └─ 边缘设备 → Hailo-8L / NVIDIA Jetson
└─ 学习实验 → 云上 T4 / L4 / GroqCloud 免费额度

本站收录了以上提及的绝大部分芯片的驱动下载和开发文档链接，欢迎按分类浏览。

MirrorFrog 更新：新增博客与术语表，内容大幅扩充

2025-06-01T00:00:00.000Z

本次更新内容：

📝 更新日志（博客）

新增博客板块，今后所有站点更新都会在这里发布。订阅 RSS 可以第一时间获取更新通知。

📖 参考专区

新增术语表页面，涵盖 TFLOPS、TOPS、HBM、NVLink、Tensor Core、Transformer Engine 等 50+ 常用术语的解释，帮助新手快速上手。

📚 新增深度文章

在同一台设备上写出高质量内容后，我们特别为 AI 开发者推出了三篇深度专题文章：

AI 加速卡选型指南 2025 — 从训练、推理、端侧部署等场景出发，帮你找到最适合的加速卡
GPU vs NPU vs TPU：三种架构怎么选 — 架构原理、性能实测、生态成熟度、TCO 全方位对比
国产 AI 芯片格局 2025 — 昇腾、寒武纪、海光等国产芯片全面盘点

🔧 技术优化

启用博客 RSS Feed，搜索引擎发现速度提升
添加强化 Sitemap 配置
丰富所有分类索引页的描述内容
准备英文版基础配置

欢迎通过 GitHub 提交反馈！

MirrorFrog 站点上线 — AI 加速芯片驱动与文档导航

2025-06-01T00:00:00.000Z

MirrorFrog 正式上线！这是一个开源的 AI 加速芯片驱动与文档导航站。

目前收录内容包括：

GPU：13 款，涵盖 NVIDIA CUDA、AMD ROCm、Intel GPU、Apple Silicon、摩尔线程、壁仞等
NPU：9 款，涵盖华为昇腾、AMD Ryzen AI、Qualcomm Hexagon、Apple Neural Engine 等
TPU：2 款（Google Cloud TPU、Coral Edge TPU）
LPU：1 款（Groq LPU）
IPU：1 款（Graphcore IPU）
DPU：3 款（NVIDIA BlueField、Intel IPU、AMD Pensando）
FPGA：3 款（AMD Alveo、Intel FPGA AI、Achronix Speedster）
ASIC：16 款，涵盖 Intel Gaudi、Cerebras WSE、寒武纪、海光、燧原等

后续计划：

持续新增 AI 加速芯片
补充规格参数与性能基准数据
增加芯片横向对比功能
开放英文版

欢迎通过 GitHub 提交新芯片或报告问题。

MirrorFrog AI 计算卡行业动态

2026 H2 顶级 AI 芯片选型指南：从 H100 到 Rubin、MI400、TPU 8t、TPU 8i

选型决策树​

训练选型​

100B+ LLM 训练​

70B LLM 训练​

7B-13B LLM 训练​

1B-3B LLM 训练​

推理选型​

70B+ LLM 推理（单卡）​

7B-30B LLM 推理​

超低延迟推理（Agentic AI）​

模型规模速查​

预算速查​

地区速查​

中国市场（必须国产）​

北美 / 欧洲（自由选择）​

AWS Cloud（仅 AWS 生态）​

Google Cloud（仅 Google 生态）​

延迟要求速查​

2026 H2 选型速查表​

详细产品页索引​

训练 GPU​

训练 ASIC​

推理 GPU​

推理 ASIC​

晶圆级​

其他​

总结​

AI 集群的电力危机：1MW 机柜、核电站、SMR 与绿色 AI

电力需求：指数级增长​

单机柜功耗演进​

全球 AI 数据中心电力需求（IEA 预测）​

主要 AI 公司电力消耗​

三大电力危机​

危机 1：数据中心电力供应不足​

美国情况​

中国情况​

欧洲情况​

危机 2：电力成本飙升​

危机 3：碳排放与 ESG 压力​

应对方案：核能复兴​

1. 核电重启​

美国 TVA + Microsoft 合作​

Amazon + Talen Energy 合作​

Google + Kairos Power（小型模块化反应堆 SMR）​

2. 小型模块化反应堆（SMR）​

主要 SMR 供应商​

3. 其他清洁能源​

太阳能 + 储能​

地热​

风电​

4. 自然冷却 + 液冷​

主要 AI 数据中心案例​

1. xAI Colossus（Memphis, Tennessee）​

2. Microsoft + OpenAI Stargate​

3. Amazon Project Rainier​

4. Meta Hyperion（Louisiana）​

5. Google 数据中心扩张​

6. Huawei CloudMatrix 384 Ultra​

绿色 AI 战略​

1. 能效优化​

2. 可再生能源承诺​

3. 碳捕获与封存​

未来展望​

短期（2026-2027）​

中期（2027-2030）​

长期（2030+）​

详细产品页​

总结​

AI 芯片创业公司生存报告：Tenstorrent / SambaNova / Graphcore 的 2026

2026 年 AI 芯片市场格局​

头部：双寡头 + 5 个挑战者​

创业公司​

十大创业公司详解​

1. Tenstorrent：RISC-V 黑马​

Tenstorrent 关键产品​

Tenstorrent 关键优势​

Tenstorrent 关键挑战​

2. SambaNova：企业 RDU 一体机​

选型决策树

训练选型

100B+ LLM 训练

70B LLM 训练

7B-13B LLM 训练

1B-3B LLM 训练

推理选型

70B+ LLM 推理（单卡）

7B-30B LLM 推理

超低延迟推理（Agentic AI）

模型规模速查

预算速查

地区速查

中国市场（必须国产）

北美 / 欧洲（自由选择）

AWS Cloud（仅 AWS 生态）

Google Cloud（仅 Google 生态）

延迟要求速查

2026 H2 选型速查表

详细产品页索引

训练 GPU

训练 ASIC

推理 GPU

推理 ASIC

晶圆级

其他

总结

电力需求：指数级增长

单机柜功耗演进

全球 AI 数据中心电力需求（IEA 预测）

主要 AI 公司电力消耗

三大电力危机

危机 1：数据中心电力供应不足

美国情况

中国情况

欧洲情况

危机 2：电力成本飙升

危机 3：碳排放与 ESG 压力

应对方案：核能复兴

1. 核电重启

美国 TVA + Microsoft 合作

Amazon + Talen Energy 合作

Google + Kairos Power（小型模块化反应堆 SMR）

2. 小型模块化反应堆（SMR）

主要 SMR 供应商

3. 其他清洁能源

太阳能 + 储能

地热

风电

4. 自然冷却 + 液冷

主要 AI 数据中心案例

1. xAI Colossus（Memphis, Tennessee）

2. Microsoft + OpenAI Stargate

3. Amazon Project Rainier

4. Meta Hyperion（Louisiana）

5. Google 数据中心扩张

6. Huawei CloudMatrix 384 Ultra

绿色 AI 战略

1. 能效优化

2. 可再生能源承诺

3. 碳捕获与封存

未来展望

短期（2026-2027）

中期（2027-2030）

长期（2030+）

详细产品页

总结

2026 年 AI 芯片市场格局

头部：双寡头 + 5 个挑战者

创业公司

十大创业公司详解

1. Tenstorrent：RISC-V 黑马

Tenstorrent 关键产品

Tenstorrent 关键优势

Tenstorrent 关键挑战

2. SambaNova：企业 RDU 一体机

SambaNova SN40L 规格

SambaNova 商业模式

SambaNova 关键挑战

3. Graphcore：被软银收购