Skip to main content

Moore Threads 摩尔线程 MTT S5000 (国产 GPU 训练)

产品概述

摩尔线程(Moore Threads) 是中国全功能 GPU 创业公司,2020-10 成立,创始人为原 NVIDIA 中国区高管 张建中MTT S5000 是其第三代数据中心 GPU,7nm 工艺48GB GDDR6FP32 25 TFLOPS / BF16 50 TFLOPS 算力,700 GB/s 内存带宽。配套自研 MUSA(Moore Threads Unified System Architecture) 统一系统架构 + MUSIFY 软件栈。

战略定位:相比华为昇腾专注 AI 训练,摩尔线程走全功能 GPU 路线(图形 + AI + 通用计算),是中国对标 NVIDIA 的国产 GPU 创业公司,与景嘉微、芯原微电子、燧原科技、壁仞科技并列为"国产 GPU 五虎"。

核心规格

项目参数
架构MUSA(第二代,苏堤)
制程TSMC 7nm
GPU 核心4096 个 MUSA Core(自研 ISA)
显存48GB GDDR6
内存带宽700 GB/s
FP3225 TFLOPS
BF16 / FP1650 TFLOPS
INT8100 TOPS
TDP~300 W
PCIePCIe 4.0 ×16
互联MUSA Link(自研,类 NVLink)
板卡形态OAM / PCIe
量产时间2024-Q1
单价(OAM)~$4,000-6,000

与前代 MTT S4000 对比

指标MTT S5000MTT S4000提升
制程7nm12nm新代
核心数40962048
显存48GB GDDR624GB GDDR6
带宽700 GB/s448 GB/s1.56×
FP3225 TFLOPS12 TFLOPS2.08×
BF1650 TFLOPS24 TFLOPS2.08×
互联MUSA Link 800 GB/s400 GB/s
TDP300W250W+20%

MUSA 架构

核心组件

组件说明
MUSA Core自研 SIMT 核心(类 CUDA Core)
Tensor Core自研矩阵单元(类 Tensor Core)
SFUSpecial Function Unit(超越函数)
RT Core硬件光追核心
MUSA Link8 卡全互联,800 GB/s 双向

与 NVIDIA CUDA 差异

维度MUSACUDA
核心架构SIMTSIMT
指令集自研(类 PTX)PTX / SASS
线程模型32 线程 / Warp32 线程 / Warp
软件栈成熟度3-4 年18 年
生态MUSIFY(类 CUDA)cuDNN / cuBLAS / NCCL
开发者基数~10K 开发者4M+ 开发者

软件栈 MUSIFY

层级工具对标 NVIDIA
AI 框架PyTorch-MUSAPyTorch + CUDA
TensorFlow-MUSATensorFlow
MindSporeMindSpore 兼容
编译器MUSA CCnvcc
运行时MUSA RuntimeCUDA Runtime
数学库MUSBlascuBLAS
深度学习库MUDNNcuDNN
通信库MUSA CCNCCL
图形 APIVulkan / OpenGL / DirectX同样

⚠️ 生态限制:MUSIFY 生态仅 3-4 年发展,算子覆盖率约 70-80%(vs CUDA 99%+),复杂 LLM 模型需要大量手工优化或降级到 CPU 回退。

厂商信息

项目内容
公司摩尔线程智能科技(北京)有限责任公司
创始人张建中(原 NVIDIA 中国区总经理)
成立2020-10
融资$500M+(A 轮 2021、B 轮 2022、C 轮 2023)
估值(2025)~¥35B
2025 营收~¥2.2B
总部北京市朝阳区
官网https://www.mthreads.com
状态准备科创板 IPO(2026-2027 预计)
员工~2000 人
主要客户中国移动、浪潮、联想、字节跳动、智谱 AI

产品线

产品线定位代表型号
MTT S 系列数据中心 AI 训练S5000, S4000, S3000
MTT G 系列消费级显卡MTT S80, S70, S50
MTT K 系列工作站专业卡K5000, K4000
MTT E 系列嵌入式 / 边缘E3000

关键特性

  • 全功能 GPU:图形 + AI + 通用计算(GPGPU)+ 光追
  • 国产化率 60%:HBM/显存来自三星/海力士,CPU 国产(兆芯),封装国产
  • 多精度支持:FP32 / FP16 / BF16 / INT8 / INT4
  • 多卡互联:MUSA Link 8 卡,800 GB/s 双向
  • PCIe 4.0:相比 PCIe 5.0 落后一代
  • 缺点:相比 NVIDIA H100 (989 BF16 TFLOPS) 算力 1/20,生态差距大

LLM 训练性能参考

  • LLaMA-2 7B 训练:MTT S5000 8 卡 ≈ H100 1/4 速度(BF16 优化)
  • Stable Diffusion XL:MTT S5000 1 卡 ≈ RTX 4090 50% 速度
  • Qwen 1.5 14B 微调:MTT S5000 4 卡 ≈ A100 60% 速度
  • 推理(70B Q4):MTT S5000 1 卡 ≈ RTX 4090 1.2× 速度(带宽优势)

适用场景

  • ✅ 中国市场 LLM 训练与推理
  • ✅ 国产化替代项目
  • ✅ 政府、国企 AI 项目
  • ✅ 智算中心建设
  • ✅ 边缘 AI(嵌入式 MTT E 系列)
  • ✅ 图形渲染(消费级 MTT G 系列)
  • ❌ 国际市场
  • ❌ 顶级前沿模型训练(生态 + 算力限制)
  • ❌ FP8 训练(仅支持 BF16)

国产 GPU 五虎

公司定位代表产品融资
摩尔线程全功能 GPU + AIMTT S5000$500M+
壁仞科技数据中心 AIBR104$700M+
景嘉微军用 + 民用 GPUJM9上市
芯原微电子IP + 设计服务多个 IP上市
天数智芯 Iluvatar数据中心 AIMR 100/200$400M+

相关卡