Blackwell 架构和昇腾架构：从大模型数据流看 GPU 与 NPU 的收敛

从大模型专用计算的方向看，。但更准确地说：不是 Blackwell 变成了昇腾，而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向：低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。也就是说，未来 AI 芯片的核心竞争，不再只是“GPU 还是 NPU”，而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。

luoganttcc

63人浏览 · 2026-06-04 18:04:33

luoganttcc · 2026-06-04 18:04:33 发布

Blackwell 架构和昇腾架构：从大模型数据流看 GPU 与 NPU 的收敛

核心判断

从大模型专用计算的方向看，NVIDIA Blackwell 架构正在越来越接近昇腾这类 AI DSA / NPU 架构的思想。

但更准确地说：

不是 Blackwell 变成了昇腾，而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向：低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。

也就是说，未来 AI 芯片的核心竞争，不再只是“GPU 还是 NPU”，而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。

1. 从传统 GPU 到 Blackwell：GPU 正在 DSA 化

传统 GPU 的核心思想是通用并行计算：

大量 CUDA cores
SIMT 编程模型
通用 kernel
程序员显式管理线程、访存、同步

这种架构非常通用，既能做图形渲染，也能做科学计算、HPC、AI 训练和推理。

但是到了 Hopper、Blackwell、Rubin 这一代，NVIDIA GPU 内部越来越多模块已经变成面向大模型的专用加速结构：

Tensor Core          → 专门做矩阵乘
TMA                  → 专门搬 tensor tile
WGMMA                → 专门组织大粒度矩阵乘
Transformer Engine   → 专门管理 FP8 / FP4 / NVFP4 低精度
NVLink / NVSwitch    → 专门服务多 GPU AI 通信
DPU / SuperNIC       → 专门处理数据中心数据路径

所以 Blackwell 虽然仍然是 GPU，但它已经不是传统意义上的“纯通用 GPU”。

更准确地说，它是：

通用 GPU 底座
    +
面向 Transformer / MoE 的专用数据流加速器

这就是所谓的 GPU DSA 化。

2. 昇腾从一开始就是 AI DSA / NPU 思路

昇腾架构的设计起点不是图形 GPU，而是 AI workload。

它的典型数据路径可以抽象为：

Global Memory
    ↓ MTE / DataCopy
Local Memory / UB / L0
    ↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元

这个结构的核心思想是：

显式搬运数据
显式管理片上缓存
用 Cube 做矩阵乘
用 Vector 做向量算子
用 Scalar 做控制调度
通过 CANN / Ascend C / 算子库完成编译和执行

所以昇腾本质上更像：

AI workload 专用数据流处理器

它从架构起点上就强调：

矩阵计算
向量计算
数据搬运
片上缓存
算子编译
数据 layout

3. Blackwell 和昇腾的数据流越来越相似

Blackwell 的典型大模型计算路径可以抽象成：

HBM
    ↓ TMA
Shared Memory
    ↓ WGMMA
Tensor Core
    ↓
FP8 / FP4 / NVFP4 MMA

昇腾的典型计算路径可以抽象成：

Global Memory
    ↓ MTE / DataCopy
UB / L0 / Local Memory
    ↓
Cube
    ↓
FP16 / BF16 / INT8 / FP8 等矩阵计算

把细节抽掉后，两者非常相似：

外部大内存
    ↓ 专用数据搬运单元
片上缓存
    ↓ 专用矩阵计算单元
低精度矩阵计算
    ↓
高精度累加 / 输出

所以二者的共同主线是：

不要让矩阵计算单元等数据；
不要反复访问外部大内存；
把数据切成 tile；
提前搬到片上缓存；
让搬运和计算形成流水；
用低精度提高吞吐和降低带宽压力。

4. FP4 / NVFP4 为什么让 Blackwell 更像 NPU？

FP4 / NVFP4 已经不是传统意义上的普通浮点计算。

普通 FP16 / FP32 计算可以简单理解为：

x × y

两个浮点数直接相乘。

但 NVFP4 的数学形式是：

x ≈ q_fp4 × s_block × s_global

其中：

q_fp4    = 4-bit FP4 编码值
s_block  = block scale
s_global = global scale

矩阵乘时变成：

C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj

其中：

αA_ik = A_ik 对应 block 的 scale
αB_kj = B_kj 对应 block 的 scale

这意味着，硬件处理的已经不是普通浮点数，而是：

压缩编码值
    +
scale 元数据
    +
block / tile layout
    +
专用矩阵计算路径

这就是典型的 format-aware computation，也就是“格式感知计算”。

计算单元不只是做乘加，而是要理解：

低精度编码
scale
block
tile
layout
累加精度
输出格式

这和 NPU / DSA 的思想高度接近。

5. Blackwell 和昇腾的共同点

5.1 都以矩阵单元为中心

Blackwell：

Tensor Core

昇腾：

Cube

它们的核心都不是普通标量运算，而是大规模矩阵乘。

Transformer / MoE 的主要计算都是：

QK^T
P V
MLP GEMM
MoE expert GEMM

所以硬件必须围绕矩阵乘优化。

5.2 都强调显式数据搬运

Blackwell：

TMA
HBM → Shared Memory

昇腾：

MTE / DataCopy
Global Memory → UB / L0 / Local Memory

共同目标是：

提前搬数据
减少外部内存访问
让数据搬运和矩阵计算重叠

5.3 都依赖片上缓存流水

Blackwell：

Shared Memory + Register + Tensor Core pipeline

昇腾：

UB / L0A / L0B / L0C + Cube pipeline

共同思想是：

大矩阵不能直接在外部内存上算；
必须切成 tile；
每次把一个 tile 搬到片上；
在片上完成计算；
同时预取下一个 tile。

5.4 都走低精度路线

Blackwell：

FP8
FP4 / NVFP4
INT8

昇腾：

FP16
BF16
INT8
FP8 等路线，具体依平台而定

未来的关键不是“支持某个格式”本身，而是：

低精度格式
    +
scale 机制
    +
矩阵单元
    +
片上缓存
    +
编译器
    +
算子库

是否能形成完整闭环。

5.5 都需要编译器和算子库深度协同

Blackwell 依赖：

CUDA
CUTLASS
CuTe
TensorRT
Transformer Engine
Triton / TileLang

昇腾依赖：

CANN
Ascend C
TBE
图编译
算子库

未来的大模型推理不是简单手写一个 kernel，而是：

模型结构
    ↓
图优化
    ↓
算子融合
    ↓
tile 生成
    ↓
layout 选择
    ↓
硬件执行

编译器和 runtime 会越来越重要。

6. Blackwell 和昇腾的关键差异

虽然二者方向越来越像，但底层哲学仍然不同。

维度	Blackwell 架构	昇腾架构
架构起点	GPU 演化而来	AI NPU / DSA 起点
编程模型	CUDA / SIMT + Tensor Core	CANN / Ascend C / Cube
数据搬运	TMA / Shared Memory	MTE / DataCopy / UB / L0
矩阵单元	Tensor Core	Cube
低精度重点	FP8 / FP4 / NVFP4	FP16 / BF16 / INT8 / FP8 等，依平台而定
通用性	更强，可覆盖图形、HPC、AI	更偏 AI 专用
生态	CUDA 生态极强	国产 CANN 生态
系统方向	GPU DSA 化	NPU 工程化

最关键区别是：

Blackwell = 通用 GPU 底座上叠加越来越强的 AI 专用单元
昇腾     = 从一开始就面向 AI workload 的 DSA / NPU

所以 Blackwell 没有变成纯 NPU。它仍然保留：

CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景能力

而昇腾更强调：

AI 图优化
算子编译
显式数据搬运
Cube 矩阵计算
国产软硬件栈闭环

7. 为什么所有 AI 芯片都会越来越像？

根本原因是 Transformer / MoE 的数学结构太固定。

大模型核心计算基本是：

QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all
all-reduce

这些计算有共同特征：

矩阵乘占主导
数据搬运巨大
低精度可接受
片上缓存复用关键
长上下文依赖 KV cache
MoE 依赖 expert dispatch
多卡依赖高速通信

因此硬件自然会收敛到：

专用矩阵单元
低精度格式
显式数据搬运
片上 SRAM / UB / shared memory
编译器控制 tile
算子库深度优化
多卡通信硬件化

可以写成：

Transformer workload
      ↓
GEMM dominant
      ↓
Tensor Core / Cube / Matrix Engine
      ↓
FP8 / FP4 / INT8 / INT4
      ↓
Shared Memory / UB / SRAM
      ↓
TMA / MTE / DMA
      ↓
Compiler + Runtime + Kernel 深度绑定

所以不是谁在简单模仿谁，而是：

大模型的矩阵数学把不同硬件架构逼向同一种高效数据流形态。

8. 对推理引擎开发的启发

如果只理解 CUDA kernel，还不够。

未来真正有价值的是理解完整映射链路：

模型结构
    ↓
矩阵形状
    ↓
量化格式
    ↓
scale 设计
    ↓
数据 layout
    ↓
片上缓存
    ↓
搬运流水
    ↓
矩阵单元
    ↓
多卡通信
    ↓
推理服务系统

也就是：

模型数学 → 硬件数据流 → kernel / compiler / runtime

对于 DeepSeek-V4、MoE、长上下文模型来说，关键问题不是单个 GEMM，而是：

FP4 / NVFP4 量化
MoE expert dispatch
grouped GEMM
KV cache 管理
all-to-all 通信
长上下文 attention
数据 layout
算子融合

所以推理引擎的核心价值不是简单：

写一个 CUDA kernel

而是：

把 Transformer / MoE / KV cache / FP4 量化
映射到不同硬件的数据流和矩阵单元上。

这也是你现在应该重点抓住的能力：

模型数学
    ↓
硬件结构
    ↓
数据流设计
    ↓
kernel / compiler / runtime
    ↓
端到端推理性能

9. 最终结论

Blackwell 架构确实越来越接近昇腾这类 AI DSA / NPU 架构的思想。

但更准确的表达是：

Blackwell 不是变成了昇腾；
昇腾也不是简单复制 GPU；
二者是在 Transformer / MoE 的数学结构压力下，
共同收敛到低精度矩阵数据流架构。

这个方向可以概括为：

低精度矩阵单元
显式数据搬运
片上缓存流水
scale-aware computation
编译器 / 算子 / runtime 深度协同
多卡通信系统化

一句话：

未来 AI 芯片的核心分野，不再是 GPU 还是 NPU，而是谁能把 Transformer / MoE 的矩阵数学最高效地映射成硬件数据流。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

不是 NVIDIA 变成了昇腾，而是两者都在向同一个方向收敛：面向 Transformer 的专用数据流架构

是的，从“大模型专用计算”的方向看，NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA，确实越来越像昇腾这类 DSA/NPU 架构。这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。INT8 / FP16 / BF16 / FP8等路线，具体依平台。因为 FP4/NVFP4 已经不是“普通浮点计算”了。FP4 / NV

鲲鹏昇腾开发者社区

AI风口真相：大爆发还没来，算力已经捉襟见肘了

【AI爆发前夜：算力危机与机遇并存】当前全球仅数百万人深度使用AI，却已导致算力严重短缺。尽管AI看似普及，但80%人口尚未接触，付费用户仅数千万。国内企业应把握三大关键：1. 个人用户需从免费转向付费，AI投入产出比远超人力成本；2. 企业级用户应选择国产大模型（如通义千问、阿里Qoder），兼顾性能与合规；3. 算力将是核心竞争力，提前布局才能抢占先机。目前AI仍处早期阶段，华为昇腾等国产芯片

鲲鹏昇腾开发者社区

原厂拒修GPU维修案例分享｜一张进水A100的芯片级修复实录，附维保方案

江苏源捷由上市京源环保旗下京源云计算与深耕十余年的深圳迅捷合资成立，总部位于江苏南通，专注AI服务器、全品类GPU芯片精修与IDC全周期运维，专攻各类原厂拒修疑难算力卡。等芯片级手段，大部分进水、虚焊、过流故障都可以被挽回，单卡修复成本仅为新卡采购价的15%~25%。检测设备：自研红外故障定位技术，配套X-Ray、工业CT、BGA 整套精密检修设备；IDC 厂商、AI 科技企业、算力运营方如需实地