Blackwell 架构和昇腾架构:从大模型数据流看 GPU 与 NPU 的收敛
从大模型专用计算的方向看,。但更准确地说:不是 Blackwell 变成了昇腾,而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向:低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。也就是说,未来 AI 芯片的核心竞争,不再只是“GPU 还是 NPU”,而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。
Blackwell 架构和昇腾架构:从大模型数据流看 GPU 与 NPU 的收敛
核心判断
从大模型专用计算的方向看,NVIDIA Blackwell 架构正在越来越接近昇腾这类 AI DSA / NPU 架构的思想。
但更准确地说:
不是 Blackwell 变成了昇腾,而是二者都在被 Transformer / MoE 的计算结构逼向同一个方向:低精度矩阵计算、显式数据搬运、片上缓存流水、编译器与算子深度协同。
也就是说,未来 AI 芯片的核心竞争,不再只是“GPU 还是 NPU”,而是谁能把大模型的矩阵数学最高效地映射成硬件数据流。
1. 从传统 GPU 到 Blackwell:GPU 正在 DSA 化
传统 GPU 的核心思想是通用并行计算:
大量 CUDA cores
SIMT 编程模型
通用 kernel
程序员显式管理线程、访存、同步
这种架构非常通用,既能做图形渲染,也能做科学计算、HPC、AI 训练和推理。
但是到了 Hopper、Blackwell、Rubin 这一代,NVIDIA GPU 内部越来越多模块已经变成面向大模型的专用加速结构:
Tensor Core → 专门做矩阵乘
TMA → 专门搬 tensor tile
WGMMA → 专门组织大粒度矩阵乘
Transformer Engine → 专门管理 FP8 / FP4 / NVFP4 低精度
NVLink / NVSwitch → 专门服务多 GPU AI 通信
DPU / SuperNIC → 专门处理数据中心数据路径
所以 Blackwell 虽然仍然是 GPU,但它已经不是传统意义上的“纯通用 GPU”。
更准确地说,它是:
通用 GPU 底座
+
面向 Transformer / MoE 的专用数据流加速器
这就是所谓的 GPU DSA 化。
2. 昇腾从一开始就是 AI DSA / NPU 思路
昇腾架构的设计起点不是图形 GPU,而是 AI workload。
它的典型数据路径可以抽象为:
Global Memory
↓ MTE / DataCopy
Local Memory / UB / L0
↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元
这个结构的核心思想是:
显式搬运数据
显式管理片上缓存
用 Cube 做矩阵乘
用 Vector 做向量算子
用 Scalar 做控制调度
通过 CANN / Ascend C / 算子库完成编译和执行
所以昇腾本质上更像:
AI workload 专用数据流处理器
它从架构起点上就强调:
矩阵计算
向量计算
数据搬运
片上缓存
算子编译
数据 layout
3. Blackwell 和昇腾的数据流越来越相似
Blackwell 的典型大模型计算路径可以抽象成:
HBM
↓ TMA
Shared Memory
↓ WGMMA
Tensor Core
↓
FP8 / FP4 / NVFP4 MMA
昇腾的典型计算路径可以抽象成:
Global Memory
↓ MTE / DataCopy
UB / L0 / Local Memory
↓
Cube
↓
FP16 / BF16 / INT8 / FP8 等矩阵计算
把细节抽掉后,两者非常相似:
外部大内存
↓ 专用数据搬运单元
片上缓存
↓ 专用矩阵计算单元
低精度矩阵计算
↓
高精度累加 / 输出
所以二者的共同主线是:
不要让矩阵计算单元等数据;
不要反复访问外部大内存;
把数据切成 tile;
提前搬到片上缓存;
让搬运和计算形成流水;
用低精度提高吞吐和降低带宽压力。
4. FP4 / NVFP4 为什么让 Blackwell 更像 NPU?
FP4 / NVFP4 已经不是传统意义上的普通浮点计算。
普通 FP16 / FP32 计算可以简单理解为:
x × y
两个浮点数直接相乘。
但 NVFP4 的数学形式是:
x ≈ q_fp4 × s_block × s_global
其中:
q_fp4 = 4-bit FP4 编码值
s_block = block scale
s_global = global scale
矩阵乘时变成:
C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj
其中:
αA_ik = A_ik 对应 block 的 scale
αB_kj = B_kj 对应 block 的 scale
这意味着,硬件处理的已经不是普通浮点数,而是:
压缩编码值
+
scale 元数据
+
block / tile layout
+
专用矩阵计算路径
这就是典型的 format-aware computation,也就是“格式感知计算”。
计算单元不只是做乘加,而是要理解:
低精度编码
scale
block
tile
layout
累加精度
输出格式
这和 NPU / DSA 的思想高度接近。
5. Blackwell 和昇腾的共同点
5.1 都以矩阵单元为中心
Blackwell:
Tensor Core
昇腾:
Cube
它们的核心都不是普通标量运算,而是大规模矩阵乘。
Transformer / MoE 的主要计算都是:
QK^T
P V
MLP GEMM
MoE expert GEMM
所以硬件必须围绕矩阵乘优化。
5.2 都强调显式数据搬运
Blackwell:
TMA
HBM → Shared Memory
昇腾:
MTE / DataCopy
Global Memory → UB / L0 / Local Memory
共同目标是:
提前搬数据
减少外部内存访问
让数据搬运和矩阵计算重叠
5.3 都依赖片上缓存流水
Blackwell:
Shared Memory + Register + Tensor Core pipeline
昇腾:
UB / L0A / L0B / L0C + Cube pipeline
共同思想是:
大矩阵不能直接在外部内存上算;
必须切成 tile;
每次把一个 tile 搬到片上;
在片上完成计算;
同时预取下一个 tile。
5.4 都走低精度路线
Blackwell:
FP8
FP4 / NVFP4
INT8
昇腾:
FP16
BF16
INT8
FP8 等路线,具体依平台而定
未来的关键不是“支持某个格式”本身,而是:
低精度格式
+
scale 机制
+
矩阵单元
+
片上缓存
+
编译器
+
算子库
是否能形成完整闭环。
5.5 都需要编译器和算子库深度协同
Blackwell 依赖:
CUDA
CUTLASS
CuTe
TensorRT
Transformer Engine
Triton / TileLang
昇腾依赖:
CANN
Ascend C
TBE
图编译
算子库
未来的大模型推理不是简单手写一个 kernel,而是:
模型结构
↓
图优化
↓
算子融合
↓
tile 生成
↓
layout 选择
↓
硬件执行
编译器和 runtime 会越来越重要。
6. Blackwell 和昇腾的关键差异
虽然二者方向越来越像,但底层哲学仍然不同。
| 维度 | Blackwell 架构 | 昇腾架构 |
|---|---|---|
| 架构起点 | GPU 演化而来 | AI NPU / DSA 起点 |
| 编程模型 | CUDA / SIMT + Tensor Core | CANN / Ascend C / Cube |
| 数据搬运 | TMA / Shared Memory | MTE / DataCopy / UB / L0 |
| 矩阵单元 | Tensor Core | Cube |
| 低精度重点 | FP8 / FP4 / NVFP4 | FP16 / BF16 / INT8 / FP8 等,依平台而定 |
| 通用性 | 更强,可覆盖图形、HPC、AI | 更偏 AI 专用 |
| 生态 | CUDA 生态极强 | 国产 CANN 生态 |
| 系统方向 | GPU DSA 化 | NPU 工程化 |
最关键区别是:
Blackwell = 通用 GPU 底座上叠加越来越强的 AI 专用单元
昇腾 = 从一开始就面向 AI workload 的 DSA / NPU
所以 Blackwell 没有变成纯 NPU。它仍然保留:
CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景能力
而昇腾更强调:
AI 图优化
算子编译
显式数据搬运
Cube 矩阵计算
国产软硬件栈闭环
7. 为什么所有 AI 芯片都会越来越像?
根本原因是 Transformer / MoE 的数学结构太固定。
大模型核心计算基本是:
QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all
all-reduce
这些计算有共同特征:
矩阵乘占主导
数据搬运巨大
低精度可接受
片上缓存复用关键
长上下文依赖 KV cache
MoE 依赖 expert dispatch
多卡依赖高速通信
因此硬件自然会收敛到:
专用矩阵单元
低精度格式
显式数据搬运
片上 SRAM / UB / shared memory
编译器控制 tile
算子库深度优化
多卡通信硬件化
可以写成:
Transformer workload
↓
GEMM dominant
↓
Tensor Core / Cube / Matrix Engine
↓
FP8 / FP4 / INT8 / INT4
↓
Shared Memory / UB / SRAM
↓
TMA / MTE / DMA
↓
Compiler + Runtime + Kernel 深度绑定
所以不是谁在简单模仿谁,而是:
大模型的矩阵数学把不同硬件架构逼向同一种高效数据流形态。
8. 对推理引擎开发的启发
如果只理解 CUDA kernel,还不够。
未来真正有价值的是理解完整映射链路:
模型结构
↓
矩阵形状
↓
量化格式
↓
scale 设计
↓
数据 layout
↓
片上缓存
↓
搬运流水
↓
矩阵单元
↓
多卡通信
↓
推理服务系统
也就是:
模型数学 → 硬件数据流 → kernel / compiler / runtime
对于 DeepSeek-V4、MoE、长上下文模型来说,关键问题不是单个 GEMM,而是:
FP4 / NVFP4 量化
MoE expert dispatch
grouped GEMM
KV cache 管理
all-to-all 通信
长上下文 attention
数据 layout
算子融合
所以推理引擎的核心价值不是简单:
写一个 CUDA kernel
而是:
把 Transformer / MoE / KV cache / FP4 量化
映射到不同硬件的数据流和矩阵单元上。
这也是你现在应该重点抓住的能力:
模型数学
↓
硬件结构
↓
数据流设计
↓
kernel / compiler / runtime
↓
端到端推理性能
9. 最终结论
Blackwell 架构确实越来越接近昇腾这类 AI DSA / NPU 架构的思想。
但更准确的表达是:
Blackwell 不是变成了昇腾;
昇腾也不是简单复制 GPU;
二者是在 Transformer / MoE 的数学结构压力下,
共同收敛到低精度矩阵数据流架构。
这个方向可以概括为:
低精度矩阵单元
显式数据搬运
片上缓存流水
scale-aware computation
编译器 / 算子 / runtime 深度协同
多卡通信系统化
一句话:
未来 AI 芯片的核心分野,不再是 GPU 还是 NPU,而是谁能把 Transformer / MoE 的矩阵数学最高效地映射成硬件数据流。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
所有评论(0)