FP4 / NVFP4 架构是不是越来越像昇腾架构

是的,从“大模型专用计算”的方向看,NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA,确实越来越像昇腾这类 DSA/NPU 架构。

但要准确说:

不是 NVIDIA 变成了昇腾,而是两者都在向同一个方向收敛:面向 Transformer 的专用数据流架构。


1. 为什么说越来越像?

传统 GPU 的核心思想是:

大量通用 CUDA cores
SIMT 编程模型
通用并行计算
程序员自己管理线程、访存、同步

而现在 Hopper / Blackwell / Rubin 变得越来越像:

专用矩阵单元
专用数据搬运单元
低精度格式
scale 元数据
片上缓存流水
通信计算重叠
面向 Transformer 的专用 pipeline

这就和昇腾的思想接近了。

昇腾从一开始就是比较典型的 AI DSA 架构:

Global Memory
↓ MTE / DataCopy
Local Memory / UB / L0

Cube 矩阵计算单元
Vector 单元
Scalar 控制单元

NVIDIA 新架构现在也越来越强调:

HBM
↓ TMA
Shared Memory
↓ WGMMA
Tensor Core

FP8 / FP4 / NVFP4

你看这两个链路,其实思想很像:

外部大内存
↓ 专用搬运单元
片上缓存
↓ 专用矩阵单元
低精度矩阵计算

2. FP4/NVFP4 为什么让 NVIDIA 更像 NPU?

因为 FP4/NVFP4 已经不是“普通浮点计算”了。

它不是:

拿两个 FP32 数直接相乘

而是:

4-bit 编码值
+
block scale
+
global scale

Tensor Core 内部解码 / 缩放 / MMA

数学上是:

x ≈ q_fp4 × s_block × s_global

矩阵乘变成:

C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj

这已经很像 NPU 的思路:

数据格式不是普通数值
而是“压缩编码 + scale + 专用矩阵单元”

换句话说,计算不再只是 arithmetic,而是 format-aware computation。

这和昇腾、寒武纪、TPU 这类 NPU 的思想很接近:

计算单元知道数据格式
搬运单元知道数据 layout
编译器知道 tile 和 scale
算子库知道模型结构

3. 本质趋势:GPU 正在 DSA 化

可以这样判断:

早期 GPU:
图形渲染加速器

CUDA 时代 GPU:
通用并行计算器

Volta / Ampere:
Tensor Core AI 加速器

Hopper:
Transformer 专用 GPU

Blackwell / Rubin:
AI factory / LLM inference DSA

也就是说,NVIDIA 仍然叫 GPU,但内部越来越多模块已经是专用加速器:

Tensor Core:专门做矩阵乘
TMA:专门搬 tensor tile
WGMMA:专门组织大粒度矩阵计算
Transformer Engine:专门管理 FP8/FP4 低精度
NVLink / NVSwitch:专门做多 GPU AI 通信
DPU / SuperNIC:专门做数据中心数据路径

这已经不是传统意义上的“通用 GPU”了。

所以你的判断是对的:

越到 Blackwell / Rubin,NVIDIA 越像一个围绕大模型重构的数据流计算架构。


4. 但它和昇腾仍然不一样

相似的是思想,不一样的是底层哲学。

NVIDIA 仍然保留 GPU 通用性

NVIDIA 还有:

CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景兼容

所以它不是纯 NPU。

它是:

通用 GPU 底座 + 越来越多 AI 专用单元

昇腾更像原生 AI DSA

昇腾更强调:

Cube 矩阵单元
Vector 单元
Scalar 控制
MTE 数据搬运
UB / L0 / Local Memory
CANN / Ascend C
算子编译和调度

它从设计起点就更接近:

AI workload 专用处理器

而不是图形 GPU 演化而来。

所以两者区别可以概括成:

维度 NVIDIA Blackwell / Rubin 华为昇腾 起点 GPU 演化 AI NPU / DSA 编程模型 CUDA / SIMT + Tensor Core CANN / Ascend C / Cube 数据搬运 TMA / shared memory MTE / UB / L0 矩阵单元 Tensor Core Cube 低精度 FP8 / FP4 / NVFP4 INT8 / FP16 / BF16 / FP8等路线,具体依平台 通用性 更强 更偏 AI 专用 生态 CUDA 极强 国产生态、CANN 体系 方向 GPU DSA 化 NPU 工程化

5. 更深层的原因:Transformer 把硬件都逼向同一个形态

Transformer 的核心计算太固定了:

QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all / all-reduce

所以所有硬件最后都会围绕这些东西优化:

矩阵乘
低精度
片上缓存
数据搬运
通信
scale
量化
MoE routing
KV cache

这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。

不是谁抄谁,而是:

大模型的数学结构把硬件架构收敛到了类似方向。

可以写成:

Transformer workload

GEMM dominant

Tensor Core / Cube / Matrix Engine

低精度 FP8 / FP4 / INT8 / INT4

片上 SRAM / UB / shared memory

显式数据搬运 TMA / MTE

编译器和算子库深度绑定

6. 对你做推理引擎的启发

你的机会不应该只停留在:

写一个 CUDA kernel

而是要理解这条共同主线:

模型结构

矩阵形状

量化格式

数据 layout

片上缓存

搬运流水

矩阵单元

多卡通信

推理服务系统

未来不管是 NVIDIA、昇腾、摩尔线程还是沐曦,真正有价值的是:

把 Transformer / MoE / KV cache / FP4量化
映射到具体硬件的数据流和矩阵单元上

也就是:

模型数学 → 硬件数据流 → kernel / compiler / runtime

7. 最简洁结论

是的,NVIDIA 的 FP4/NVFP4、TMA、WGMMA、Transformer Engine,让 Blackwell/Rubin 越来越像昇腾这类 AI DSA 架构。

但更准确地说:

不是 NVIDIA 变成了昇腾,而是 GPU 和 NPU 都在被大模型的数学结构逼向同一个方向:低精度矩阵单元 + 显式数据搬运 + 片上缓存流水 + 编译器/算子深度协同。

一句话:

未来 AI 芯片的分野不再是 GPU 还是 NPU,而是谁能把 Transformer/MoE 的矩阵数学最高效地映射到硬件数据流。

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐