不是 NVIDIA 变成了昇腾，而是两者都在向同一个方向收敛：面向 Transformer 的专用数据流架构

是的，从“大模型专用计算”的方向看，NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA，确实越来越像昇腾这类 DSA/NPU 架构。这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。INT8 / FP16 / BF16 / FP8等路线，具体依平台。因为 FP4/NVFP4 已经不是“普通浮点计算”了。FP4 / NV

luoganttcc

129人浏览 · 2026-06-04 17:46:34

luoganttcc · 2026-06-04 17:46:34 发布

FP4 / NVFP4 架构是不是越来越像昇腾架构

是的，从“大模型专用计算”的方向看，NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA，确实越来越像昇腾这类 DSA/NPU 架构。

但要准确说：

不是 NVIDIA 变成了昇腾，而是两者都在向同一个方向收敛：面向 Transformer 的专用数据流架构。

1. 为什么说越来越像？

传统 GPU 的核心思想是：

大量通用 CUDA cores
SIMT 编程模型
通用并行计算
程序员自己管理线程、访存、同步

而现在 Hopper / Blackwell / Rubin 变得越来越像：

专用矩阵单元
专用数据搬运单元
低精度格式
scale 元数据
片上缓存流水
通信计算重叠
面向 Transformer 的专用 pipeline

这就和昇腾的思想接近了。

昇腾从一开始就是比较典型的 AI DSA 架构：

Global Memory
    ↓ MTE / DataCopy
Local Memory / UB / L0
    ↓
Cube 矩阵计算单元
Vector 单元
Scalar 控制单元

NVIDIA 新架构现在也越来越强调：

HBM
    ↓ TMA
Shared Memory
    ↓ WGMMA
Tensor Core
    ↓
FP8 / FP4 / NVFP4

你看这两个链路，其实思想很像：

外部大内存
    ↓ 专用搬运单元
片上缓存
    ↓ 专用矩阵单元
低精度矩阵计算

2. FP4/NVFP4 为什么让 NVIDIA 更像 NPU？

因为 FP4/NVFP4 已经不是“普通浮点计算”了。

它不是：

拿两个 FP32 数直接相乘

而是：

4-bit 编码值
    +
block scale
    +
global scale
    ↓
Tensor Core 内部解码 / 缩放 / MMA

数学上是：

x ≈ q_fp4 × s_block × s_global

矩阵乘变成：

C_ij ≈ Σ_k qA_ik qB_kj αA_ik αB_kj

这已经很像 NPU 的思路：

数据格式不是普通数值
而是“压缩编码 + scale + 专用矩阵单元”

换句话说，计算不再只是 arithmetic，而是 format-aware computation。

这和昇腾、寒武纪、TPU 这类 NPU 的思想很接近：

计算单元知道数据格式
搬运单元知道数据 layout
编译器知道 tile 和 scale
算子库知道模型结构

3. 本质趋势：GPU 正在 DSA 化

可以这样判断：

早期 GPU：
图形渲染加速器

CUDA 时代 GPU：
通用并行计算器

Volta / Ampere：
Tensor Core AI 加速器

Hopper：
Transformer 专用 GPU

Blackwell / Rubin：
AI factory / LLM inference DSA

也就是说，NVIDIA 仍然叫 GPU，但内部越来越多模块已经是专用加速器：

Tensor Core：专门做矩阵乘
TMA：专门搬 tensor tile
WGMMA：专门组织大粒度矩阵计算
Transformer Engine：专门管理 FP8/FP4 低精度
NVLink / NVSwitch：专门做多 GPU AI 通信
DPU / SuperNIC：专门做数据中心数据路径

这已经不是传统意义上的“通用 GPU”了。

所以你的判断是对的：

越到 Blackwell / Rubin，NVIDIA 越像一个围绕大模型重构的数据流计算架构。

4. 但它和昇腾仍然不一样

相似的是思想，不一样的是底层哲学。

NVIDIA 仍然保留 GPU 通用性

NVIDIA 还有：

CUDA
SIMT
warp
block
shared memory
通用 kernel
图形 / HPC / AI 多场景兼容

所以它不是纯 NPU。

它是：

通用 GPU 底座 + 越来越多 AI 专用单元

昇腾更像原生 AI DSA

昇腾更强调：

Cube 矩阵单元
Vector 单元
Scalar 控制
MTE 数据搬运
UB / L0 / Local Memory
CANN / Ascend C
算子编译和调度

它从设计起点就更接近：

AI workload 专用处理器

而不是图形 GPU 演化而来。

所以两者区别可以概括成：

维度 NVIDIA Blackwell / Rubin 华为昇腾起点 GPU 演化 AI NPU / DSA 编程模型 CUDA / SIMT + Tensor Core CANN / Ascend C / Cube 数据搬运 TMA / shared memory MTE / UB / L0 矩阵单元 Tensor Core Cube 低精度 FP8 / FP4 / NVFP4 INT8 / FP16 / BF16 / FP8等路线，具体依平台通用性更强更偏 AI 专用生态 CUDA 极强国产生态、CANN 体系方向 GPU DSA 化 NPU 工程化

5. 更深层的原因：Transformer 把硬件都逼向同一个形态

Transformer 的核心计算太固定了：

QK^T
softmax
P V
MLP GEMM
MoE expert GEMM
KV cache
all-to-all / all-reduce

所以所有硬件最后都会围绕这些东西优化：

矩阵乘
低精度
片上缓存
数据搬运
通信
scale
量化
MoE routing
KV cache

这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。

不是谁抄谁，而是：

大模型的数学结构把硬件架构收敛到了类似方向。

可以写成：

Transformer workload
      ↓
GEMM dominant
      ↓
Tensor Core / Cube / Matrix Engine
      ↓
低精度 FP8 / FP4 / INT8 / INT4
      ↓
片上 SRAM / UB / shared memory
      ↓
显式数据搬运 TMA / MTE
      ↓
编译器和算子库深度绑定

6. 对你做推理引擎的启发

你的机会不应该只停留在：

写一个 CUDA kernel

而是要理解这条共同主线：

模型结构
    ↓
矩阵形状
    ↓
量化格式
    ↓
数据 layout
    ↓
片上缓存
    ↓
搬运流水
    ↓
矩阵单元
    ↓
多卡通信
    ↓
推理服务系统

未来不管是 NVIDIA、昇腾、摩尔线程还是沐曦，真正有价值的是：

把 Transformer / MoE / KV cache / FP4量化
映射到具体硬件的数据流和矩阵单元上

也就是：

模型数学 → 硬件数据流 → kernel / compiler / runtime

7. 最简洁结论

是的，NVIDIA 的 FP4/NVFP4、TMA、WGMMA、Transformer Engine，让 Blackwell/Rubin 越来越像昇腾这类 AI DSA 架构。

但更准确地说：

不是 NVIDIA 变成了昇腾，而是 GPU 和 NPU 都在被大模型的数学结构逼向同一个方向：低精度矩阵单元 + 显式数据搬运 + 片上缓存流水 + 编译器/算子深度协同。

一句话：

未来 AI 芯片的分野不再是 GPU 还是 NPU，而是谁能把 Transformer/MoE 的矩阵数学最高效地映射到硬件数据流。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

奇点倒计时与算力新命题：一场超节点技术巅峰对话的全纪录

鲲鹏昇腾开发者社区

AI风口真相：大爆发还没来，算力已经捉襟见肘了

【AI爆发前夜：算力危机与机遇并存】当前全球仅数百万人深度使用AI，却已导致算力严重短缺。尽管AI看似普及，但80%人口尚未接触，付费用户仅数千万。国内企业应把握三大关键：1. 个人用户需从免费转向付费，AI投入产出比远超人力成本；2. 企业级用户应选择国产大模型（如通义千问、阿里Qoder），兼顾性能与合规；3. 算力将是核心竞争力，提前布局才能抢占先机。目前AI仍处早期阶段，华为昇腾等国产芯片