CANN 里的注意力革命：FlashAttention 如何在昇腾NPU 上砍掉 80% 显存

本文分析了昇腾NPU上大模型推理OOM问题的根源——注意力计算中的N×N矩阵导致显存爆炸。通过类比三文鱼处理方式，解释了FlashAttention的核心思想：分块计算避免生成完整注意力矩阵。文章详细介绍了FlashAttention的三步实现（分块加载、online softmax重标定、分块加权求和），并给出昇腾NPU上的Ascend C实现示例和PyTorch调用方法。相比标准注意力计算，F

雨季666

125人浏览 · 2026-05-20 18:36:40

雨季666 · 2026-05-20 18:36:40 发布

之前帮一个朋友排查大模型推理 OOM，把 512K 上下文的模型架在昇腾NPU 上用 CANN 跑，一执行注意力计算就崩。看了下显存占用，光那个 attention score 矩阵就干掉了大半 HBM——一个 512K×512K 的方阵，哪怕都用 fp16 也要吞掉 512GB，这还没算后续的 softmax 和加权求和。

根儿不在算力，在搬运。

这就是 CANN ops-transformer 仓库里 FlashAttention 算子要解决的核心问题。

你家的冰箱和菜板

做一个思想实验。

取一整条三文鱼，要切好腌好煎好摆盘。两种搞法：

搞法 A：把整条鱼从冰箱搬到菜板上，切、腌、煎、摆盘全在菜板上做。但菜板只有巴掌大，鱼却半米长——你只能剁成小块处理，可每处理一块就得来回开冰箱门。

搞法 B：鱼分段搁冰箱里，拿出一段切完腌好煎好装盘，全套活全在菜板上干完，再拿下一段。整条鱼从头到尾没在菜板上完整摊开过。

搞法 A 就是标准注意力计算：把 Q、K、V 矩阵整个从 HBM 搬到计算单元，算出一个完整的 N×N attention 矩阵，做 softmax，再和 V 做加权——每步中间结果都老老实实写回 HBM。

搞法 B 就是 FlashAttention：Q、K、V 分块加载到 SRAM（片上的高速缓存），矩阵乘、softmax、加权求和全部在 SRAM 里一趟跑完，最后只把输出写回 HBM。

中间那个 N×N 矩阵？从未完整存在过。

三步搞定，一步不差

FlashAttention 把 O(N²) 的显存噩梦拆成三步，这也是 ops-transformer 实现的核心路径：

🧱 分块加载
把 Q 切成细条，K 和 V 切成方块。每次只载一小块 Q 和一小块 K^T 到 SRAM 里。SRAM 是昇腾NPU 片上的最快缓存，容量只有几十 MB，但带宽比 HBM 高好几个量级——要的就是这笔搬运账能算得过。

⚖️ online softmax 重标定
标准 softmax 要先扫一遍全行找最大值，再扫一遍算指数和。分块做的问题是：每块只能看到局部，最大值可能不准。FlashAttention 的做法是每加载一块新的 QK^T 结果，立刻更新当前已知的最大值和指数累加和，然后把之前已算好的部分重新标定。像记账不是月底统一对，而是每笔交易入账时就刷新余额——算的过程中一直在修正。

➕ 分块加权求和
每一块 softmax 后的结果按重标定的权重累加到输出。online softmax 保证了所有块的权重合起来依然是正确的概率分布，所以最终结果和完整计算严格等价——不是近似，是数学意义上的精确。

昇腾NPU 上怎么玩

ops-transformer 仓的 FlashAttention 是按昇腾达芬奇架构针对性优化的。昇腾NPU 的多级缓存模型（L1/L2/HBM）天然匹配分块计算的路子。

Ascend C 实现核心片段

下面是一段简化后的 Ascend C kernel，展示分块计算的关键逻辑：

// ops-transformer/kernels/flash_attention/flash_attention_kernel.cpp
// 简化版，展示核心流水线

template <typename T>
__aicore__ void FlashAttentionKernel<T>::Process() {
    // 分块参数：Br、Bc 是 SRAM 里能放下的块大小
    // Q: [B, H, N, D] -> 分块后每块 [Br, D]
    // K/V: [B, H, N, D] -> 分块后每块 [Bc, D]
    
    for (int i = 0; i < num_q_blocks; ++i) {
        // 异步搬运下一块 Q 到 L1，不等当前算完
        // 这是双缓冲流水的精髓：搬运和计算并行
        DataCopy(Q_l1[i % 2], Q_hbm + i * Br * D, {Br, D});
        
        for (int j = 0; j < num_kv_blocks; ++j) {
            // 同样异步搬运 K、V
            DataCopy(K_l1[j % 2], K_hbm + j * Bc * D, {Bc, D});
            DataCopy(V_l1[j % 2], V_hbm + j * Bc * D, {Bc, D});
            
            // 等数据就位，然后开算
            WaitDataReady();
            
            // QK^T 矩阵乘，Cube 单元执行
            // 这里是 O(Br * Bc * D) 的计算量，但全在片上
            MatMul(QK_local, Q_l1, K_l1.transpose());
            
            // Online softmax：更新最大值和累加和
            // 每算一块就刷新，不需要全局扫描
            float new_max = max(QK_local, row_max_old);
            float exp_scale = exp(row_max_old - new_max);  // 修正因子
            row_sum = row_sum * exp_scale + sum(exp(QK_local - new_max));
            row_max_old = new_max;
            
            // 累加到输出，同样在片上
            // O_local 一直是 [Br, D]，从不膨胀到 [Br, N]
            ScaleAdd(O_local, V_l1, exp(QK_local - new_max));
        }
        
        // 最后才写回 HBM：只有输出，没有 attention 矩阵
        DataCopy(O_hbm + i * Br * D, O_local, {Br, D});
    }
}

关键点：

DataCopy 配合 WaitDataReady 构成异步搬运流水线
O_local 始终只有 [Br, D] 大小，N 再大也不影响
attention 矩阵 QK_local 是 [Br, Bc]，远小于 [N, N]

PyTorch 框架侧调用

如果你用 PyTorch 做推理，CANN 提供了直接的算子接口：

import torch
import torch_npu  # CANN PyTorch 适配层

# 开启 FlashAttention，CANN 8.0+ 自动选择优化实现
with torch.backends.cuda.enable_flash_sdp(True):
    # 标准 PyTorch scaled_dot_product_attention 接口
    # 底层自动路由到 ops-transformer 的 FlashAttention 算子
    output = torch.nn.functional.scaled_dot_product_attention(
        query,   # [B, H, N, D]
        key,
        value,
        attn_mask=None,
        dropout_p=0.0,
        is_causal=True,  # 因果注意力，LLM 解码必备
        scale=1.0 / (D ** 0.5)
    )

# 或者直接调用 CANN 封装的算子
from ops_transformer import flash_attention

output = flash_attention(
    query, key, value,
    softmax_scale=1.0 / (D ** 0.5),
    causal=True,
    window_size=(-1, -1)  # 滑动窗口注意力，可配置
)

框架层不用改代码，CANN 的 ATB（ascend-transformer-boost）会自动把标准 attention 调用替换成 FlashAttention 实现。

省在哪

指标	标准注意力	FlashAttention
峰值显存	O(N²)，完整 attention 矩阵	O(N)，只存输出
HBM 读写	反复读写 N×N 矩阵	按块读写，总量分散
512K seq(FP16)	~512GB（仅 score 矩阵）	~几个 GB
精度	精确	精确（数学等价）

敲黑板：注意力计算不是算力瓶颈，是带宽瓶颈。昇腾NPU 矩阵算力很充裕，但 HBM 带宽跟不上。FlashAttention 用更多计算（反复重算 softmax 中间值）换更少搬运，放在 NPU 上这笔账非常合算。

上手

ops-transformer 仓里 FlashAttention 已经就绪，昇腾CANN 8.0 以上直接能用：

# 克隆仓库
git clone https://atomgit.com/cann/ops-transformer
cd ops-transformer

# 构建前确认环境
# - CANN 8.0+ 已安装
# - opbase 已拉取（基础依赖）
mkdir build && cd build
cmake .. -DCMAKE_INSTALL_PREFIX=/usr/local/ops-transformer
make -j$(nproc)
make install