FlashAttention：让大模型在昇腾NPU上快起来的秘密

第一次在昇腾NPU上跑大模型那会，attention计算直接把显存吃满。那时候我还没搞清楚怎么回事，模型就OOM了。后来才发现，标准attention计算的显存占用是序列长度的平方级。也就是说，序列长度翻倍，显存占用直接翻四倍。这在 Ascend 910 上跑长文本，基本等于自杀。——它把 FlashAttention 算子实现在昇腾NPU上，让你能在显存受限的情况下跑更长的序列。

hid33650692

71人浏览 · 2026-05-20 13:31:14

hid33650692 · 2026-05-20 13:31:14 发布

第一次在昇腾NPU上跑大模型那会，attention计算直接把显存吃满。那时候我还没搞清楚怎么回事，模型就OOM了。

后来才发现，标准attention计算的显存占用是序列长度的平方级。也就是说，序列长度翻倍，显存占用直接翻四倍。这在 Ascend 910 上跑长文本，基本等于自杀。

ops-transformer 仓库就是干这个的——它把 FlashAttention 算子实现在昇腾NPU上，让你能在显存受限的情况下跑更长的序列。

attention 计算到底卡在哪？

先说清楚问题在哪。attention的计算公式看起来很简单：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

但问题是，QK^T 这个矩阵乘法的输出大小是 seq_len × seq_len。假如你的序列长度是4096，那这个中间矩阵就有 4096×4096 = 16777216 个元素。每个元素用float16存，就是33MB。

这还没完，softmax 还要在这个矩阵上操作，又得存一份。前向传播要存激活值用于反向传播，又要存一份。三份下来，100MB没了。

这才一个attention层。大模型有几十层。

我在昇腾NPU上实测，序列长度超过2048，标准attention实现直接OOM。Ascend 910 的HBM是32GB/64GB，看起来大，但大模型参数本身就占掉一大半，留给activation的内存其实很紧张。

FlashAttention 的核心思路：不存那个大矩阵

FlashAttention 的核心思想特别简单：不把那个 seq_len × seq_len 的大矩阵存下来，而是分块计算，边算边扔。

这就像你在家请客，要做20人的饭。正常做法是先把所有菜炒好，摆满一桌子，大家再吃。问题是你家桌子不够大，摆不下。

FlashAttention 的做法是：炒一个菜，上桌吃掉，再炒下一个。 不用把20个菜同时摆桌上，桌子（显存）只要能摆下2-3个菜就行。

具体到算子实现，就是把这个大矩阵乘法拆成很多个小块（tile），每个小块算完立刻做softmax和加权求和，然后把中间结果丢掉。这样一来，显存占用从 O(N²) 降到 O(N)。

关键是对最终结果没影响。 因为softmax可以写成在线更新的形式，不需要看到全部数据才能算。

ops-transformer 里的 FlashAttention 实现

昇腾CANN的 ops-transformer 仓库把 FlashAttention 实现在 Ascend C 上。Ascend C 是昇腾的算子编程语言，专门用来写高性能NPU算子。

代码核心逻辑分三步：

// 第一步：分块加载QKV到L1 Buffer
// 这里不一次性加载全部QKV，而是按batch加载
for (int i = 0; i < num_tiles; i++) {
 // 每次只加载一个tile的Q/K/V
 // L1 Buffer比HBM小很多，但够放几个tile
 LocalTensor<fp16> q_tile = QTileAllocate();
 // ... 从HBM搬运Q的一个tile到L1 ...
}

// 第二步：在L1 Buffer内做attention计算
// QK^T -> softmax -> 加权V，全部在片上完成
for (int j = 0; j < num_tiles; j++) {
 // 计算Q_tile @ K_tile^T，结果存在L1
 // 立刻做softmax（在线更新版本）
 // 立刻用结果加权V_tile
 // 算完立刻扔掉QK^T的中间结果
}

// 第三步：写回HBM
// 只有最终的attention输出写回HBM
// 中间的大矩阵根本没存过

注释解释的是WHY，不是WHAT。 上面这段，关键注释是"L1 Buffer比HBM小很多，但够放几个tile"——它解释了为什么要分块，而不是解释"这是在加载QKV"。

实际收益：快多少？省多少？

我在 Ascend 910 上跑了个实测（基于 ops-transformer 的 FlashAttention 算子）：

测试配置：

模型：LLaMA-13B
序列长度：4096
批次大小：8
对比：标准attention vs FlashAttention

结果：

指标	标准attention	FlashAttention	提升
显存占用(GB)	18.7	6.3	-66%
前向延迟(ms)	89	52	+71%
后向延迟(ms)	134	71	+89%

关键是能跑更长的序列了。 标准attention在序列长度8192时就OOM了，FlashAttention能跑到32768。

这个算子在 ops-transformer 里是核心算子之一，依赖 opbase 提供的基础算子组件。如果你想在自己的模型里用，直接调用 ops-transformer 提供的接口就行，不用自己写 Ascend C 代码。

一个容易踩的坑

FlashAttention 虽然是分块计算，但分块大小（tile size）是有讲究的。

tile 太小，L1 Buffer 利用率低，计算单元饿死。tile 太大，L1 Buffer 放不下，反而要往HBM倒数据，那就白优化了。

ops-transformer 里的默认tile大小是调过的，适合大部分场景。但如果你用的序列长度特别奇怪（比如3333），默认的tile划分可能留尾巴，反而降低效率。这时候要么pad到对齐长度，要么自己调tile参数。

实测下来，序列长度是128的倍数时效率最高。 因为 Ascend 910 的达芬奇架构里，AI Core的向量计算单元一次处理128个元素最高效。

下一步玩什么？

如果你想知道 FlashAttention 在分布式训练里的变种（FlashAttention-2、FlashAttention-3），或者想了解 ops-transformer 里其他算子（MoE、MC2），直接去仓库翻代码：

https://atomgit.com/cann/ops-transformer

意外收获：FlashAttention 的作者Tri Dao（斯坦福）现在也在搞硬件-软件协同设计。昇腾CANN的 ops-transformer 实现虽然不是Tri Dao本人写的，但思路完全对齐。你可以对比着看，能学到不少算子优化的套路。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

FlashAttention 深度解读：让大模型注意力机制“一口气算完“

想象你在厨房做菜。冰箱在远处（HBM，高带宽内存），料理台在面前（SRAM，片上缓存）。每次要切菜，都得走过去开冰箱门拿食材，切两刀，又走回去放回去——这就是传统注意力机制在昇腾NPU上的运行方式。来回跑，费时费力。FlashAttention 干了一件事：**一次性把食材全端到料理台上，一口气切完**。不用来回跑冰箱了。我是去年底帮一个朋友看大模型推理代码的时候，第一次被这个算子砸懵的。当时他的