昇腾CANN的FFT算子为什么比cuFFT还快？关键在调度策略

ops-fft的FFT算子比cuFFT快，不是因为某个神秘的硬件特性，而是因为调度策略更智能动态自适应调度：根据你的FFT尺寸实时选最优算法双缓冲流水线：充分利用昇腾NPU的Vector+Matrix并行融合调度：把连续多个算子的内存访问统一规划如果你在昇腾上做信号处理、图像频域滤波、或者大模型里用FFT加速注意力，ops-fft的FFT算子值得一试。当然，cuFFT在GPU上依然是很强的。这个对

爱吃大芒果

79人浏览 · 2026-05-23 10:49:37

爱吃大芒果 · 2026-05-23 10:49:37 发布

在这里插入图片描述

FFT（快速傅里叶变换）是信号处理、图像处理、大模型注意力优化等领域的核心算子。在GPU上，NVIDIA的cuFFT库一直是性能标杆。

但最近在昇腾NPU上测试FFT性能，发现了一个意外的结果：某些场景下，ops-fft的FFT算子比cuFFT还快15-20%。

这个差距从哪来？答案不在算子本身，在调度策略。

背景：FFT的性能瓶颈在哪

FFT计算的核心是蝶形运算（butterfly operation）。它有一堆矩阵转置和数据重排的操作，对内存带宽和缓存命中率非常敏感。

在GPU上，cuFFT已经做得很好了。但它有一个问题：调度策略是静态的。

什么是静态调度？就是cuFFT根据你传入的FFT尺寸（比如1024点FFT），提前定好了一组最优的kernel配置（thread block大小、shared memory用量、寄存器分配）。这个配置是根据NVIDIA GPU的架构特征提前调优的。

问题在于：如果你的FFT尺寸不在cuFFT的"甜点"上，性能就会掉。比如，你做131072点FFT（2的17次方，不是常见的2的n次方），cuFFT的静态调度就可能选一个不够优的kernel配置。

昇腾的调度策略：动态自适应

ops-fft的FFT算子，用的是动态自适应调度。

核心思路：算子执行前，先根据你的FFT尺寸、输入数据布局、当前NPU的内存状态，实时选择一个最优的调度策略。

具体来说，有3个层面的优化：

1. 内存访问模式优化

FFT的内存访问有两种主流模式：

Cooley-Tukey：适合大尺寸FFT，数据分块后并行计算
Bluestein：适合非2的幂次尺寸的FFT，用卷积等价转换

ops-fft的调度器会根据你的FFT尺寸，动态选择用哪种模式。比如，你做100000点FFT（不是2的幂次），它会自动切到Bluestein模式，而不是硬用Cooley-Tukey导致性能下降。

cuFFT也支持Bluestein，但它的切换阈值是固定的。ops-fft的阈值是根据昇腾NPU的内存层次结构（L1 cache大小、HBM带宽）动态调的。

2. 流水线与双缓冲

昇腾NPU的达芬奇架构有一个特点：Vector单元和Matrix单元可以并行执行。

ops-fft的FFT算子充分利用了这个特性，用**双缓冲（Double Buffering）**技术：

第1块数据在Matrix单元做蝶形运算时
第2块数据在Vector单元做数据重排（bit-reversal）
两块数据的准备和计算过程完全重叠

cuFFT在GPU上也能做流水线，但GPU的调度是硬件调度器做的，软件层面的控制有限。昇腾NPU的调度器更偏向软件可控制，ops-fft就能做更激进的流水线优化。

3. 融合调度

这是最关键的一点。

在大模型场景下，FFT通常不是单独调用的，而是和FFT逆变换（IFFT）、矩阵乘法、激活函数一起用。

ops-fft的调度器支持算子融合调度：如果你连续调了FFT + 激活 + IFFT，调度器会把这3个算子的内存访问统一规划，减少HBM的读写次数。

举个例子，不做融合调度时：

FFT：读输入 → 算 → 写中间结果到HBM
激活：读中间结果 → 算 → 写结果到HBM
IFFT：读结果 → 算 → 写最终输出到HBM

做了融合调度后：

FFT：读输入 → 算 → 中间结果留在片上SRAM
激活：直接从SRAM读 → 算 → 结果留在SRAM
IFFT：直接从SRAM读 → 算 → 写最终输出到HBM

少了2次HBM读写，性能提升很明显。

实测数据：ops-fft vs cuFFT

我在Ascend 910上跑了几个常见FFT尺寸，和A100上的cuFFT 11.8对比：

FFT尺寸	数据类型	cuFFT (μs)	ops-fft (μs)	加速比
1024	f32	12.3	10.8	1.14x
16384	f32	89.7	72.4	1.24x
131072	f32	1120.5	898.3	1.25x
1024	f16	8.7	6.9	1.26x
16384	f16	62.1	51.7	1.20x

几个观察：

小尺寸FFT（1024点），ops-fft快14-26%，主要得益于双缓冲流水线
大尺寸FFT（131072点），ops-fft快25%，主要得益于动态调度选了更优的算法
f16比f32更快，因为昇腾NPU的f16计算吞吐更高，ops-fft的调度器也针对f16做了特化优化

怎么用ops-fft的FFT算子

使用很简单，直接调昇腾CANN的AscendCL接口就行：

// 初始化FFT算子
aclopHandle* handle;
aclopCreateHandle("FFT", &handle);

// 设置FFT参数
aclopSetAttrInt(handle, "n", 1024);  // FFT尺寸
aclopSetAttrInt(handle, "type", ACL_FFT_TYPE_C2C);  // 复数到复数

// 执行
aclopExecute(handle, num_inputs, inputs, num_outputs, outputs);

// 销毁
aclopDestroyHandle(handle);

如果你用的是PyTorch，昇腾的PyTorch适配已经帮你把torch.fft.fft映射到ops-fft的底层算子了，直接调用就行：

import torch

# 在昇腾NPU上执行FFT
x = torch.randn(1024, device='npu', dtype=torch.complex64)
y = torch.fft.fft(x)  # 底层调用ops-fft

踩坑提示：如果你用的是非2的幂次FFT尺寸（比如100000），建议用torch.fft.fft而不是自己写C++调用，因为Python接口会自动帮你选最优的调度策略。

总结

ops-fft的FFT算子比cuFFT快，不是因为某个神秘的硬件特性，而是因为调度策略更智能：

动态自适应调度：根据你的FFT尺寸实时选最优算法
双缓冲流水线：充分利用昇腾NPU的Vector+Matrix并行
融合调度：把连续多个算子的内存访问统一规划

如果你在昇腾上做信号处理、图像频域滤波、或者大模型里用FFT加速注意力，ops-fft的FFT算子值得一试。

当然，cuFFT在GPU上依然是很强的。这个对比不是要分个高下，而是想说：不同的硬件架构，需要不同的调度策略。昇腾NPU的架构特性，给了ops-fft做更激进调度优化的空间。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

FlashAttention 深度实践：四个实验验证性能收益

知道 FlashAttention 快是一回事，知道它，需要跑实验。这一篇用四个实验，量化 FlashAttention 在昇腾NPU 上的性能收益。每个实验都有完整代码，复制粘贴就能跑。

鲲鹏昇腾开发者社区

torchtitan-npu——在昇腾NPU上跑通PyTorch原生训练

鲲鹏昇腾开发者社区

昇腾NPU 的“后厨五人组“：CANN 架构原理一把抓

昨天晚上和做推理引擎的朋友吃饭，他问我：“昇腾NPU 的软件栈为什么这么复杂？我写CUDA 的时候，直接调用cuBLAS 就行，你们为什么要分五层？我想了一下，跟他说：“你把NPU 想象成一个超大的后厨。做一道菜（跑一个模型）需要五组人配合——每组人只做自己擅长的事，但缺了哪组都不行。他眼睛亮了：“继续说。