【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践
本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过
所有评论(0)