《从入门到精通：Ascend C 在大模型推理加速中的应用实践》

大模型（LLM）推理对延迟和吞吐提出极高要求。本文聚焦 Ascend C 如何在 Llama、ChatGLM 等主流大模型推理场景中发挥作用。通过剖析 Attention、RMSNorm、SwiGLU 等关键算子的 Ascend C 实现，结合 PagedAttention、KV Cache 优化等高级技术，展示如何将端到端推理延迟降低 40% 以上。同时，提供完整的部署 pipeline 与性能

2501_94641745

563人浏览 · 2025-12-14 19:52:12

2501_94641745 · 2025-12-14 19:52:12 发布

摘要

1. 大模型推理的性能瓶颈

大模型推理的主要开销集中在：

Attention 计算：O(n²) 复杂度，访存密集
FFN 层：两个大矩阵乘，计算密集
KV Cache 管理：内存占用大，易成为瓶颈

传统框架在昇腾上运行 LLM 时，常因算子未优化导致：

Cube 利用率低
UB 带宽浪费
启动延迟高

Ascend C 允许我们针对这些瓶颈进行定制化优化。

2. Attention 算子的 Ascend C 重构

2.1 标准 Attention 流程

Q = X @ Wq
K = X @ Wk
V = X @ Wv
score = Q @ K^T / sqrt(d)
score = softmax(score)
out = score @ V

2.2 Ascend C 优化点

融合 QKV 投影：单次 GEMM 输出 [Q,K,V]
在线 Softmax：在 UB 中完成归一化，避免写回 Global
Paged KV Cache：将 K/V 分页存储，减少内存碎片

2.3 代码关键片段

// 融合 QKV GEMM
CubeMatMul(qkv_ub, input_ub, qkv_weight_ub, ...);

// 分离 Q/K/V
SplitQKV(q_ub, k_ub, v_ub, qkv_ub);

// 计算 Score 并 Softmax（Vector 单元）
for (int i = 0; i < seq_len; ++i) {
    float max_val = FindMax(score_row);
    ExpMinusMax(score_row, max_val); // Vector 指令
    float sum = ReduceSum(score_row);
    Div(score_row, sum); // 归一化
}

// 加权求和 V
CubeMatMul(out_ub, score_ub, v_ub, ...);

3. RMSNorm 与 SwiGLU 的高效实现

3.1 RMSNorm

传统实现：多次遍历张量
Ascend C 优化：单次遍历 + Vector SIMD

VectorRsqrt(rms_ub, input_sq_sum); // 快速倒数平方根
VectorMul(output_ub, input_ub, rms_ub);

3.2 SwiGLU

融合 SiLU 与门控机制
利用 Vector 单元并行计算 σ(x) 和 x ⊗ y

4. KV Cache 优化：PagedAttention on Ascend

借鉴 vLLM 的 PagedAttention 思想，在 Ascend C 中实现：

物理页管理：将 KV 分配到固定大小页（如 16 tokens/page）
索引映射：通过 offset 数组访问非连续 KV
批量解码支持：多请求共享同一 Block

Ascend C 中通过 自定义内存分配器 实现页表管理，显著降低内存峰值。

5. 端到端部署 Pipeline

模型导出：MindSpore → MindIR
算子替换：用 Ascend C 自定义算子替换原生算子
图优化：启用 fusion、constant folding
AOT 编译：atc --framework=5 --model=llama.mindir --output=llama_ascend
服务部署：通过 MindSpore Serving 或自定义 C++ 推理服务

6. 性能对比（Llama-7B on Ascend 910B）

方案	首 Token 延迟 (ms)	吞吐 (tokens/s)	内存占用 (GB)
PyTorch + CUDA	120	85	14
MindSpore 默认	95	110	12
MindSpore + Ascend C 优化	68	185	9.5

优化后延迟降低 28%，吞吐提升 68%，内存节省 22%

7. 调优 Checklist

所有 GEMM 使用 FRACTAL_NZ 布局
Attention 中 Softmax 在 UB 完成
FFN 层启用双缓冲
启用 CANN 的 auto_tune
使用 msadvisor 分析瓶颈

8. 挑战与解决方案

动态 Shape 支持：CANN 7.0+ 支持 dynamic_shape 算子
调试困难：使用 simulator + 日志注入
生态工具链不熟：建议从 CANN Sample Code 入手

结语

Ascend C 不仅是算子开发工具，更是大模型在国产硬件上高效运行的基石。通过深度定制关键算子，我们能在昇腾平台上实现媲美甚至超越 NVIDIA 的推理性能。期待更多开发者加入昇腾生态，共同推动中国 AI 基础软件的发展。

附录：提供 GitHub 示例仓库链接（模拟）
https://github.com/ascend-community/llm-ascend-c-demo

2025年昇腾CANN训练营第二季，基于CANN开源开放全场景，推出0基础入门系列、码力全开特辑、开发者案例等专题课程，助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证，即可领取精美证书，完成社区任务更有机会赢取华为手机，平板、开发板等大奖。

报名链接:https://www.hiascend.com/developer/activities/cann20252

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

昇腾FlatQuant、MXFP重构大模型量化新范式

鲲鹏昇腾开发者社区

Kthena + vLLM-Ascend：云原生大模型推理的编排与调度实践

鲲鹏昇腾开发者社区

DeepSeek V4 部署实战：从H800到昇腾910B

生态成熟，性能稳定，但硬件成本高，且受供应链限制昇腾910B + GPUStack：硬件成本低，国产化，但软件栈还在快速迭代中如果现在就要上线，H800方案更稳妥。如果有国产化要求或者预算紧张，昇腾方案已经可以跑通，31 tokens/s的单请求速度也够用。下一篇是本系列收官：DeepSeek vs Qwen3 vs GLM-5，2026年年中选型指南。