基于下一代Ascend平台的Ascend C算子编程课程已经开启！

昇腾CANN

481人浏览 · 2026-03-03 18:02:43

昇腾CANN · 2026-03-03 18:02:43 发布

大模型时代，算力需求正以前所未有的速度激增。如何开发出高性能的算子，充分释放每一分硬件潜能，已成为决定AI应用落地的关键一环。CANN推出的Ascend C算子编程语言，基于C/C++扩展，提供多层级编程接口，满足不同场景下的算子开发需求。伴随下一代Ascend平台的到来，Ascend C迎来全新升级。本周，我们特别推出“Ascend C算子编程”专题课程，带你系统掌握面向下一代Ascend平台的算子开发核心技能，真正驾驭新一代芯片的澎湃算力。

本次课程将从Ascend C的核心特性入手，帮助开发者全面了解下一代Ascend平台的编程模型，深入剖析SIMT编程、寄存器级（Reg）矢量编程、SIMD/SIMT混合编程、Cube矩阵编程，以及调试调优等关键技术。

Ascend C：下一代Ascend平台算子高性能编程解决方案

Ascend C是什么

Ascend C是CANN基于C/C++扩展推出的算子编程语言，延续C/C++开发习惯，提供多层级接口，让开发者能更高效地编写高性能算子。

遵循业界标准：Ascend C基于C/C++扩展，遵循C/C++标准规范，开发者可以将已有的C/C++编程经验应用于算子开发；
完备的编程能力：支持数据搬运、向量计算、矩阵运算等底层芯片编程能力，助你实现预期性能；
多级接口设计：构建多级接口，从完整算子样例的算子模板库、单核公共算法实现的高阶API到底层编程接口的C++基础API和语言扩展层层C API，Ascend C满足不同场景下算子开发诉求；
异构编程支持：支持异构编程和<<<>>>直调，匹配业界的开发习惯；
孪生调试能力：一套代码支持CPU/NPU孪生调试，开发者可以在CPU上验证算法基本逻辑，然后迁移到NPU上进行性能优化；

一、SIMT编程：匹配业界SIMT编程体验

业界通用的线程架构

下一代Ascend平台引入了SIMT（单指令多线程）编程能力，在SIMT编程模型下，开发者可以像业界通用的SIMT编程模型一样，基于线程块和线程的层次化模型进行算子开发，有SIMT编程经验的开发者可以快速上手。

在SIMT模式下，开发者可以通过线程块和线程的抽象来表达并行计算逻辑。硬件自动调度线程执行，开发者可以更专注于算法逻辑本身。这种设计降低了学习门槛，有助于扩大开发者群体。

下一代SIMT遵循业界通用的线程架构：Grid->Thread Block->Thread，每个Thread Block逻辑上最多可支持2048个线程。同时，在内存层级方面，下一代SIMT采用Global Memory、Shared Memory（UB）、寄存器三级内存模型，其中UB一部分作为Shared Memory，另外一部分用作SIMT的Data Cache。

二、Reg矢量编程：提供更细粒度的性能控制

寄存器级编程能力

对于追求极致性能的场景，开发者需要更细粒度的控制能力。

下一代Ascend平台引入了Reg矢量架构，新增了SIMD Register File存储层次。开发者可以直接对芯片的矢量寄存器进行操作，实现更精细的性能控制。

在传统的Memorybased架构下，数据需要先从全局内存搬运到UB，在UB中完成计算后再写回全局内存。Reg矢量架构允许数据直接在寄存器间进行计算，减少了内存访问开销。

为保持兼容性，Ascend C继续支持原来基于UB内存层级的计算接口；为满足极致性能需求，开发者可以选择将数据从UB搬入到寄存器进行计算。这种分层设计让开发者可以根据实际需求灵活选择。

三、SIMD/SIMT混合编程：灵活选择执行模式

适配不同计算场景

在实际的算子开发中，往往存在两种不同的计算模式：一种是规则的大规模数据计算，适合用SIMD向量化来处理；另一种是不规则的控制流、分支判断和离散访存，适合用SIMT来处理。

下一代Ascend平台的Vector计算单元可支持SIMD或SIMT，以VF（Vector Function）为粒度进行切换，开发者可以根据不同计算场景灵活选择最优的执行模式。

四、Cube矩阵编程：深耕矩阵计算性能

矩阵乘法（Matmul）是深度学习中最核心的计算操作，矩阵计算性能直接决定了整个模型的训练和推理效率。

当代AI加速器都配备了专门的矩阵计算单元（Cube），能够在一个时钟周期内完成大规模矩阵乘加运算。如何充分利用Cube单元的能力，是算子开发的关键课题。下一代Ascend平台的Cube矩阵计算单元进一步增强了计算能力，支持更丰富的数据类型（如MX FP4/MX FP8），更多的数据通路(如UB 到L1 Buffer，L0C Buffer到UB)，为大模型训练和推理提供了更强大的算力支撑。

Ascend C为Cube矩阵编程提供了完善的接口支持。同时，为便于内存布局的优化，开发者可以灵活定义数据的Shape和Stride，通过Layout机制优化数据排布，提升Tensor编程易用性。

五、调试调优：端到端的开发保障

工欲善其事，必先利其器

算子开发不同于普通应用开发，代码运行在专门的AI加速器上，调试和性能分析都面临更大的挑战。一个性能问题可能涉及硬件调度、内存访问、数据排布等多个层面，如果没有完善的工具支持，开发效率将大打折扣。

Ascend C提供了完整的调试调优工具链，提供可视化、调试、性能分析一体化支持，帮助开发者快速定位问题、理解性能瓶颈，并进行深度定制。

全方位的工具支持

在编译层面，Ascend C支持异构编译和直调，开发者可以通过命令行一键编译，也可以基于标准CMake脚本集成到现有项目。在调试层面，支持NPU和仿真环境测试，支持孪生调试和上板debug，支持数据dump和内存检测，支持算子反汇编。在性能分析层面，支持Profiling性能数据采集，包括MAC、带宽利用率等关键指标；支持Roofline瓶颈分析，帮助开发者定位计算瓶颈；支持指令流水图分析，直观展示执行效率。

同时，基于算子计算流和芯片硬件参数进行理论建模，提供极限性能分析、Buffer复用关系分析、数据切分设计和流水线编排优化等能力。这些工具的完善，让从“能写算子”到“能写好算子”的最后一公里变得更加平坦。

加入我们，直达技术前沿

本周课程将带领开发者系统学习Ascend C的核心技能，全面了解下一代Ascend平台的关键特性知识点。通过本次学习，你将：

深入了解下一代Ascend平台的Ascend C编程模型与技术特性，建立系统化知识体系；
获得从算法设计到高性能实现的端到端开发能力，支撑后续算子开发和优化；
掌握性能优化技巧，针对实际场景进一步调优；
加入CANN开源社区，与行业专家交流经验，共促生态繁荣。

立即加入本次课程在昇腾CANN视频号，B站观看直播回放，解锁Ascend C核心技能，让开发更高效，创新更自由，共创AI算力新纪元！

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

算力利用率超90%：昇腾NPU算力切分技术深度解析

鲲鹏昇腾开发者社区

昇腾强化学习基础理论与昇腾NPU代码实践

摘要：强化学习作为人工智能核心范式，通过智能体与环境交互实现自主决策优化。昇腾AI平台结合MindSpore框架和MindSpeed-RL引擎，构建了高性能强化学习训练体系。其核心理论基于马尔可夫决策过程，衍生出值函数和策略梯度两大算法分支。昇腾平台通过NPU硬件架构和MindSpeed-RL套件实现全链路优化，显著提升训练效率和显存利用率。GRPO算法作为昇腾生态主推方案，通过组内相对奖励基线简

鲲鹏昇腾开发者社区

昇思 MindSpore LLM 大模型预训练与微调原理及实战代码

摘要：华为昇思（MindSpore）作为国产深度学习框架，为大语言模型（LLM）提供高效训练方案。其核心技术包括：1）预训练阶段采用Transformer结构，通过自回归语言建模学习通用语言知识，支持自动并行等分布式训练技术；2）微调阶段原生集成LoRA等高效方法，仅需训练0.1%-1%参数即可适配垂直任务。昇思具备自动并行、昇腾芯片深度优化、静态图执行等特性，支持从预训练到轻量化微调的完整流程。