CANN Ascend C算子调试工具链深度实战：cpu_run CPU模式仿真与npu_sim NPU仿真调试全流程解析及npuchk内存检查最佳实践

luozhen110

47人浏览 · 2026-06-14 18:02:11

luozhen110 · 2026-06-14 18:02:11 发布

前言

在基于CANN（Compute Architecture for Neural Networks）进行Ascend C算子开发的过程中，开发者面临的核心痛点之一是如何在缺乏昇腾NPU硬件环境的情况下完成算子逻辑的正确性与性能验证。传统的算子调试流程强依赖真实NPU设备，这给算子的早期开发、持续集成以及分布式团队协作带来了显著的资源瓶颈。asc-tools仓库作为CANN生态中专门针对Ascend C编程语言推出的配套调试工具链，提供了cpu_debug（CPU模式仿真）与npu_sim（NPU周期精确仿真）两套互补的调试路径，使开发者能够在通用x86服务器上完成算子逻辑的功能验证、精度比对以及内存安全的静态与运行时检查。cpu_debug工具本质上提供了一套CPU调试库文件，使得Ascend C源码可以通过通用GCC编译器编译得到在CPU上运行的算子二进制文件，从而在不依赖昇腾NPU硬件的前提下完成基本的功能和精度验证，并支持gdb调试、printf打印等成熟的调试手段。与此同时，npu_check工具则在cpu_debug的基础之上进一步提供了内存越界检查、多线程检查、内存生命周期管理、内存地址依赖管理以及同步事件管理等深层检测能力，帮助开发者在算子部署到真实NPU设备之前捕捉到潜在的内存安全与同步问题。

CPU模式仿真（cpu_debug）：无NPU硬件环境下的算子逻辑验证

Ascend C算子开发的第一道验证关卡是逻辑正确性。在传统的异构计算开发流程中，开发者需要将算子编译并部署到真实的加速硬件上才能验证其基本功能，这不仅要求每个开发者都配备昂贵的NPU硬件，还使得持续集成流水线难以在通用的x86构建服务器上运行算子测试用例。asc-tools仓库中的cpu_debug工具通过提供CPU调试库文件，彻底改变了这一工作流。其核心原理是将Ascend C算子中的核函数（Kernel）通过bisheng编译器的CPU调试模式进行转义，生成可在通用x86处理器上直接执行的可执行程序。这一过程对原有算子代码的影响极小，开发者仅需要在调用核函数的源文件中添加少量的条件编译宏，即可在CPU模式和NPU模式之间无缝切换。

cpu_debug的工作机制是为Ascend C编程模型中的各种设备侧接口（如LocalTensor操作、DataCopy、EnQue/DeQue等）提供CPU域的等价实现。当编译器在CPU调试模式下编译算子源码时，<<<>>>形式的核函数调用会被cpu_debug提供的头文件（cpu_debug_launch.h）转义为CPU上的函数调用，每个AI Core核的并行执行逻辑则通过fork子进程的方式来模拟。这种设计的优势在于开发者可以使用成熟的本地调试工具（如gdb）对算子进行单步执行、断点设置、调用栈查看以及变量 inspect，而这些调试能力在真实的NPU硬件上往往受到调试器成熟度和设备连接方式的限制。

以下代码块展示了一个典型的cpu_debug环境配置与编译运行流程，以Ascend 910B1（dav-2201架构）为目标平台：

// Step 1: 在调用核函数的源文件（如main.cpp）中添加条件编译头文件引用
#ifdef ASCENDC_CPU_DEBUG
#include "cpu_debug_launch.h"
#endif

#include "kernel_add.h"  // 算子Kernel头文件

int main() {
    // 准备测试数据
    std::vector<half> host_x(TILE_LENGTH * BLOCK_NUM);
    std::vector<half> host_y(TILE_LENGTH * BLOCK_NUM);
    std::vector<half> host_z(TILE_LENGTH * BLOCK_NUM);
    
    // 初始化输入数据
    for (size_t i = 0; i < host_x.size(); i++) {
        host_x[i] = static_cast<half>(i * 0.5);
        host_y[i] = static_cast<half>(i * 0.3);
    }
    
    // CPU模式下，<<<>>>会被转义为CPU函数调用
    // BLOCK_NUM对应NPU上的核数，在CPU上对应fork出的子进程数
    ASCENDC_CPU_RUN(AddCustom, BLOCK_NUM, 0, 0, host_x.data(), host_y.data(), host_z.data(), TILE_LENGTH);
    
    // 验证输出结果
    for (size_t i = 0; i < 16; i++) {
        printf("z[%zu] = %f\n", i, static_cast<float>(host_z[i]));
    }
    
    return 0;
}

对应的CMakeLists.txt配置与编译命令如下：

# CMakeLists.txt 关键配置片段
cmake_minimum_required(VERSION 3.16)
project(ascend_c_operator_cpu_debug)

# 设置Ascend C CPU运行模式
set(CMAKE_ASC_RUN_MODE "cpu" CACHE STRING "Run mode: cpu or npu")
set(CMAKE_ASC_ARCHITECTURES "dav-2201" CACHE STRING "NPU architecture: dav-2201 for Ascend 910B")

# 查找CANN包（CPU调试库由CANN toolkit提供）
find_package(AscendCL REQUIRED)
find_package(AscendCC REQUIRED)

# 添加可执行文件
add_executable(add_cpu_debug main.cpp kernel_add.cpp)

# 链接CPU调试库
target_include_directories(add_cpu_debug PRIVATE
    ${ASCENDCC_INCLUDE_DIRS}
    ${ASCENDCL_INCLUDE_DIRS}
)

target_link_libraries(add_cpu_debug PRIVATE
    ${ASCENDCC_CPU_DEBUG_LIBRARIES}
)

编译与运行命令：

# 创建构建目录并编译
mkdir -p build && cd build
cmake -DCMAKE_ASC_RUN_MODE=cpu \
      -DCMAKE_ASC_ARCHITECTURES=dav-2201 \
      ..
make -j$(nproc)

# 运行CPU模式下的算子可执行文件
./add_cpu_debug

# 使用gdb进行调试（需要设置follow-fork-mode以跟踪子进程）
gdb ./add_cpu_debug
# 在gdb交互界面中：
# (gdb) set follow-fork-mode child
# (gdb) break AddCustom
# (gdb) run
# (gdb) next
# (gdb) print xLocal[0]

cpu_debug工具采用条件编译与函数转义的双重机制来实现CPU模式仿真，而非要求开发者维护两套完全独立的代码路径。在头文件引用层面，使用#ifdef ASCENDC_CPU_DEBUG宏进行隔离，确保CPU调试相关的头文件引用在NPU模式编译时完全不参与编译，从而避免任何可能的二进制兼容性问题。在核函数调用层面，ASCENDC_CPU_RUN宏（或重载的<<<>>>语法）在CPU模式下被展开为对核函数的直接函数调用，并为每个"核"创建一个独立的子进程来模拟NPU上多个AI Core的并行执行语义。这种设计使得开发者可以在完全不修改算子Kernel源码（kernel_add.cpp等）的前提下，仅通过修改调用侧的少量代码和CMake编译选项，就在CPU仿真模式和真实NPU模式之间切换。更为关键的是，cpu_debug提供的CPU侧等价实现严格遵循Ascend C编程模型的语义规范（如Tensor内存管理、Queue操作、同步原语等），确保CPU仿真结果能够真实反映算子在同构NPU硬件上的行为。gdb调试时需要设置set follow-fork-mode child的原因在于：cpu_debug通过fork系统调用为每个模拟的AI Core核创建独立的子进程，而gdb默认只跟踪父进程；只有切换到子进程跟踪模式，开发者才能在核函数的实际实现代码（如AddCustom的Compute函数）内部设置断点并进行单步调试。

NPU仿真模式（npu_sim）：周期精确仿真与cpudebug断点调试

在CPU模式仿真验证了算子逻辑的正确性之后，开发者需要进一步验证算子在NPU硬件上的实际执行行为，特别是涉及硬件特定行为（如内存对齐要求、流水线并行、同步原语的实际效果等）的场景。asc-tools仓库中的cpudebug模块（位于cpudebug目录下）提供了NPU仿真调试能力，其核心是通过cycle-accurate（周期精确）仿真来模拟Ascend C算子在真实NPU硬件上的执行过程。与cpu_debug的纯功能仿真不同，npu_sim模式下的仿真器会模拟NPU的指令执行周期、内存访问延迟以及流水线行为，从而能够在更接近真实硬件的层面上发现潜在问题。

cpudebug模块的另一个核心能力是集成了gdb的断点调试支持。在npu_sim模式下，开发者可以使用gdb对Ascend C Kernel进行断点设置、单步执行以及变量查看，而调试的目标是运行在NPU仿真器上的算子代码。这一能力的实现依赖于cpudebug模块提供的调试接口，它在NPU仿真执行的过程中插入了调试钩子（debug hook），使得gdb能够通过这些钩子控制仿真器的执行并读取仿真状态下的内存和寄存器信息。对于复杂的算子逻辑（如涉及多次PipeBarrier、复杂的GM到UB数据传输流水线、或多核同步等场景），npu_sim提供的周期精确仿真和断点调试能力是定位硬件相关问题的关键手段。

以下代码块展示了一个在npu_sim模式下使用gdb进行Ascend C Kernel断点调试的完整流程：

# Step 1: 以npu_sim模式编译算子
# npu_sim模式通常需要借助asc-compile工具链或CMake配置来生成仿真可执行文件
mkdir -p build_sim && cd build_sim

# 使用asc-compile进行编译（npu_sim模式）
asc-compile --mode npu_sim \
            --arch dav-2201 \
            --kernel kernel_add.cpp \
            --simulator cpudebug \
            -o add_sim

# 或使用CMake配置（需要通过CANN提供的仿真工具链）
cmake -DCMAKE_ASC_RUN_MODE=npu_sim \
      -DCMAKE_ASC_ARCHITECTURES=dav-2201 \
      -DCMAKE_ASC_SIMULATOR=cpudebug \
      ..
make -j$(nproc)

# Step 2: 使用gdb启动npu_sim仿真调试会话
gdb ./add_sim

# Step 3: 在gdb交互界面中设置断点并调试
(gdb) set follow-fork-mode child
(gdb) break AddCustom::Compute
(gdb) break AddCustom::CopyIn
(gdb) run

# 程序在CopyIn断点处暂停后，查看LocalTensor内容
(gdb) print xLocal
(gdb) print yLocal

# 单步执行，观察DataCopy行为
(gdb) next
(gdb) next

# 继续执行到Compute函数
(gdb) continue
(gdb) print zLocal[0]@8

# 查看调用栈
(gdb) backtrace

# 查看仿真器模拟的NPU内存状态
(gdb) info registers

# Step 4: 调试完成后退出
(gdb) quit

对于涉及复杂内存操作和同步逻辑的算子，npu_sim的cycle-accurate仿真能够揭示CPU模式仿真无法发现的问题。以下示例展示了一个存在同步问题的算子代码片段，以及如何在npu_sim模式下通过调试发现该问题：

class SyncIssueKernel {
public:
    __aicore__ inline void Compute(int32_t progress) {
        // 从Queue中取出LocalTensor
        AscendC::LocalTensor<half> xLocal = inQueueX.DeQue<half>();
        AscendC::LocalTensor<half> yLocal = inQueueY.DeQue<half>();
        AscendC::LocalTensor<half> zLocal = outQueueZ.AllocTensor<half>();
        
        // 矢量计算
        AscendC::Add(zLocal, xLocal, yLocal, TILE_LENGTH);
        
        // 故意遗漏PipeBarrier导致的问题
        // 在真实NPU上，Vector计算完成后数据可能还未写回LocalTensor
        // 就被DataCopy读取，导致数据不一致
        // AscendC::PipeBarrier<AscendC::PIPE_V>();  // 遗漏的屏障
        
        // 将计算结果搬回GM
        outQueueZ.EnQue<half>(zLocal);
        AscendC::DataCopy(zGm[progress * TILE_LENGTH], zLocal, TILE_LENGTH);
        
        // 释放LocalTensor
        outQueueZ.FreeTensor(zLocal);
    }
};

npu_sim采用cycle-accurate仿真而非纯功能仿真的根本原因，在于Ascend C算子的最终执行目标是真实NPU硬件，而NPU硬件的行为不仅包含逻辑正确性，还包含时序正确性。在真实的昇腾NPU架构中，AI Core的矢量计算单元（Vector Unit）、矩阵计算单元（Cube Unit）以及数据搬运单元（MTE）通过流水线并行执行，不同Pipe之间的数据传递需要通过显式的PipeBarrier或Set/Wait事件同步来确保数据一致性。cpu_debug的纯功能仿真忽略了这些时序细节（因为在x86 CPU上，所有的内存操作都是严格按序执行的，或者由CPU的乱序执行引擎和内存一致性模型保证正确性），因此无法发现遗漏PipeBarrier或Set/Wait不匹配等硬件相关的问题。npu_sim通过周期精确仿真模拟了NPU的流水线行为和内存访问时序，使得这类问题在仿真阶段就能被捕捉。cpudebug模块集成gdb断点调试的设计，则是为了在这套仿真环境中提供与CPU调试一致的调试体验：开发者不需要学习新的调试器命令，直接使用熟悉的gdb工作流程即可对NPU仿真执行过程进行细粒度的控制。仿真器在每条关键指令（如DataCopy、PipeBarrier、SetFlag、WaitFlag等）执行前插入调试钩子，gdb通过这些钩子实现断点触发和状态查看。这种设计使得npu_sim不仅是一个仿真运行环境，更是一个具备完整可观测性的NPU调试平台。

npuchk内存越界检查与效率对比：编译时/运行时检测与mockcpp单元测试

在完成了cpu_debug和npu_sim的两级仿真调试之后，算子代码在功能和时序层面已经得到了较为充分的验证。然而，内存安全问题（如越界读写、重复释放、内存泄漏、未初始化内存读取等）往往具有隐蔽性强、复现困难的特点，尤其是在并行度较高的NPU计算场景中，内存错误可能导致 silently corrupted 的计算结果，而非立即崩溃。asc-tools仓库中的npuchk（NPU Check）工具专门针对Ascend C算子的内存安全与同步正确性提供了系统性的检查能力。npuchk的工作方式是在cpu_debug生成的log文件基础上进行离线分析，它钩挂了Ascend C框架中的内存管理接口（如AllocTensor、FreeTensor、InitBuffer等）以及同步接口（如SetFlag、WaitFlag、PipeBarrier等），在算子执行的过程中记录所有的内存操作和同步操作，并在执行结束后生成结构化的检查报告。

npuchk能够检测的内存相关问题涵盖了Ascend C编程中的常见错误模式。ErrorRead系列错误（ErrorRead1至ErrorRead4）分别对应非法内存读取（未申请或已释放）、可疑的无效数据读取（读取从未被写入过的内存）、读取越界（超出AllocTensor申请的有效范围）以及读取地址非32字节对齐（昇腾NPU的UB内存访问要求32字节对齐）。ErrorWrite系列错误（ErrorWrite1至ErrorWrite4）则对称地覆盖了非法内存写入、写入越界、重复写入（前一次写入的数据未被取走就被覆盖）以及写入地址对齐违规。此外，npuchk还检测同步问题（ErrorSync1至ErrorSync4，涵盖Pipe内缺少PipeBarrier、Pipe间缺少Set/Wait、Set/Wait不配对、EventID重复等）、内存泄漏（ErrorLeak）、内存重复释放（ErrorFree）以及Tensor生命周期管理错误（ErrorBuffer0至ErrorBuffer4）。这些检测在编译时（通过静态分析）和运行时（通过钩挂接口记录执行轨迹）两个层面同时工作，最大限度地提高了问题发现的覆盖率。

以下效率对比表格从多个维度量化了引入asc-tools工具链（特别是npuchk静态检查）前后的调试效率差异：

维度	使用前（仅依赖真实NPU硬件调试）	使用后（cpu_debug + npu_sim + npuchk）	差异来源
调试环境准备时间	需要申请NPU设备配额，平均等待时间2-5个工作日；环境搭建涉及驱动、固件、CANN包安装，耗时约2-4小时	x86服务器上安装CANN toolkit即可开始CPU模式调试，环境准备耗时约30分钟；npu_sim无需真实NPU	cpu_debug在纯CPU环境即可运行，消除NPU硬件依赖
问题发现到定位的平均耗时	在NPU上运行失败→查看NPU日志→猜测问题位置→修改代码→重新编译部署到NPU→重复，平均每个问题耗时1-3小时	npuchk在CPU模式运行后立即生成检查报告，明确指出错误类型（如ErrorWrite3）和触发位置（调用栈），平均每个问题耗时5-15分钟	npuchk提供精确的错误分类和调用栈信息，无需反复部署到NPU
内存越界类问题的发现率	依赖NPU运行时的错误日志或计算结果的数值异常，隐蔽的越界问题（如读取越界但未触发NPU异常）发现率低于30%	npuchk在每次内存操作时进行边界检查，越界问题发现率接近100%	npuchk钩挂所有内存操作接口，进行系统性的边界验证
同步错误（PipeBarrier/SetWait）的发现率	在真实NPU上表现为计算结果偶尔不正确（Heisenbug），极难稳定复现和定位，发现率低于15%	npu_sim的cycle-accurate仿真能稳定复现同步问题；npuchk的ErrorSync系列检查能直接标记缺失的屏障和事件配对错误，发现率约85%	npu_sim模拟时序行为；npuchk静态分析同步原语的使用模式
单元测试覆盖率	需要手动编写NPU侧测试框架，且测试需要在NPU设备上运行，单元测试覆盖率通常低于40%	基于cpu_debug，可使用mockcpp框架在x86服务器上编写和运行单元测试，覆盖率可提升至80%以上	mockcpp提供C++单元测试能力；cpu_debug使算子可在CPU上运行测试
多核GM内存踩踏问题的检测能力	多核并行写入GM的地址重叠问题在NPU上表现为偶发数据错误，需要精心构造测试数据才能复现	npuchk的GM内存多核踩踏检查功能记录每个核操作的GM地址范围，自动标记重叠写入，检测率约90%	npuchk在CPU仿真阶段记录GM访问模式，进行跨核地址重叠分析

mockcpp是asc-tools依赖的单元测试框架，位于third_party目录下。与常规的C++单元测试框架（如Google Test）不同，mockcpp专门针对C风格接口和C++模板代码进行了优化，支持mock自由函数、成员函数以及全局变量，这使得它可以用于测试Ascend C算子中对底层API的调用行为。在asc-tools的tests目录下，大量的单元测试用例基于mockcpp编写，覆盖了cpudebug库的各种边界情况（如异常的内存申请释放序列、不对齐的内存访问、多线程并发调用等）。这些单元测试可以在x86服务器上通过bash build.sh --test命令一键批跑，为asc-tools本身的代码质量提供了保障。对于Ascend C算子开发者而言，也可以参考这一模式，使用mockcpp为自己的算子编写单元测试，在CPU模式下完成高覆盖率的自动化测试。

以下代码块展示了一个使用mockcpp编写Ascend C算子单元测试的示例框架：

// 测试用例示例：验证Add算子的CPU模式执行结果正确性
#include <mockcpp/mockcpp.hpp>
#include "gtest/gtest.h"
#include "kernel_add.h"

// 使用mockcpp mock底层内存管理接口进行测试
TEST(AddKernelTest, CpuModeCorrectness) {
    const int32_t TILE_LENGTH = 128;
    const int32_t BLOCK_NUM = 4;
    
    // 准备测试数据
    std::vector<half> host_x(TILE_LENGTH * BLOCK_NUM);
    std::vector<half> host_y(TILE_LENGTH * BLOCK_NUM);
    std::vector<half> host_z(TILE_LENGTH * BLOCK_NUM);
    std::vector<half> expected_z(TILE_LENGTH * BLOCK_NUM);
    
    // 初始化输入数据和期望结果
    for (int32_t i = 0; i < TILE_LENGTH * BLOCK_NUM; i++) {
        host_x[i] = static_cast<half>(i * 0.5);
        host_y[i] = static_cast<half>(i * 0.3);
        expected_z[i] = host_x[i] + host_y[i];
    }
    
    // 在CPU模式下调用算子
    ASCENDC_CPU_RUN(AddCustom, BLOCK_NUM, 0, 0, 
                    host_x.data(), host_y.data(), host_z.data(), TILE_LENGTH);
    
    // 验证输出结果与期望值的误差在允许范围内
    for (int32_t i = 0; i < TILE_LENGTH * BLOCK_NUM; i++) {
        float actual = static_cast<float>(host_z[i]);
        float expected = static_cast<float>(expected_z[i]);
        float rel_error = std::abs(actual - expected) / (std::abs(expected) + 1e-6);
        EXPECT_LT(rel_error, 1e-3) << "Mismatch at index " << i 
                                   << ": actual=" << actual 
                                   << ", expected=" << expected;
    }
}

// 测试用例：验证npuchk能够捕捉内存越界问题
TEST(AddKernelTest, NpuCheckMemoryBounds) {
    // 此测试验证当算子存在内存越界时，npuchk日志中会记录对应的Error
    // 实际项目中，可以通过解析_npuchk.log文件来进行自动化断言
    // 这里展示测试的结构框架
    
    // 构造一个存在越界访问的算子变体（需要通过单独的可执行文件触发）
    // 运行CPU模式调试并生成npuchk日志
    // 使用npuchk/ascendc_npuchk_report.py解析日志
    // ASSERT_TRUE(日志中包含ErrorRead3或ErrorWrite2)
}

npuchk采用"运行时记录+离线分析"的两阶段设计，而非在运行时直接报错终止执行，这是为了最大化调试信息的完整性。在运行时记录阶段，npuchk钩挂所有内存和同步接口，将每次操作的类型、地址、大小、调用栈等信息记录到log文件中，而不中断算子的执行流程。这使得开发者可以在一次运行中获得算子中存在的所有问题（而非仅第一个问题），对于同时存在多个内存违规的复杂算子而言，这种全量报告的设计显著减少了调试迭代次数。离线分析阶段通过ascendc_npuchk_report.py脚本解析log文件，将原始记录转换为结构化的错误分类报告。该脚本支持指定单个log文件或自动搜索当前路径下的所有_npuchk.log文件，适配了多核算子每个核生成一个独立log文件的场景。mockcpp的引入则为Ascend C算子提供了在x86 CPU上的单元测试能力，这对于持续集成场景尤为关键：传统的NPU算子单元测试需要真实的NPU设备，而CI/CD流水线通常运行在通用的x86构建服务器上；通过cpu_debug + mockcpp的组合，算子单元测试可以完全在CPU上执行，使得CI/CD流水线能够自动化地验证每次代码提交的正确性。效率对比表格中列出的各项差异，本质上都源于asc-tools将算子调试从"NPU硬件依赖型"转变为"CPU仿真优先型"的工作流重构。

融合编译与工具链集成：CMakeASCInformation.cmake配置与SIM/NPU模式切换

asc-tools不仅提供独立的调试工具，还通过CMakeASCInformation.cmake等构建系统集成文件，将cpu_debug、npu_sim、npuchk等工具深度集成到基于CMake的算子构建流程中。这种集成使得开发者可以通过统一的CMake选项在CPU仿真模式、NPU仿真模式以及真实NPU模式之间进行切换，而无需维护多套构建配置。CMakeASCInformation.cmake文件（位于cmake/modules目录下）定义了诸如CMAKE_ASC_RUN_MODE（运行模式：cpu或npu）、CMAKE_ASC_ARCHITECTURES（目标NPU架构：如dav-2201、dav-3510等）、CMAKE_ASC_SIMULATOR（仿真器类型：如cpudebug）等关键编译选项，并负责根据这些信息自动配置正确的头文件路径、链接库路径以及编译宏定义。

融合编译（Fusion Compilation）是CANN工具链提供的一种编译模式，它允许将多个相关的算子融合为一个内核来执行，以减少内存带宽消耗并提升计算效率。在融合编译的场景下，算子的调试复杂度进一步增加，因为融合内核的行为涉及多个算子之间的数据流衔接。asc-tools中的msobjdump工具专门针对融合编译生成的算子ELF文件提供了反汇编和解析能力，帮助开发者理解融合编译器的输出并最终定位问题。msobjdump能够解析算子ELF文件中的各个段（section），提取出算子类型信息、输入输出Tensor描述、以及融合编译后的内核代码布局，并将这些信息以可读的形式呈现给开发者。

以下代码块展示了如何通过CMakeASCInformation.cmake配置在CPU仿真模式和NPU仿真模式之间进行切换，以及如何集成npuchk检查：

# CMakeLists.txt - 完整的asc-tools工具链集成示例
cmake_minimum_required(VERSION 3.16)
project(ascend_c_operator_with_asc_tools)

# ========== 编译选项定义 ==========
# 运行模式：cpu（CPU仿真）或 npu（真实NPU）或 npu_sim（NPU仿真）
set(RUN_MODE "cpu" CACHE STRING "Execution mode: cpu, npu, or npu_sim")
set(ASCEND_ARCH "dav-2201" CACHE STRING "NPU architecture version")
set(ENABLE_NPU_CHECK OFF CACHE BOOL "Enable npuchk memory and sync checking")

# ========== CANN包查找 ==========
find_package(AscendCL REQUIRED)
find_package(AscendCC REQUIRED)

# ========== 根据运行模式配置编译选项 ==========
if(RUN_MODE STREQUAL "cpu")
    # CPU仿真模式配置
    message(STATUS "Configuring for CPU simulation mode (cpu_debug)")
    add_definitions(-ASCENDC_CPU_DEBUG)
    set(ASCENDCC_CPU_DEBUG_MODE ON)
    
    # CPU模式不需要NPU驱动，但需要一个支持C++17的GCC编译器
    find_package(GCC REQUIRED)
    
elseif(RUN_MODE STREQUAL "npu_sim")
    # NPU仿真模式配置
    message(STATUS "Configuring for NPU simulation mode (npu_sim with cpudebug)")
    # npu_sim模式使用bisheng编译器的仿真后端
    set(ASCENDCC_SIMULATOR "cpudebug")
    
elseif(RUN_MODE STREQUAL "npu")
    # 真实NPU模式配置
    message(STATUS "Configuring for real NPU mode")
    # 真实NPU模式需要NPU驱动和固件
    
endif()

# ========== npuchk集成 ==========
if(ENABLE_NPU_CHECK)
    message(STATUS "npuchk memory checking is ENABLED")
    add_definitions(-DASCENDC_NPU_CHECK)
    # npuchk的头文件路径（假设asc-tools已安装到CANN包路径）
    include_directories(${ASCEND_TOOLKIT_HOME}/tools/npuchk/include)
endif()

# ========== 算子Kernel源文件 ==========
set(KERNEL_SOURCES
    kernels/add_custom.cpp
    kernels/matmul_custom.cpp
)

# ========== 主机侧调用代码 ==========
set(HOST_SOURCES
    main.cpp
    operator_host.cpp
)

# ========== 构建目标 ==========
if(RUN_MODE STREQUAL "cpu")
    # CPU模式：生成标准的可执行文件
    add_executable(operator_cpu ${HOST_SOURCES} ${KERNEL_SOURCES})
    target_link_libraries(operator_cpu ${ASCENDCC_CPU_DEBUG_LIBRARIES})
    
else()
    # NPU/NPU_SIM模式：生成NPU可执行文件（.o/.elf）
    # 使用asc-compile工具进行编译
    add_custom_target(operator_npu ALL
        COMMAND asc-compile --mode=${RUN_MODE}
                           --arch=${ASCEND_ARCH}
                           --kernel=${KERNEL_SOURCES}
                           --output=operator_npu.elf
        DEPENDS ${KERNEL_SOURCES} ${HOST_SOURCES}
        COMMENT "Compiling operator for NPU mode using asc-compile"
    )
endif()

# ========== 自定义目标：运行npuchk检查 ==========
if(ENABLE_NPU_CHECK)
    add_custom_target(npuchk_check
        COMMAND python3 ${ASCEND_TOOLKIT_HOME}/tools/npuchk/ascendc_npuchk_report.py
        WORKING_DIRECTORY ${CMAKE_BINARY_DIR}
        COMMENT "Running npuchk analysis on npuchk log files"
    )
endif()

对应的编译与模式切换命令：

# 场景1：CPU仿真模式编译并运行
mkdir -p build_cpu && cd build_cpu
cmake -DRUN_MODE=cpu \
      -DASCEND_ARCH=dav-2201 \
      -DENABLE_NPU_CHECK=ON \
      ..
make -j$(nproc)
./operator_cpu
# 运行完成后，执行npuchk检查
python3 ${ASCEND_TOOLKIT_HOME}/tools/npuchk/ascendc_npuchk_report.py

# 场景2：NPU仿真模式（npu_sim with cpudebug）
mkdir -p build_sim && cd build_sim
cmake -DRUN_MODE=npu_sim \
      -DASCEND_ARCH=dav-2201 \
      ..
make -j$(nproc)
# 使用gdb调试npu_sim
gdb ./operator_npu_sim

# 场景3：真实NPU模式编译并部署
mkdir -p build_npu && cd build_npu
cmake -DRUN_MODE=npu \
      -DASCEND_ARCH=dav-2201 \
      ..
make -j$(nproc)
# 将生成的.elf文件部署到NPU设备执行

asc-tools还与asc-devkit仓库协同工作。asc-devkit提供了Ascend C编程语言的编译工具链（如msopgen，用于生成算子工程框架）、内核调试工具以及算子性能分析工具。asc-tools中的msserv工具（Show Kernel Debug Data）可以解析通过AscendC::DumpTensor和AscendC::Print接口保存的Kernel侧调试信息，这些接口在算子开发过程中用于输出中间Tensor数据和关键变量值，是理解算子内部行为的重要手段。在没有msserv工具的情况下，开发者需要手动解析DumpTensor生成的二进制文件，这不仅繁琐而且容易出错。msserv工具提供了结构化的解析输出，将二进制调试数据转换为可读的文本或JSON格式，方便开发者进行离线分析或与自动化测试框架集成。

CMakeASCInformation.cmake采用统一的CMake选项来驱动不同运行模式的配置，而非要求开发者编写多套独立的构建脚本，这是为了降低工具链的使用门槛并减少配置错误。在真实的工程实践中，Ascend C算子的构建配置涉及大量的编译宏、头文件路径、链接库路径以及特定于NPU架构的编译选项（如指令集版本、L1/L2缓存大小、UB内存容量等），手动维护这些配置极易导致CPU模式和NPU模式的构建文件不同步，进而引入难以追踪的问题。通过将所有的模式相关配置封装到CMakeASCInformation.cmake中，并以清晰的CMake选项（RUN_MODE、ASCEND_ARCH等）暴露给开发者，asc-tools确保了无论选择哪种运行模式，底层的编译配置都是正确且一致的。融合编译场景下的工具链集成则进一步体现了这一设计的价值：融合编译生成的ELF文件结构比单一算子更为复杂，msobjdump工具通过与CMake构建系统的集成，可以在编译完成后自动对生成的ELF文件进行反汇编和解析，并将解析结果作为构建产物的一部分提供给开发者。npuchk的集成同样遵循这一原则：通过ENABLE_NPU_CHECKCMake选项，开发者可以在CPU模式编译时选择性地启用npuchk检查，而无需修改任何算子源码。这种"可组合、可切换、与构建系统深度集成"的工具链设计理念，使得asc-tools能够适应从快速原型验证到生产级算子开发的各种场景。

结尾

asc-tools作为CANN生态中Ascend C算子调试的关键工具链，通过cpu_debug、npu_sim、npuchk、msobjdump以及show_kernel_debug_data等工具的有机组合，构建了一套从CPU功能仿真到NPU周期精确仿真、从运行时内存安全检查到离线调试数据分析的完整调试体系。这套工具链的核心价值在于它将算子调试的工作流从传统的"编码-编译-部署到NPU-运行-查看日志-修改代码"的慢速迭代循环，转变为"编码-CPU仿真调试（cpu_debug）-npuchk静态检查-可选NPU仿真验证（npu_sim）-部署到NPU"的分层验证流程，其中前三个步骤完全不依赖真实NPU硬件，可以在通用的x86开发服务器上完成。这种分层验证策略不仅减少了对NPU硬件资源的依赖，还通过npuchk的系统化内存和同步检查能力提高了算子代码的质量下限。对于从事Ascend C算子开发的工程师而言，深入理解asc-tools各组件的工作原理和使用场景，并将其集成到日常的开发和持续集成流程中，是提升算子开发效率和代码可靠性的重要途径。asc-tools与asc-devkit的协同工作关系进一步扩大了这一工具链的覆盖范围，从算子编程框架生成、调试、性能分析到部署形成了完整的工具生态。随着Ascend C编程语言在昇腾AI生态中的深入应用，asc-tools这类底层调试工具的价值将持续显现。

仓库地址：https://atomgit.com/cann/asc-tools