昇腾精选月刊专栏_鲲鹏昇腾开发者社区

昇腾精选月刊

精选昇腾技术案例、优秀文章，定期分类发布。当前每月一刊，未来或增加频度为半月刊或周刊。

37篇内容

昇腾精选文章汇总

方向：CANN开源集成1 CANN7升级CANN8踩坑实录：解决HCCL超时与性能回退问题2 CANN 开源仓核心模块解析：仓库结构与功能定位深度剖析3 CANN 8 性能实测与优化：通信算子变化带来了什么？4 CANN 7升级到CANN 8常见问题与性能分析测评5 昇腾 CANN 开源仓核心模块深度解析：仓库结构与实战参与指南6 CANN开源仓Catlass横模库适配自定义模型踩坑录7 昇腾CA

45 

鲲鹏昇腾开发者社区 · 2026-01-12 11:31:20

昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法

从异构编程到 GEMM 算子调优，核心逻辑始终围绕 “让软件行为贴合硬件特性” 展开。具体来看，异构编程的核心在于明确 Host 与 Device 的分工边界，而 GEMM 作为核心算子，从按 Cube 单元尺寸分块以适配硬件计算粒度，到通过块布局优化提升内存访问效率，再到用双缓冲实现计算与数据搬运的并行、用 Swizzling 平衡内存带宽压力，每一步优化都是对硬件特性的深度适配。但实践也表明，

4.7w 

是Dream呀 · 2025-12-03 10:09:08

#华为 #人工智能 #CANN

CANN7升级CANN8踩坑实录：解决HCCL超时与性能回退问题

一、环境搭建在人工智能计算领域，昇腾CANN（Compute Architecture for Neural Networks）作为华为昇腾处理器的核心软件平台，其版本迭代对模型训练和推理性能有着重要影响。最近项目需要将昇腾环境从 CANN 7.0.1升级到 CANN 8.0 RC2，本以为只是常规的版本迭代，没想到在模型训练和推理性能上遇到不少“暗坑”。CANN 8 确实带来了更高效的算子执行和

1.1w 

橙子! · 2025-12-24 18:11:49

#人工智能 #云原生

深度解构 Catlass：昇腾高性能算子开发的 C++ 模板编程范式

华为推出的Catlass是昇腾NPU的高性能算子模板库，采用"配置即代码"理念替代传统手写指令的开发模式。该库通过五层抽象模型（Device、Kernel、Block、Tile、Basic）实现硬件透明化，开发者只需配置GemmShape和DispatchPolicy即可生成优化算子。核心特性包括形状驱动的数据切分、双缓冲调度策略，支持自定义数据搬运和访存优化，显著提升缓存利用

1.4w 

Archie_IT · 2025-12-26 16:55:48

Triton在昇腾NPU上的性能调优：内存优化指南

摘要：本文针对昇腾NPU算子开发中的性能瓶颈问题，重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率，并提出以下优化方法：1）确保连续访存避免带宽浪费；2）采用Block Swizzle技术提升L2缓存命中率；3）遵循128-bit内存对齐原则；4）合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析，通过Autotuner自动寻

6160 

徒步僧 · 2025-12-26 15:49:13

#人工智能 #大数据 #昇腾

Triton-Ascend 算子开发基础与实战指南

摘要：《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编，而Triton-Ascend结合Python编程便捷性与昇腾硬件特性（如AICore、UB缓存、Cube单元），提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异，并通过向量加法等实战案例，重点阐述了UB分配、Cube单元适配、内存调度等

5975 

徒步僧 · 2025-12-26 15:46:57

#java #spring #开发语言 +1

Catlass模板库：CANN开源仓编程实践与原生框架效率对比

本文深度解析昇腾CANN开源仓架构设计与核心能力，分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论，提供完整编译部署指南与故障排查方案。关键亮点包括：1）软硬协同的CANN中枢架构解析；2）SPMD并行编程实战案例；3）内存对齐/算子融合等性能调优技巧；4）msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过

5958 

深鱼~ · 2025-12-26 13:11:56

#开源

昇腾 CANN 开源仓实战指南：本地编译调试踩坑与性能优化全解析

Catlass实际架构包括：Device层屏蔽Host调用差异，Kernel层实现并行逻辑（如AICore上BlockTileM/BlockTileN循环），Block层封装BlockMmad（矩阵乘累加）、BlockEpilogue（后处理）等组件，Tile层支持灵活分片设置，Basic层对接昇腾硬件指令（如AscendC::Mmad）：GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”

5947 

深鱼~ · 2025-12-26 13:08:23

#开源

昇腾CANN开源仓生态体验与开源商业版差异深度解析

前端采用Ascend MindIE推理引擎，其具备高性能（降低时延1倍+、提升吞吐10倍+）、高易用（天级上线模型服务）、高可靠（容灾备份与故障恢复）及开放兼容（支持客户引擎定制）特性，适配Wan2.1多模态模型的生成推理需求。该案例以昇腾910B NPU×8卡为硬件底座，构建“前端推理引擎-中间层加速-硬件算力”的全栈架构，通过MindIE推理引擎、CANN 8.2.RC1中间层及AOL算子库的

5923 

小馒头学python · 2025-12-26 12:27:09

#开源 #CANN #昇腾

昇腾 CANN 开源仓核心模块深度解析：仓库结构与实战参与指南

CANN 开源仓核心模块深度解析：仓库结构与实战参与指南

8771 

fruge365 · 2025-12-26 12:20:11

#开源 #鸿蒙