登录社区云,与社区用户共同成长
邀请您加入社区
方向:CANN开源集成1 CANN7升级CANN8踩坑实录:解决HCCL超时与性能回退问题2 CANN 开源仓核心模块解析:仓库结构与功能定位深度剖析3 CANN 8 性能实测与优化:通信算子变化带来了什么?4 CANN 7升级到CANN 8常见问题与性能分析测评5 昇腾 CANN 开源仓核心模块深度解析:仓库结构与实战参与指南6 CANN开源仓Catlass横模库适配自定义模型踩坑录7 昇腾CA
从异构编程到 GEMM 算子调优,核心逻辑始终围绕 “让软件行为贴合硬件特性” 展开。具体来看,异构编程的核心在于明确 Host 与 Device 的分工边界,而 GEMM 作为核心算子,从按 Cube 单元尺寸分块以适配硬件计算粒度,到通过块布局优化提升内存访问效率,再到用双缓冲实现计算与数据搬运的并行、用 Swizzling 平衡内存带宽压力,每一步优化都是对硬件特性的深度适配。但实践也表明,
一、环境搭建在人工智能计算领域,昇腾CANN(Compute Architecture for Neural Networks)作为华为昇腾处理器的核心软件平台,其版本迭代对模型训练和推理性能有着重要影响。最近项目需要将昇腾环境从 CANN 7.0.1升级到 CANN 8.0 RC2,本以为只是常规的版本迭代,没想到在模型训练和推理性能上遇到不少“暗坑”。CANN 8 确实带来了更高效的算子执行和
华为推出的Catlass是昇腾NPU的高性能算子模板库,采用"配置即代码"理念替代传统手写指令的开发模式。该库通过五层抽象模型(Device、Kernel、Block、Tile、Basic)实现硬件透明化,开发者只需配置GemmShape和DispatchPolicy即可生成优化算子。核心特性包括形状驱动的数据切分、双缓冲调度策略,支持自定义数据搬运和访存优化,显著提升缓存利用
摘要:本文针对昇腾NPU算子开发中的性能瓶颈问题,重点分析了内存访问优化的关键策略。文章指出80%-90%的性能问题源于内存访问效率,并提出以下优化方法:1)确保连续访存避免带宽浪费;2)采用Block Swizzle技术提升L2缓存命中率;3)遵循128-bit内存对齐原则;4)合理管理UB空间和流水线调度。同时强调使用npu-smi和msprof等工具进行性能分析,通过Autotuner自动寻
摘要:《Triton-Ascend算子开发基础与实战指南》介绍了基于昇腾NPU的高效算子开发方法。传统昇腾算子开发需手写ASCENDC/汇编,而Triton-Ascend结合Python编程便捷性与昇腾硬件特性(如AICore、UB缓存、Cube单元),提供更优的开发体验。文章详细解析了昇腾特化的SPMD模型、核心概念差异,并通过向量加法等实战案例,重点阐述了UB分配、Cube单元适配、内存调度等
本文深度解析昇腾CANN开源仓架构设计与核心能力,分享13年异构计算实战经验。内容涵盖CANN分层架构、AscendC核函数开发、性能优化方法论,提供完整编译部署指南与故障排查方案。关键亮点包括:1)软硬协同的CANN中枢架构解析;2)SPMD并行编程实战案例;3)内存对齐/算子融合等性能调优技巧;4)msprof工具链深度使用方法。通过实测数据展示GroupGEMM算子性能提升23.5%的优化过
Catlass实际架构包括:Device层屏蔽Host调用差异,Kernel层实现并行逻辑(如AICore上BlockTileM/BlockTileN循环),Block层封装BlockMmad(矩阵乘累加)、BlockEpilogue(后处理)等组件,Tile层支持灵活分片设置,Basic层对接昇腾硬件指令(如AscendC::Mmad):GroupGEMM的精髓在于“一次内核启动处理所有矩阵组”
前端采用Ascend MindIE推理引擎,其具备高性能(降低时延1倍+、提升吞吐10倍+)、高易用(天级上线模型服务)、高可靠(容灾备份与故障恢复)及开放兼容(支持客户引擎定制)特性,适配Wan2.1多模态模型的生成推理需求。该案例以昇腾910B NPU×8卡为硬件底座,构建“前端推理引擎-中间层加速-硬件算力”的全栈架构,通过MindIE推理引擎、CANN 8.2.RC1中间层及AOL算子库的
CANN 开源仓核心模块深度解析:仓库结构与实战参与指南