昇腾精选文章汇总

鲲鹏昇腾开发者社区

79人浏览 · 2026-01-12 11:31:20

鲲鹏昇腾开发者社区 · 2026-01-12 11:31:20 发布

方向：CANN开源集成
1 CANN7升级CANN8踩坑实录：解决HCCL超时与性能回退问题
2 CANN 开源仓核心模块解析：仓库结构与功能定位深度剖析
3 CANN 8 性能实测与优化：通信算子变化带来了什么？
4 CANN 7升级到CANN 8常见问题与性能分析测评
5 昇腾 CANN 开源仓核心模块深度解析：仓库结构与实战参与指南
6 CANN开源仓Catlass横模库适配自定义模型踩坑录
7 昇腾CANN开源仓与CATLASS模板库实战指南
8 CANN开源仓Catlass模板库核心能力与编程实战
9 昇腾 CANN 开源仓实战指南：本地编译调试踩坑与性能优化全解析
10 昇腾CANN开源仓生态体验与开源商业版差异深度解析
方向：Ascend C 编程
11 昇腾 NPU 异构编程与 GEMM 调优核心方法
12 Ascend C 异构编程环境搭建全流程指南
方向：Triton-Ascend
13 Triton-Ascend 算子开发经验谈：从入门到性能调优实战
14 Triton在昇腾NPU上的性能调优：内存优化指南
15 Triton-Ascend 算子开发基础与实战指南
16 昇腾 Triton-Ascend 开源实战：架构解析、环境搭建与配置速查
方向：(MLIR) AscendNPU IR
17 基于 AscendNPU IR 的自定义优化案例：从问题定位到落地实践
18 基于 AscendNPU IR 的 HIVM 指令级调度自定义优化实战
方向：Catlass模板库
19 昇腾Catlass的算子优化：Transformer中小批量矩阵乘法优化与性能提升实践
20 深度解构 Catlass：昇腾高性能算子开发的 C++ 模板编程范式
21 Catlass 模板库编程范式：昇腾高性能算子开发新高地
22 Catlass 核心架构指南：问题驱动的设计
23 Catlass模板库：CANN开源仓编程实践与原生框架效率对比
24 深度解析昇腾Catlass：C++模板元编程与高性能算子开发范式
25 Catlass自定义算子开发：从模板到高性能实现
26 Catlass 模板库调试调优经验与踩坑记录
方向：Mind系列
27 ModelSlim：大模型量化推理调优利器
28 昇腾 RAG SDK 从入门到实战：技术解析与部署实操
29 昇腾ModelSlim工具：大模型量化推理优化实践指南
30 昇腾大模型量化实战：ModelSlim 工具上手与 W8A8 精度优化全流程解析
31 模型量化压缩技术全解析：从原理到落地的实践指南
32 MindSpeed MM多模态模型微调实战指南
33 从GPU到NPU：大模型部署的新选择——MindSpeed-LLM实战全记录
34 昇腾MindSpeed MM多模态大模型微调实战指南
35 基于MindIE的SDXL多模态大模型推理加速指南（从部署到50it/s优化）
方向：vLLM-Ascend
36 vLLM模型迁移昇腾平台实战：从GPU到NPU的完整部署流程
37 vLLM-Ascend 入门实战：昇腾 NPU 上的大模型推理部署全攻略
38 vLLM-ascend快速上手：从零到一部署Llama2推理服务
39 vLLM on Ascend 实战总结：从部署到性能调优的完整流程解析
40 如何在昇腾平台上部署与优化vLLM：高效推理与性能提升指南
41 昇腾平台 vLLM 部署与性能优化实战：高吞吐推理落地指南
42 vLLM-ascend：昇腾NPU大模型推理讲解与性能调优
43 vLLM-Ascend推理部署与性能调优深度实战指南：架构解析、环境搭建与核心配置
44 vLLM-ascend 下的 PD 分离实战：从DeepSeek-V3-w8a8模型到压测，一次把坑踩完
45 vLLM-ascend 推理部署与性能调优
46 vLLM-Ascend 性能调优与调试完全指南
47 SGLang+在昇腾+NPU+上的完整运行流程详解：从环境搭建到性能验证
48 深入探索vLLM-Ascend：开源仓库结构、环境部署与基础配置实践
49 vLLM-Ascend 部署推理服务化的实践记录
50 vLLM-Ascend 实战指南：从环境部署到性能调优的完整避坑手册
51 vLLM-Ascend 双机混部 DeepSeek-R1-671B-0528 W8A8 核心部署全流程解析
52 快速入门 vLLM-Ascend：开源仓结构、环境部署与基础配置
53 vLLM-Ascend 部署与推理服务化实战
54 PD分离部署实践:DeepSeek-V3-w8a8与 vLLM 的技术融合之路
55 让大模型在昇腾NPU上“起飞”：vLLM-Ascend调试调优全攻略
56 vLLM-Ascend 推理服务构建与优化
57 vLLM-Ascend 安装部署与环境配置指南
方向：Pytorch迁移
58 NVIDIA迁移昇腾踩坑记：为何数据拷贝成了“背锅侠”？（附1.5s→0.7s优化复盘）
59 昇腾NPU上编译Apex：从踩坑到搞定
60 PyTorch模型轻松迁移昇腾平台：BERT优化与RoPE自定义算子实战
61 从慢得离谱到性能翻倍：昇腾910B迁移小模型MobileNet避坑与调优实录
62 昇腾平台 PyTorch 迁移实操：从环境搭建到精度达标的完整步骤
63 PyTorch模型迁移昇腾平台全流程：ResNet50实战指南
64 实操指南：PTA 融合算子结构化适配与上仓全流程
65 昇腾NPU适配Apex避坑指南：从编译失败到顺利安装
66 昇腾环境下Apex编译与部署全指南：从环境配置到问题解决
67 昇腾AI处理器混合精度训练利器——apex for Ascend编译与优化全解析
68 PyTorch 2.0 核心技术深度解析torch.compile 从原理到实践
69 从+NV+Apex+到+Apex+for+Ascend：混合精度训练在昇腾平台的适配与编译全流程解析
70 PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南
方向：强化学习
71 DanceGRPO+FLUX:多模态生成强化学习模型的高效
72 昇腾310P平台强化学习训练环境搭建实战：基于Qwen2.5-7B的完整部署流程
73 在昇腾平台上跑通DanceGRPO多模态强化学习的实战之旅
74 玩转DanceGRPO，让AI生成的图片越来越懂你
75 DanceGRPO框架实战笔记：从原理到昇腾平台落地的全流程探索
76 多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践
方向：调试调优类
78 基于昇腾平台的Qwen大模型推理部署实战：从模型转换到推理（含代码）
79 昇腾平台多模态微调与推理实战，从理论到落地的完整探索
80 从零到一，基于昇腾平台的多模态视频生成实战之旅
81 Qwen3 235B训练加速实战：详解GMM算子与 NZ格式的深度融合
82 手把手带你用MindSpeed-MM在昇腾910B上训练Qwen-VL：从环境搭建到Loss收敛
83 在大模型推理中避开 HostBound：一次IRQ中断-绑核优化的完整实战
84 大模型推理中IRQ中断优化：从机制解析到性能调优实践
85 昇腾平台多模态大模型微调实战之旅
86 昇腾实战_DeepSeek-R1-671B W8A8 昇腾NPU双机部署实战指南
87 GMM NZ 全流程详解实战：FSDP MOE 训练加速
88 当中断绑核遇上大模型推理：HostBound 问题优化全解析（昇腾深度实战版）
89 小模型在昇腾上如何比英伟达更快？一次实战告诉你答案
90 昇腾Atlas 800I A2部署Qwen2.5-7B实战记录

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

银河麒麟ARM平台SQLite使用痛点复盘：主流客户端兼容性深度测评

鲲鹏昇腾开发者社区

[AI][昇腾950] Scalar 原子操作 (Atomic) 与注意事项

编号约束后果正确做法A1ATOM/RED 禁止访问栈地址异常只对 GM (OUT) 地址使用A2地址 bit[63:49] ≠ 0地址溢出异常确保地址在合法范围内A3地址未对齐到 type 大小对齐异常u32→4B 对齐, u64→8B 对齐A4cacheable 与 non-cacheable 地址相隔 < 4KB数据不一致地址规划预留 4KB 间隔A5ATOM/RED 计入 DSB.ALL 和