方向:CANN开源集成
1 CANN7升级CANN8踩坑实录:解决HCCL超时与性能回退问题
2 CANN 开源仓核心模块解析:仓库结构与功能定位深度剖析
3 CANN 8 性能实测与优化:通信算子变化带来了什么?
4 CANN 7升级到CANN 8常见问题与性能分析测评
5 昇腾 CANN 开源仓核心模块深度解析:仓库结构与实战参与指南
6 CANN开源仓Catlass横模库适配自定义模型踩坑录
7 昇腾CANN开源仓与CATLASS模板库实战指南
8 CANN开源仓Catlass模板库核心能力与编程实战
9 昇腾 CANN 开源仓实战指南:本地编译调试踩坑与性能优化全解析
10 昇腾CANN开源仓生态体验与开源商业版差异深度解析
方向:Ascend C 编程
11 昇腾 NPU 异构编程与 GEMM 调优核心方法
12 Ascend C 异构编程环境搭建全流程指南
方向:Triton-Ascend
13 Triton-Ascend 算子开发经验谈:从入门到性能调优实战
14 Triton在昇腾NPU上的性能调优:内存优化指南
15 Triton-Ascend 算子开发基础与实战指南
16 昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查
方向:(MLIR) AscendNPU IR
17 基于 AscendNPU IR 的自定义优化案例:从问题定位到落地实践
18 基于 AscendNPU IR 的 HIVM 指令级调度自定义优化实战
方向:Catlass模板库
19 昇腾Catlass的算子优化:Transformer中小批量矩阵乘法优化与性能提升实践
20 深度解构 Catlass:昇腾高性能算子开发的 C++ 模板编程范式
21 Catlass 模板库编程范式:昇腾高性能算子开发新高地
22 Catlass 核心架构指南:问题驱动的设计
23 Catlass模板库:CANN开源仓编程实践与原生框架效率对比
24 深度解析昇腾Catlass:C++模板元编程与高性能算子开发范式
25 Catlass自定义算子开发:从模板到高性能实现
26 Catlass 模板库调试调优经验与踩坑记录
方向:Mind系列
27 ModelSlim:大模型量化推理调优利器
28 昇腾 RAG SDK 从入门到实战:技术解析与部署实操
29 昇腾ModelSlim工具:大模型量化推理优化实践指南
30 昇腾大模型量化实战:ModelSlim 工具上手与 W8A8 精度优化全流程解析
31 模型量化压缩技术全解析:从原理到落地的实践指南
32 MindSpeed MM多模态模型微调实战指南
33 从GPU到NPU:大模型部署的新选择——MindSpeed-LLM实战全记录
34 昇腾MindSpeed MM多模态大模型微调实战指南
35 基于MindIE的SDXL多模态大模型推理加速指南(从部署到50it/s优化)
方向:vLLM-Ascend
36 vLLM模型迁移昇腾平台实战:从GPU到NPU的完整部署流程
37 vLLM-Ascend 入门实战:昇腾 NPU 上的大模型推理部署全攻略
38 vLLM-ascend快速上手:从零到一部署Llama2推理服务
39 vLLM on Ascend 实战总结:从部署到性能调优的完整流程解析
40 如何在昇腾平台上部署与优化vLLM:高效推理与性能提升指南
41 昇腾平台 vLLM 部署与性能优化实战:高吞吐推理落地指南
42 vLLM-ascend:昇腾NPU大模型推理讲解与性能调优
43 vLLM-Ascend推理部署与性能调优深度实战指南:架构解析、环境搭建与核心配置
44 vLLM-ascend 下的 PD 分离实战:从DeepSeek-V3-w8a8模型到压测,一次把坑踩完
45 vLLM-ascend 推理部署与性能调优
46 vLLM-Ascend 性能调优与调试完全指南
47 SGLang+在昇腾+NPU+上的完整运行流程详解:从环境搭建到性能验证
48 深入探索vLLM-Ascend:开源仓库结构、环境部署与基础配置实践
49 vLLM-Ascend 部署推理服务化的实践记录
50 vLLM-Ascend 实战指南:从环境部署到性能调优的完整避坑手册
51 vLLM-Ascend 双机混部 DeepSeek-R1-671B-0528 W8A8 核心部署全流程解析
52 快速入门 vLLM-Ascend:开源仓结构、环境部署与基础配置
53 vLLM-Ascend 部署与推理服务化实战
54 PD分离部署实践:DeepSeek-V3-w8a8与 vLLM 的技术融合之路
55 让大模型在昇腾NPU上“起飞”:vLLM-Ascend调试调优全攻略
56 vLLM-Ascend 推理服务构建与优化
57 vLLM-Ascend 安装部署与环境配置指南
方向:Pytorch迁移
58 NVIDIA迁移昇腾踩坑记:为何数据拷贝成了“背锅侠”?(附1.5s→0.7s优化复盘)
59 昇腾NPU上编译Apex:从踩坑到搞定
60 PyTorch模型轻松迁移昇腾平台:BERT优化与RoPE自定义算子实战
61 从慢得离谱到性能翻倍:昇腾910B迁移小模型MobileNet避坑与调优实录
62 昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤
63 PyTorch模型迁移昇腾平台全流程:ResNet50实战指南
64 实操指南:PTA 融合算子结构化适配与上仓全流程
65 昇腾NPU适配Apex避坑指南:从编译失败到顺利安装
66 昇腾环境下Apex编译与部署全指南:从环境配置到问题解决
67 昇腾AI处理器混合精度训练利器——apex for Ascend编译与优化全解析
68 PyTorch 2.0 核心技术深度解析torch.compile 从原理到实践
69 从+NV+Apex+到+Apex+for+Ascend:混合精度训练在昇腾平台的适配与编译全流程解析
70 PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南
方向:强化学习
71 DanceGRPO+FLUX:多模态生成强化学习模型的高效
72 昇腾310P平台强化学习训练环境搭建实战:基于Qwen2.5-7B的完整部署流程
73 在昇腾平台上跑通DanceGRPO多模态强化学习的实战之旅
74 玩转DanceGRPO,让AI生成的图片越来越懂你
75 DanceGRPO框架实战笔记:从原理到昇腾平台落地的全流程探索
76 多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践
方向:调试调优类
78 基于昇腾平台的Qwen大模型推理部署实战:从模型转换到推理(含代码)
79 昇腾平台多模态微调与推理实战,从理论到落地的完整探索
80 从零到一,基于昇腾平台的多模态视频生成实战之旅
81 Qwen3 235B训练加速实战:详解GMM算子与 NZ格式的深度融合
82 手把手带你用MindSpeed-MM在昇腾910B上训练Qwen-VL:从环境搭建到Loss收敛
83 在大模型推理中避开 HostBound:一次IRQ中断-绑核优化的完整实战
84 大模型推理中IRQ中断优化:从机制解析到性能调优实践
85 昇腾平台多模态大模型微调实战之旅
86 昇腾实战_DeepSeek-R1-671B W8A8 昇腾NPU双机部署实战指南
87 GMM NZ 全流程详解实战:FSDP MOE 训练加速
88 当中断绑核遇上大模型推理:HostBound 问题优化全解析(昇腾深度实战版)
89 小模型在昇腾上如何比英伟达更快?一次实战告诉你答案
90 昇腾Atlas 800I A2部署Qwen2.5-7B实战记录

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐