手把手教你跑AI专栏_鲲鹏昇腾开发者社区

手把手教你跑AI

高级技术专家与你共同探讨前沿理论问题，针对AI应用场景，提供可复用的工程化解决方案。

10篇内容

万卡集群训练任务挂了？别慌，这本秘籍帮你解决！

大规模AI集群运行过程中频繁因为各类硬件、软件故障导致训练任务中断，如何快速发现故障、缩短故障恢复时间MTTR成为提高AI集群可用度的重点方向。本文汇总了昇腾断点续训特性提供的故障检测、故障恢复能力以及面临的问题和挑战。

1083 

23 

鲲鹏昇腾开发者社区 · 2026-01-04 15:10:45

RLHF-PPO 昇腾训推共卡方案案例总结（下）

RLHF-PPO 昇腾训推共卡方案案例总结（下）

921 

鲲鹏昇腾开发者社区 · 2025-12-29 15:17:11

RLHF-PPO 昇腾训推共卡方案案例总结（上）

RLHF-PPO 昇腾训推共卡方案案例总结（上）

731 

鲲鹏昇腾开发者社区 · 2025-12-29 11:18:52

超节点FSDP2训练MOE大模型：GroupedMatmul NZ使能和性能收益分析

超节点FSDP2训练MOE大模型：GroupedMatmul NZ使能和性能收益分析

556 

鲲鹏昇腾开发者社区 · 2025-12-26 17:52:31

大规模训练集群性能问题（下降或抖动）分享及性能问题解决方案

大规模训练集群性能问题（下降或抖动）分享及性能问题解决方案

958 

鲲鹏昇腾开发者社区 · 2025-12-26 17:05:27

超节点FSDP2训练MoE大模型昇腾联创设计（下）

为了进一步挖掘 XTuner V1 训练方案的上限，实验室研究团队与华为昇腾技术团队在 Ascend A3 超节点上进行联合优化，充分利用超节点硬件特性，FSDP2首次在Qwen 235B MoE上实现了相比传统3D并行更高的 MFU（Model FLOPS Utilization，模型浮点运算利用率）。在理论算力落后 NVIDIA H800 近 20% 的情况下，最终实现训练吞吐超过 H800

1149 

鲲鹏昇腾开发者社区 · 2025-12-24 14:26:48

#深度学习 #人工智能

超节点FSDP2训练MoE大模型昇腾联创设计（上）

2025年9月8日，上海人工智能实验室开源书生大模型新一代训练引擎XTuner V1。XTuner V1 是伴随上海AI实验室“通专融合”技术路线的持续演进，以及书生大模型研发实践而成长起来的新一代训练引擎。相较于传统的 3D 并行训练引擎，XTuner V1 不仅能应对更加复杂的训练场景，还具备更快的训练速度，尤其在超大规模稀疏混合专家（MoE）模型训练中优势显著。

1502 

鲲鹏昇腾开发者社区 · 2025-12-24 14:26:23

未来原生稀疏Attention是block-wise or token-wise？

自上半年幻方发表NSA以来，原生稀疏Attention开始进入大众视野，直到十一之前DeepSeek-V3.2发布了DSA（DeepSeek Sparse Attention），原生稀疏Attention正式掀起应用热潮，当前已成为模型结构设计的重要考虑因素，然而稀疏Attention的未来趋势是block-wise还是token-wise稀疏，仍存在未知的发展可能，有待更进一步的检验。

788 

昇腾小粉丝 · 2025-12-22 09:38:41

如何定义大模型压缩技术？

摘要：随着大模型规模扩展和多模态应用发展，模型压缩技术面临新挑战。传统深度学习时代采用量化、剪枝等技术压缩10M-100M级模型，而大模型时代需针对LLM推理特性（Prefill计算密集、Decode访存密集）发展新型压缩方法。当前关键技术包括：1）权重量化（AWQ、GPTQ）降低访存开销；2）KVCache压缩（RazorAttention、KVQuant）优化序列处理；3）稀疏化技术（Spar

918 

昇腾小粉丝 · 2025-12-19 17:05:29

#人工智能 #昇腾

DartQuant：基于分布转换的旋转量化算法

由于INT4表达能力有限，以及大模型激活异常值分布显著，大模型W4A4 INT4量化面临严峻的精度损失风险。本文分析了旋转量化的数学原理，并提出了基于分布转换的旋转量化算法（DartQuant），通过激活数据分布的平坦化，可有效降低W4A4量化误差。

1181 

昇腾小粉丝 · 2025-12-19 17:03:45

#人工智能 #昇腾