MindSpeed-LLM关键参数关系说明

worldsize = NNODES * NPUS_PER_NODE = DP * PP * TP * CPNNODES：服务器数量NPUS_PER_NODE：每台服务器NPU卡数MindSpeed-LLM没有配置数据并行DP的参数，是根据如下公式自动算出来的：DP = worldsize / (TP * PP * CP)注意：TP、PP、CP需手动配置，CP如果不配置默认是1DP = (NNOD

wy746801669wy

671人浏览 · 2025-07-04 15:02:11

wy746801669wy · 2025-07-04 15:02:11 发布

分布式并行策略关系说明

worldsize = NNODES * NPUS_PER_NODE = DP * PP * TP * CP
NNODES：服务器数量
NPUS_PER_NODE：每台服务器NPU卡数
MindSpeed-LLM没有配置数据并行DP的参数，是根据如下公式自动算出来的：
DP = worldsize / (TP * PP * CP)
注意：TP、PP、CP需手动配置，CP如果不配置默认是1

示例一：稠密模型

在这里插入图片描述

DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 2

示例二：稀疏模型

在这里插入图片描述

DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 16
注意：EP不影响DP的计算，EP只影响MOE部分的专家分布

MBS、GBS、DP的关系说明

MBS：微批次大小，表示每个DP并行组内单次训练的样本量；
GBS：全局批次大小，表示分布式训练中跨设备的总训练样本量；
GA：梯度累积，表示每个DP并行组内处理多少个MBS后更新梯度；
MindSpeed-LLM没有配置梯度累积GA的参数，是根据如下公式自动算出来的：
GA = GBS / MBS / DP

iters、epochs、训练数据量的关系说明

iters：迭代步数；
epochs：训练轮数；
MindSpeed-LLM没有配置训练轮数epochs的参数，是根据如下公式自动算出来的：
epochs = GBS * iters / 训练数据集样本数量
s = GBS * iters / 训练数据集样本数量

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏DevKit实战经验：从X86到ARM，代码迁移工具（Porting Advisor）的深度解析与实战指南

鲲鹏昇腾开发者社区

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D