分布式并行策略关系说明

worldsize = NNODES * NPUS_PER_NODE = DP * PP * TP * CP
NNODES:服务器数量
NPUS_PER_NODE:每台服务器NPU卡数
MindSpeed-LLM没有配置数据并行DP的参数,是根据如下公式自动算出来的:
DP = worldsize / (TP * PP * CP)
注意:TP、PP、CP需手动配置,CP如果不配置默认是1

示例一:稠密模型

在这里插入图片描述

DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 2

示例二:稀疏模型

在这里插入图片描述

DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 16
注意:EP不影响DP的计算,EP只影响MOE部分的专家分布

MBS、GBS、DP的关系说明

MBS:微批次大小,表示每个DP并行组内单次训练的样本量;
GBS:全局批次大小,表示分布式训练中跨设备的总训练样本量;
GA:梯度累积,表示每个DP并行组内处理多少个MBS后更新梯度;
MindSpeed-LLM没有配置梯度累积GA的参数,是根据如下公式自动算出来的:
GA = GBS / MBS / DP

iters、epochs、训练数据量的关系说明

iters:迭代步数;
epochs:训练轮数;
MindSpeed-LLM没有配置训练轮数epochs的参数,是根据如下公式自动算出来的:
epochs = GBS * iters / 训练数据集样本数量
s = GBS * iters / 训练数据集样本数量

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐