MindSpeed-LLM关键参数关系说明
worldsize = NNODES * NPUS_PER_NODE = DP * PP * TP * CPNNODES:服务器数量NPUS_PER_NODE:每台服务器NPU卡数MindSpeed-LLM没有配置数据并行DP的参数,是根据如下公式自动算出来的:DP = worldsize / (TP * PP * CP)注意:TP、PP、CP需手动配置,CP如果不配置默认是1DP = (NNOD
分布式并行策略关系说明
worldsize = NNODES * NPUS_PER_NODE = DP * PP * TP * CP
NNODES:服务器数量
NPUS_PER_NODE:每台服务器NPU卡数
MindSpeed-LLM没有配置数据并行DP的参数,是根据如下公式自动算出来的:
DP = worldsize / (TP * PP * CP)
注意:TP、PP、CP需手动配置,CP如果不配置默认是1
示例一:稠密模型

DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 2
示例二:稀疏模型

DP = (NNODES * NPUS_PER_NODE) / (TP * PP * CP) = 16
注意:EP不影响DP的计算,EP只影响MOE部分的专家分布
MBS、GBS、DP的关系说明
MBS:微批次大小,表示每个DP并行组内单次训练的样本量;
GBS:全局批次大小,表示分布式训练中跨设备的总训练样本量;
GA:梯度累积,表示每个DP并行组内处理多少个MBS后更新梯度;
MindSpeed-LLM没有配置梯度累积GA的参数,是根据如下公式自动算出来的:
GA = GBS / MBS / DP
iters、epochs、训练数据量的关系说明
iters:迭代步数;
epochs:训练轮数;
MindSpeed-LLM没有配置训练轮数epochs的参数,是根据如下公式自动算出来的:
epochs = GBS * iters / 训练数据集样本数量
s = GBS * iters / 训练数据集样本数量
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐


所有评论(0)