MindSpore大模型并行需要在对应的yaml里面做哪些配置

MindSpore大模型并行需要在对应的yaml里面做哪些配置。硬件环境(Ascend/GPU/CPU): Ascend。执行模式（PyNative/ Graph）: 不限。MindSpore版本: 2.2.0。

2401_85200798

449人浏览 · 2024-05-22 03:26:41

2401_85200798 · 2024-05-22 03:26:41 发布

1 系统环境

硬件环境(Ascend/GPU/CPU): Ascend

MindSpore版本: 2.2.0

执行模式（PyNative/ Graph）: 不限

2 报错信息

2.1 问题描述

MindSpore大模型并行需要在对应的yaml里面做哪些配置

3 解决方案

auto_trans_ckpt: True；
load_checkpoint: "" 路径到文件夹，模型并行需要把模型放在rank_0下面；
需要把mindformer/core/parallel_config.py下面的vocab_emb_dp那一行注释掉；
使用pipeline并行的时候，要求micro_batch_num>=pipeline_stage；
模型并行mp一般设置小一点，建议为2，如果设置过大可能存在通信问题。

#load_checkpoint: "/home/wizardcoder/1_wizardcoder-mindformers/outpu t/checkpoint/"  # 权重需要放在这个文件的rank_0下面: :

auto_trans_ckpt: True  # If true, auto transform load_checkpoint to load in distributed model

parallel_config:
  data_parallel: 1  # 4
  model_parallel: 1  # 8
  pipeline_stage: 8
  optimizer_shard: True
  micro_batch_num: 8
  vocab_emb_dp: True
  gradient_aggregation_group: 4

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏DevKit实战经验：从X86到ARM，代码迁移工具（Porting Advisor）的深度解析与实战指南

鲲鹏昇腾开发者社区

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D