昇思学习营-开发版-模型开发与适配
所以本次选用DeepSeek-R1-Distill-Qwen-1.5B进行走通全流程,此为最小规模的DeepSeek蒸馏模型。大模型V3和R1虽然强大,但是需要的资源比较多,成本高:8张141GB显存的NVIDIA H200GPU,允许成本高。开启同步排除问题命令:mindspore.set_content(pynative_synchronize=True)此处主要区分镜像有两个版本要对应。8-
·
大模型V3和R1虽然强大,但是需要的资源比较多,成本高:8张141GB显存的NVIDIA H200GPU,允许成本高。
所以本次选用DeepSeek-R1-Distill-Qwen-1.5B进行走通全流程,此为最小规模的DeepSeek蒸馏模型。

开发步骤:
此处主要区分镜像有两个版本要对应。8-12T和20T两个版本。
网络调试中:
开启同步排除问题命令:mindspore.set_content(pynative_synchronize=True)
损失函数报错处理流程:

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐

所有评论(0)