问题描述:

https://www.mindspore.cn/tutorials/application/zh-CN/r1.7/cv/resnet50.html使用该网站的jupyter notebook,在香橙派AI PRO 20T (12G)的Ubuntu 22.04.3 内核为5.10.0上使用自带的jupyter notebook运行,使用pip install mindvision安装mindvision,npu-smi info版本为23.0.0。逐条运行语句到训练步骤时报错。

解决方法:

早期版本的mindspore和代码不支持香橙派等其它310系列的设备上在线推理和训练,1.7的时候还没有香橙派,要mindspore2.2.12之后的版本才支持香橙派,还有mindvision已经过时了,早就不维护了,不建议再使用;建议使用目前最新版本的mindspore 2.5.0,cann版本安装8.0.RC3 alpha003,不要装8.0.beta1,不然可能有问题,对应cann版本和芯片型号的kernels算子包也要装好,resnet50的教程也使用最新版本的:

https://www.mindspore.cn/tutorials/zh-CN/r2.5.0/cv/transfer_learning.html

这个里面的代码是能运行的,但有几点要注意,因为香橙派是显存和内存共用的,那个resnet50的代码显存可能占用没多少,但是启动初始化和编译的过程要占用不少内存,12GB可能不够,所以通常需要开swap才能运行起来;由于开发板环境比较弱,CPU比较弱,算力也很有限,再加上swap的原因,训练代码运行起来比较慢,启动过程首次等待时间可能也在5分钟以上;还有不建议用notebook去跑,这样可能消耗更多资源,更容易出错,直接用python文件在终端运行比较好;在终端如果运行出错可以加上以下两个环境变量试试:

export MS_DEV_FORCE_ACL=1 

export MS_ENABLE_GE=1

不确定最新版本是不是必须加这两个才能跑resnet 50训练,一开始2.2.12版本的话是需要加的

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐