数据集 Dataset学习

1.数据集加载

因为mindspore.dataset只支持解压后的数据文件,所以需要下将下载的数据进行解压。

2.数据集的迭代

再进入神经网络训练前,一般采取迭代方式来获取数据。

3.数据集常用操作

(1)shuffle 数据集随机函数,消除数据排列造成的分布不均问题。

(2)map可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集.

(3)batch 用于将数据集进行打包固定大小

4.自定义数据集

可以通过构造自定义数据加载类或函数来生成数据集

可随机访问数据集是实现了__getitem____len__方法的数据集,表示可以通过索引/键直接访问对应位置的数据样本。

可迭代的数据集是实现了__iter____next__方法的数据集,表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。

生成器也属于可迭代的数据集类型,其直接依赖Python的生成器类型generator返回数据,直至生成器抛出StopIteration异常。

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐