昇思25天学习打卡营第3天
(2)map可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集.方法的数据集,表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。(1)shuffle 数据集随机函数,消除数据排列造成的分布不均问题。生成器也属于可迭代的数据集类型,其直接依赖Python的生成器
数据集 Dataset学习
1.数据集加载
因为mindspore.dataset只支持解压后的数据文件,所以需要下将下载的数据进行解压。
2.数据集的迭代
再进入神经网络训练前,一般采取迭代方式来获取数据。

3.数据集常用操作
(1)shuffle 数据集随机函数,消除数据排列造成的分布不均问题。
(2)map可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集.
(3)batch 用于将数据集进行打包固定大小

4.自定义数据集
可以通过构造自定义数据加载类或函数来生成数据集
可随机访问数据集是实现了__getitem__和__len__方法的数据集,表示可以通过索引/键直接访问对应位置的数据样本。
可迭代的数据集是实现了__iter__和__next__方法的数据集,表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。
生成器也属于可迭代的数据集类型,其直接依赖Python的生成器类型generator返回数据,直至生成器抛出StopIteration异常。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐


所有评论(0)