昇思25天学习打卡营第3天

（2）map可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集.方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。（1）shuffle 数据集随机函数，消除数据排列造成的分布不均问题。生成器也属于可迭代的数据集类型，其直接依赖Python的生成器

duhubin

203人浏览 · 2024-06-26 09:38:37

duhubin · 2024-06-26 09:38:37 发布

数据集 Dataset学习

1.数据集加载

因为mindspore.dataset只支持解压后的数据文件，所以需要下将下载的数据进行解压。

2.数据集的迭代

再进入神经网络训练前，一般采取迭代方式来获取数据。

3.数据集常用操作

（1）shuffle 数据集随机函数，消除数据排列造成的分布不均问题。

（2）map可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集.

（3）batch 用于将数据集进行打包固定大小

4.自定义数据集

可以通过构造自定义数据加载类或函数来生成数据集

可随机访问数据集是实现了__getitem__和__len__方法的数据集，表示可以通过索引/键直接访问对应位置的数据样本。

可迭代的数据集是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。

生成器也属于可迭代的数据集类型，其直接依赖Python的生成器类型generator返回数据，直至生成器抛出StopIteration异常。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

cover

【CANN】Pi0机器人大模型 × 昇腾A2 测评

鲲鹏昇腾开发者社区

国产鲲鹏服务器 Kylin Linux 部署 TiDB v8.5.5 实战（TiUP 单机部署完整教程）

鲲鹏ARM服务部署国产TiDB数据库

鲲鹏昇腾开发者社区

cover

【k8s】arm架构从零开始在线/离线部署k8s1.34.5+KubeSphere3.4.1

鲲鹏昇腾开发者社区

所有评论(0)

查看更多评论

duhubin

已为社区贡献1条内容