《昇思25天学习打卡营第3天|数据集的基本操作》

可随机访问数据集是实现了和__len__方法的数据集。表示可以通过索引/键直接访问对应位置的数据样本。例如，当使用访问这样的数据集时，可以读取dataset内容中第idx个样本或标签。可迭代的数据集是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。例如，当使用的形式访问数据集时，可以读取从数据

m0_58790800

434人浏览 · 2024-06-28 22:14:17

m0_58790800 · 2024-06-28 22:14:17 发布

数据预处理步骤之一——数据集
- 数据集加载
  - ```
  from download import download
  		  
  url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \  "notebook/datasets/MNIST_Data.zip"
  path = download(url, "./", kind="zip", replace=True)
```
- 数据集常见操作
  - 数据集加载后，一般以迭代方式获取数据
  - 访问的数据类型默认为Tensor；若设置output_numpy=True，访问的数w据类型为Numpy。
  - shuffle
    - 数据集随机shuffle可以消除数据排列造成的分布不均问题。这是一个打乱顺序的操作
    - train_dataset = train_dataset.shuffle(buffer_size=64)
      visualize(train_dataset)
  - map
    - map操作是数据预处理的关键操作，可以针对数据集指定列（column）添加数据变换（Transforms），将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。
    - map算是一个对列数据整体操作的一个函数（算子）
  - batch
    - 可以看作把数据聚集拆分成固定大小的块的操作
- 自定义数据集
  - 可随机访问数据集
    - 是实现了__getitem__和__len__方法的数据集。表示可以通过索引/键直接访问对应位置的数据样本。
    - 例如，当使用dataset[idx]访问这样的数据集时，可以读取dataset内容中第idx个样本或标签。
  - 可迭代的数据集
    - 是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。
    - 例如，当使用iter(dataset)的形式访问数据集时，可以读取从数据库、远程服务器返回的数据流。
  - 生成器
    - 生成器也属于可迭代的数据集类型，其直接依赖Python的生成器类型generator返回数据，直至生成器抛出StopIteration异常。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏DevKit实战经验：从X86到ARM，代码迁移工具（Porting Advisor）的深度解析与实战指南

鲲鹏昇腾开发者社区

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D