《昇思25天学习打卡营第2天|张量Tensor》

tensor学习，提供了一些pytorch与mindspore的对比

QAQ23333333333

943人浏览 · 2024-06-25 12:36:34

QAQ23333333333 · 2024-06-25 12:36:34 发布

前言

昇思25天学习打卡营第2天，今天的目标是理解Mindspore框架下的张量Tnesor，包含Tensor的创建、属性、索引和运算，numpy数组与mindspore张量之间的相互转换，稀疏张量与mindspore张量之间的转换。

一、张量Tnesor是什么？

张量（Tensor）是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 $n$ 维空间内，有 $n^{r}$ 个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。 $r$ 称为该张量的秩或阶（与矩阵的秩和阶均无关系）。

张量是一种特殊的数据结构，与数组和矩阵非常相似。张量（Tensor）是MindSpore网络运算中的基本数据结构，本教程主要介绍张量和稀疏张量的属性及用法。

二、创建张量

1.直接创建

张量的创建方式有多种，构造张量时，支持传入Tensor、float、int、bool、tuple、list和numpy.ndarray类型。mindspore.Tensor（）可以根据数据创建张量，数据类型可以设置或者通过框架自动推断。
在这里插入图片描述

2.从NumPy数组生成

在这里插入图片描述

3.使用init初始化器构造张量

当使用init初始化器对张量进行初始化时，支持传入的参数有init、shape、dtype。（相当于创建Tensor时也完成Tensor数值的初始化，初始化方法在initializer里）

init: 支持传入initializer的子类。如：下方示例中的 One() 和 Normal()。

shape: 支持传入 list、tuple、 int。

dtype: 支持传入mindspore.dtype。
在这里插入图片描述

三、张量属性

张量的属性包括形状、数据类型、转置张量、单个元素大小、占用字节数量、维数、元素个数和每一维步长。

形状（shape）：Tensor的shape，是一个tuple。
数据类型（dtype）：Tensor的dtype，是MindSpore的一个数据类型。
单个元素大小（itemsize）： Tensor中每一个元素占用字节数，是一个整数。
占用字节数量（nbytes）： Tensor占用的总字节数，是一个整数。
维数（ndim）： Tensor的秩，也就是len(tensor.shape)，是一个整数。
元素个数（size）： Tensor中所有元素的个数，是一个整数。
每一维步长（strides）： Tensor每一维所需要的字节数，是一个tuple。

四、张量索引

Tensor索引与Numpy索引类似，索引从0开始编制，负索引表示按倒序编制，冒号:和 ...用于对数据进行切片。
在这里插入图片描述

五、张量运算

张量之间有很多运算，包括算术、线性代数、矩阵处理（转置、标引、切片）、采样等，张量运算和NumPy的使用方式类似，下面介绍其中几种操作。

普通算术运算有：加（+）、减（-）、乘（*）、除（/）、取模（%）、整除（//）。

六、Tensor与NumPy

1.Tensor转换为NumPy

与张量创建相同，使用 Tensor.asnumpy() 将Tensor变量转换为NumPy变量。
在这里插入图片描述

2.NumPy转换为Tensor

使用Tensor()将NumPy变量转换为Tensor变量。
在这里插入图片描述

七、稀疏张量是什么？

稀疏张量是一种特殊张量，其中绝大部分元素的值为零。

在某些应用场景中（比如推荐系统、分子动力学、图神经网络等），数据的特征是稀疏的，若使用普通张量表征这些数据会引入大量不必要的计算、存储和通讯开销。这时就可以使用稀疏张量来表征这些数据。

MindSpore现在已经支持最常用的CSR和COO两种稀疏数据格式。

常用稀疏张量的表达形式是<indices:Tensor, values:Tensor, shape:Tensor>。其中，indices表示非零下标元素， values表示非零元素的值，shape表示的是被压缩的稀疏张量的形状。在这个结构下，我们定义了三种稀疏张量结构：CSRTensor、COOTensor和RowTensor。

CSRTensor

CSR（Compressed Sparse Row）稀疏张量格式有着高效的存储与计算的优势。其中，非零元素的值存储在values中，非零元素的位置存储在indptr（行）和indices（列）中。各参数含义如下：

indptr: 一维整数张量, 表示稀疏数据每一行的非零元素在values中的起始位置和终止位置, 索引数据类型支持int16、int32、int64。
indices: 一维整数张量，表示稀疏张量非零元素在列中的位置, 与values长度相等，索引数据类型支持int16、int32、int64。
values: 一维张量，表示CSRTensor相对应的非零元素的值，与indices长度相等。
shape: 表示被压缩的稀疏张量的形状，数据类型为Tuple，目前仅支持二维CSRTensor。

CSRTensor的详细文档，请参考mindspore.CSRTensor。

下面给出一些CSRTensor的使用示例：
在这里插入图片描述

COOTensor

COO（Coordinate Format）稀疏张量格式用来表示某一张量在给定索引上非零元素的集合，若非零元素的个数为N，被压缩的张量的维数为ndims。各参数含义如下：

indices: 二维整数张量，每行代表非零元素下标。形状：[N, ndims]，索引数据类型支持int16、int32、int64。
values: 一维张量，表示相对应的非零元素的值。形状：[N]。
shape: 表示被压缩的稀疏张量的形状，目前仅支持二维COOTensor。

COOTensor的详细文档，请参考mindspore.COOTensor。

下面给出一些COOTensor的使用示例：
在这里插入图片描述

八、pytorch和mindspore的Tensor比对

将pytorch和mindspore的Tensor对比，可以发现mindspore张量的一些特性。

1.直接创建Tensor上

pytorch创建Tensor默认创建的数据类型为torch.float32（即使里面的数值都是整数），mindspore张量创建时则会根据数值类型影响到Tensor的类型。
在这里插入图片描述

2.使用初始化器构建Tensor

个人认为pytorch初始化张量更灵活一些，mindspore更工整一些，pytorch初始化Tensor里的数值默认显示到小数点后4位，mindspore则是最高显示到小数点后八位。
在这里插入图片描述
使用mindspore初始化器创建Parameter的一个例子：

3.稀疏张量上

两个框架在创建稀疏张量上有些许差异，mindspore稀疏张量运算没有pytorch成熟。可以参考下例：

pytorch稀疏张量乘法torch.sparse.mm

在这里插入图片描述

mindspore创建稀疏张量并进行矩阵乘法

在这里插入图片描述

个人打卡

本文是昇思25天学习打卡营打卡文章，读者可以忽略本小节。
在这里插入图片描述

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

AI 编译器系列（七）《(MLIR)AscendNPU IR 编译堆栈》

本文系统阐述了AscendNPUIR架构的设计原理与实现方法。该架构基于MLIR构建，包含HFusion和HIVM两层核心方言：HFusion负责高层语义预处理和算子简化，HIVM则面向昇腾NPU硬件特性进行轻量化抽象。通过多级方言转换流程、专用OP设计及内存优化技术，实现了从DSL到硬件指令的高效编译。架构还整合了调优选项和Compiler Hint机制，支持细粒度性能优化。AscendNPUI

鲲鹏昇腾开发者社区

从昇腾AI到智元机器人，他与稚晖君联手打造150亿估值独角兽的传奇

**摘要：**华为前副总裁邓泰华与"天才少年"稚晖君联手创立智元机器人，两年内将公司估值推至150亿元。邓泰华凭借27年华为经验，主导昇腾AI生态构建，并将"硬件+软件+生态"战略复制到机器人领域。智元快速实现量产，发布灵犀X2机器人及GO-1大模型。2025年7月，邓泰华斥资21亿元控股科创板公司上纬新材，为智元铺设资本平台。这位技术老将与年轻天才的组合，