《昇思25天学习打卡营第21天|Vision Transformer图像分类》

本节学习了基于Transformer网络的图像分类模型：实验整体流程图如下：VIT主体结构是基于Transformer模型的Encoder部分，相较于传统的Transformer有以下特点：1.数据集的原图像被划分为多个patch（图像块）后，将二维patch（不考虑channel）转换为一维向量，再加上类别向量与位置向量作为模型输入。2.模型主体的Block结构是基于Transformer的En

.clean

332人浏览 · 2024-07-27 16:22:51

.clean · 2024-07-27 16:22:51 发布

在这里插入图片描述
本节学习了基于Transformer网络的图像分类模型：
实验整体流程图如下：

模型结构

在这里插入图片描述
VIT主体结构是基于Transformer模型的Encoder部分，相较于传统的Transformer有以下特点：

1.数据集的原图像被划分为多个patch（图像块）后，将二维patch（不考虑channel）转换为一维向量，再加上类别向量与位置向量作为模型输入。

2.模型主体的Block结构是基于Transformer的Encoder结构，但是调整了Normalization的位置，其中，最主要的结构依然是Multi-head Attention结构。

3.模型在Blocks堆叠后接全连接层，接受类别向量的输出作为输入并用于分类。通常情况下，我们将最后的全连接层称为Head，Transformer Encoder部分为backbone。

Self-attention结构

在这里插入图片描述
最初输入向量经过Embedding层，映射成Q、K、V三个向量。

Q、K、V三个向量通过提取输入的不同顺序的向量，获得不同的权重，再对结果进行Softmax处理，每一组Q，K，V最后都有一个V输出，这是Self-Attention得到的最终结果，是当前向量在结合了它与其他向量关联权重后得到的结果。

在这里插入图片描述

在这里插入图片描述

**加粗样式**

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

cover

[嵌入式AI从0开始到入土]21_基于昇腾310P RC模式的Pi0模型部署实践

鲲鹏昇腾开发者社区

昇腾AI创新大赛-昇思模型开发挑战赛（S1赛季）-MultiModal赛道铜奖方案

本文档详细记录了针对 Qwen2-VL 和 janus_pro 模型的关键性能优化点，并附带了相应的核心代码实现。

鲲鹏昇腾开发者社区

昇腾平台MindSpore模型训练优化心得体会

MindSpore作为昇腾AI生态的核心深度学习框架，凭借自动微分、动静结合、端边云全场景部署等特性，成为昇腾平台上模型开发的首选工具。在实际模型训练过程中，开发者常面临训练速度慢、显存占用高、资源利用率低等问题。本文结合MindSpore框架特性与昇腾硬件优势，从数据预处理、网络结构优化、训练策略调整、显存优化四个核心维度，分享模型训练的优化思路与实战方法，助力开发者在昇腾平台上高效完成模型训练

鲲鹏昇腾开发者社区

所有评论(0)

查看更多评论

.clean

@weixin_45128839

已为社区贡献17条内容