人工智能训练师技能竞赛笔记（2025-昆明）

本文总结了人工智能与深度学习的基础知识和技术要点，涵盖以下核心内容：人工智能发展历程、机器学习方法、神经网络原理、数据处理技术、MindSpore框架特性及MindYOLO模型特点、数据标注规范与职业伦理要求。

Onovo29

506人浏览 · 2025-10-30 13:31:10

Onovo29 · 2025-10-30 13:31:10 发布

人工智能基础知识

人工智能学科的诞生标志：1956年的达特茅斯会议。
1982年，物理学家 John Hopfield 证明Hopfield 网络，提供一种全新的方式学习和处理信息。大约在同时（早于 Paul Werbos）David Rumelhart 推广了反向传播算法，一种神经网络训练方法。这些发现使 1970 年以来一直遭人遗弃的联结主义重获新生。
人工神经网络模拟了人脑的神经元之间连接和权值调整来实现智能。
明斯基和佩珀特提出的感知器问题曾一度导致神经网络研究陷入低潮。
科学家艾伦·图灵提出图灵测试，用于判断机器是否具有智能。
人工智能研究的三大学派：符号主义、行为主义和连接主义。
Transformer 架构由2017年 Google 提出，凭借自注意力机制彻底改变了自然语言处理领域，并成为大语言模型的基础。
2024年诺贝尔物理学奖授予霍普菲尔德和辛顿，表彰他们利用物理学方法构建人工神经网络，为现代机器学习奠定基础。
人工智能领域技术：包括机器学习、自然语言处理、模式识别。
自然语言处理（NLP）：可用于情感分析，其核心为语义分析。
无监督学习
- 定义：又称非监督式学习，是机器学习的一种方法，没有给定事先标记过的训练
- 示例，自动对输入的资料进行分类或分群。
- 典型任务：聚类分析和降维处理。
- 算法：K-means 算法、主成分分析。
监督学习
- 定义：使用标记数据集来训练算法，以便对数据进行分类或准确预测结果。
- 分类算法有：线性分类器、支持向量机(SVM)、决策树、k 近邻、随机森林和逻辑回归；
- 回归算法有：线性回归、多项式回归。
深度学习三要素：模型、算法和数据。
支持向量机（SVM）：一种基于统计学习理论的监督学习算法，通过构建最大间隔的超平面实现对样本的高效分类。
生成对抗网络（GANs）由生成器和判别器组成，通过二者之间的对抗博弈训练生成器，使其能够生成逼真数据。
统计语言模型：为了简化计算，通常做一个马尔可夫假设，即一个词出现的概率只与它前面有限个词有关。
词嵌入技术（如 Word2Vec）：将词语映射到稠密的实数向量空间中，使得语义相似的词语在空间中的距离也更近。
模型训练中 Loss值越小，表示模型性能越优。
数据增强可以提高模型的泛化能力。
深度神经网络：在残差网络中引入残差连接，以解决梯度消失/爆炸问题，使得网络可以构建更深。
模型推理阶段，不需要反向传播。
使用公开数据集，需要注明来源。
人工智能项目主要环节：数据采集、模型训练、模型部署、推理测试。
人工智能安全领域，针对对抗样本攻击的常见防御方法包括对抗训练。
在 Transformer 架构中，注意力机制的核心是计算 Query、Key 和 Value 向量，以动态计算不同位置的重要性权重。

Python 编程基础

Python 中#用于注释代码。
定义字典类型变量：使用键值对形式，如{“key”: “value”}。
函数：使用 print()函数进行输出；使用函数 sum()计算列表中元素求和。
循环结束语句
- break：直接结束循环,执行循环后面的代码
- continue：跳过当前循环的剩余部分，并继续执行下一次循环
- pass：是空语句，是为了保持程序结构的完整性。
删除
- del：用于删除对象的引用。它可以用于删除变量、列表中的元素、字典中的键值对以及释放对象占用的内存空间
- remove：用于移除列表中某个值的第一个匹配项。
- pop：用于移除列表中的最后一个元素，并且返回该元素的值。
读取 Excel 文件数据常用pandas库。
导入 NumPy 库语句：import numpy as np。
数据类型：包括 int、float、string、list、dict、bool、set 等。
机器学习开发编程语言有 Python、C++、Java、Scala。
文本预处理(包括文本清洗、分词、词性标注等)是一个重要的数据处理步骤。

神经网络与深度学习

深度学习框架：包括 TensorFlow、PyTorch、Caffe、PaddlePaddle。
机器学习中提到的从信息中找重要成分的方法包括：主成分分析、独立成分分析、因子分析。
数据集
- 训练集用于模型训练；
- 验证集用于模型训练过程中性能评估；
- 测试集用于模型训练完成后最终的性能评估。
卷积神经网络
- 基本层次：输入层、输出层、隐含层(包括卷积层、池化层、全连接层、 归一化和正则化层、激活函数)。
- 卷积层作用：特征提取。
- 池化层作用：减少特征图维度并保留关键信息。
卷积操作主要参数：卷积核大小、步长、填充；
卷积层中卷积核数量：决定了输出特征图的通道数。
激活函数
- ReLU：缓解梯度消失。
- Sigmoid, Tanh：梯度易消失；
- Softmax：分类输出。
常用损失函数包括 CrossEntropy（交叉熵）、MSE（均方误差）、L1Loss。
过拟合
- 表现：模型在训练集上表现优异，但在测试集上表现较差；
- 解决：包括 Dropout、早停法、数据增强、正则化。
欠拟合
- 原因：训练集太少；
- 解决：增加模型复杂度。
梯度消失
- 表现：会导致模型训练不稳定，无法收敛；
- 解决：ReLU激活函数可缓解。
反向传播算法：训练人工神经网络的核心方法。
模型评估指标
- 准确率（Accuracy）的含义是模型正确分类的比例；
- 精确率（Precision）
分类模型性能评估常用指标：包括准确率、精确率、召回率、F1 分数。
训练性能影响因素：学习率、批次大小、数据质量、显卡性能。
模型可调整优化参数：学习率、批次大小、优化器、激活函数。
降维技术
- 线性包括主成分分析（PCA）、线性判别分析（LDA）；
- 非线性包括核主成分分析（KPCA）、t-SNE。
训练过程步骤：包括前向传播、反向传播、计算损失、更新参数。
卷积神经网络（CNN）应用场景：图像分类、图像分割、视频分析、自动驾驶。
循环神经网络（RNN）应用场景：自然语言处理、语音识别、视频分析、图像序列生成和分析。
人工神经网络（ANN）
- 基本特征：非线性、非局限性、非常定性、非凸性。
- 构成：
  - 结构：结构指定了网络中的变量和它们的拓扑关系。
  - 激励函数：定义如何根据其他神经元的活动来改变自己的激励值。
  - 学习规则：指定了如何随着时间推进来调整网络中的权重。
- 分类:
  - 按学习策略（Algorithm）分：监督式学习网络、无监督式学习网络、混合式学习网络、联想式学习网络、最适化学习网络。
  - 按网络架构（Connectionism）分：前馈神经网络、循环神经网络、强化式架构。

MindSpore 框架

基本单元：nn.Cell，用于定义神经网络。
核心模块：mindspore.train 用于模型训练。
加载已保存模型参数函数：load_checkpoint()。
保存模型函数：save_checkpoint()。
运行模式：支持动态图（PyNative）和静态图（Graph）两种。
运行环境：可以运行在 GPU 上。
特点：支持动态图、昇腾芯片、自动微分、不限于仅 CPU。
图模式下的数据类型
- Python 内置数据类型
  - 当前支持的 Python 内置数据类型包括：number、string、list、tuple 和 dictionary。
  - 对标 Python 内置数据类型，复数 complex 和集合 set 类型是不支持的。
  - 列表 list 和字典 dictionary 的一些高阶用法在基础语法场景下是不支持的。
- 自定义数据类型
  - 当前自定义数据类型包括：tensor、primitive、cell 和 parameter。

YOLO 模型

全称：You Only Look Once
作用：实现端到端的单阶段目标检测模型。
特点：速度快、参数少、端到端训练；相比 Faster R-CNN 的最大特点是速度快。
输出：边界框和类别；
训练命令参数：--batch-size 表示一次迭代样本数。

数据处理与标注

RGB 是计算机中表示颜色的常用模型。
CMYK 是一种减色模型，典型的用途是彩色印刷。
图像通道数：为 1 表示灰度图；为 3 表示彩色图。
数据清洗主要目的：去除噪声和异常值。
数据清洗方法：填充缺失值、去除异常值、标准化。
人工智能训练师处理文本类标注任务：首要保证标注的准确性。
大规模文本数据标注工具：LabelStudio。
人工智能训练师向开发团队反馈数据问题：重点说明问题出现的概率和影响范围。
模型训练不一定需要调整全部参数，取决于训练策略。
结果的可追溯性：人工智能训练师需确保标注和训练结果可追溯。

职业素养与规范

职业素养：遵守数据保密规定、尊重他人的知识产权、保证标注数据的准确性、不允许伪造实验结果。
职业规范：保密数据、不泄露模型、尊重知识产权、不允许随意复制或使用他人模型不注明来源。
道德要求：保守秘密、诚实守信、团队协作、不允许投机取巧。
掌握技能：数据标注、模型训练、结果评估、报告撰写。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D