昇思25天学习打卡营第6天|函数式自动微分

神经网络的训练主要使用反向传播算法，模型预测值（logits）与正确标签（label）送入损失函数（loss function）获得loss，然后进行反向传播计算，求得梯度（gradients），最终更新至模型参数（parameters）。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算，该功能对用户屏蔽了大量的求导细节和过程，大大降低了框架的使用门槛。通常我们会将函数的lo

li十三

424人浏览 · 2024-06-24 23:02:33

li十三 · 2024-06-24 23:02:33 发布

1. 学习内容复盘

1.1 函数式自动微分

关于函数式自动微分：

神经网络的训练主要使用反向传播算法，模型预测值（logits）与正确标签（label）送入损失函数（loss function）获得loss，然后进行反向传播计算，求得梯度（gradients），最终更新至模型参数（parameters）。自动微分能够计算可导函数在某点处的导数值，是反向传播算法的一般化。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算，该功能对用户屏蔽了大量的求导细节和过程，大大降低了框架的使用门槛。

MindSpore使用函数式自动微分的设计理念，提供更接近于数学语义的自动微分接口grad和value_and_grad。

函数与计算图

计算图是用图论语言表示数学函数的一种方式，也是深度学习框架表达神经网络模型的统一方法。我们将根据下面的计算图构造计算函数和神经网络。construct意为神经网络（计算图）构建，相关内容详见使用静态图加速。

微分函数与梯度计算

为了优化模型参数，需要求参数对loss的导数：∂loss/∂𝑤和∂loss/∂𝑏 ，此时我们调用mindspore.grad函数，来获得function的微分函数。

这里使用了grad函数的两个入参，分别为：

fn：待求导的函数。

grad_position：指定求导输入位置的索引。

Stop Gradient

通常情况下，求导时会求loss对参数的导数，因此函数的输出只有loss一项。当我们希望函数输出多项时，微分函数会求所有输出项对参数的导数。此时如果想实现对某个输出项的梯度截断，或消除某个Tensor对梯度的影响，需要用到Stop Gradient操作。

Auxiliary data

Auxiliary data意为辅助数据，是函数除第一个输出项外的其他输出。通常我们会将函数的loss设置为函数的第一个输出，其他的输出即为辅助数据。

grad和value_and_grad提供has_aux参数，当其设置为True时，可以自动实现前文手动添加stop_gradient的功能，满足返回辅助数据的同时不影响梯度计算的效果

神经网络梯度计算

前述章节主要根据计算图对应的函数介绍了MindSpore的函数式自动微分，但我们的神经网络构造是继承自面向对象编程范式的nn.Cell。接下来我们通过Cell构造同样的神经网络，利用函数式自动微分来实现反向传播。

2.平台实验结果

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

华为的准万亿大模型，是如何训练的？

鲲鹏昇腾开发者社区

NW.js与Electron终极对比：2024年选择最适合的桌面应用开发框架

在当今快速发展的桌面应用开发领域，**NW.js**和**Electron**作为两个主流的桌面应用开发框架，都让开发者能够使用HTML、CSS和JavaScript构建跨平台应用。但如何在这两个优秀的框架中做出正确选择？本文将为您提供完整的对比分析，帮助您找到最适合项目需求的桌面应用开发方案。## 🔍 框架概述与核心技术### NW.js：原生融合的桌面应用框架**NW.js**基于

鲲鹏昇腾开发者社区

Redux状态迁移验证：确保数据完整性的终极指南

在复杂的React应用中，**Redux状态迁移验证**是确保应用数据完整性和一致性的关键环节。随着应用功能的迭代升级，状态结构的变化不可避免，但如何安全地进行这些变更而不破坏现有功能，是每个开发者都需要掌握的技能。本文将为您提供完整的Redux状态迁移验证方法和最佳实践。✨## 为什么状态迁移验证如此重要？**数据完整性**是任何应用程序的基石。在Redux应用中，状态迁移不当可能导致：