CANN Recipes 训练 - 训练应用场景实战

本文介绍了在昇腾AI处理器上进行深度学习训练的最佳实践，涵盖分布式训练（数据并行、模型并行、流水线并行）、混合精度训练（AMP、FP16、BF16）、梯度策略（梯度累积、检查点、裁剪）、优化器选择（AdamW、LAMB）以及训练技巧（Warmup、余弦退火、早停）。通过代码示例展示了BERT和Swin Transformer等模型的训练实现，帮助开发者提升训练效率和稳定性。

小a彤

21人浏览 · 2026-05-27 13:43:50

小a彤 · 2026-05-27 13:43:50 发布

在这里插入图片描述

前言

cann-recipes 的训练场景指南旨在为开发者提供在昇腾（Ascend）AI处理器上进行高效深度学习训练的最佳实践。本文聚焦于训练场景中的关键技术，涵盖从基础的分布式训练、混合精度训练，到进阶的梯度策略、优化器选择以及实用的训练技巧。通过结合理论说明与代码示例，帮助读者理解并应用这些技术，以最大化硬件利用率，缩短模型训练时间，并提升训练稳定性。

训练概述

深度学习训练是一个通过迭代优化模型参数，使其能够从数据中学习并完成特定任务（如图像分类、自然语言理解）的过程。其核心目标是找到一个最优的参数集合，使得模型在给定数据上的预测误差（损失）最小化。这个过程通常涉及前向传播、损失计算、反向传播和参数更新四个关键步骤。

深度学习训练具有以下几个显著特点：

需要梯度计算：这是训练的核心。通过反向传播算法，计算损失函数相对于每个模型参数的梯度。梯度指明了参数调整的方向和幅度，是参数更新的依据。在昇腾（Ascend）平台上，利用其强大的矩阵计算单元（Cube）可以高效地完成大规模的梯度计算。
需要参数更新：根据计算出的梯度，使用优化器（如SGD、AdamW）来更新模型的权重和偏置等参数。更新策略（如学习率、动量）直接影响模型的收敛速度和最终性能。昇腾AI处理器通过高效的向量计算单元（Vector）支持各种优化算法的快速执行。
通常需要大量计算资源：现代深度学习模型（如Transformer、大语言模型）参数量巨大（可达千亿级别），训练数据量也极其庞大。这导致训练过程对计算（FLOPS）、内存（显存）和存储（数据集）都有极高的需求。分布式训练技术（如数据并行、模型并行）正是为了应对这一挑战，将计算负载分摊到多个昇腾AI处理器上。
训练时间长：由于模型复杂、数据量大，即使使用强大的硬件，训练一个高性能模型也可能需要数天甚至数周时间。因此，提升训练效率（如采用混合精度训练减少内存占用和计算时间、使用梯度累积模拟更大批次）和稳定性（如使用梯度裁剪防止梯度爆炸、采用学习率调度策略）至关重要。

理解这些特点是应用后续各种高级训练技术（分布式、混合精度等）的基础。接下来，我们将深入探讨如何在昇腾平台上高效地实施这些训练策略。

分布式训练

数据并行

import torch.nn as nn
import torch.distributed as dist

# 初始化
dist.init_process_group(backend="hccl")

# 数据并行
model = nn.DataParallel(model.npu())

# 训练循环
for batch in dataloader:
    output = model(batch)
    loss = criterion(output, target)
    loss.backward()
    optimizer.step()

模型并行

# 模型并行
class ParallelModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.layer1 = nn.Linear(768, 768).npu(0)
        self.layer2 = nn.Linear(768, 768).npu(1)
    
    def forward(self, x):
        x = self.layer1(x)
        x = x.npu(1)
        x = self.layer2(x)
        return x

流水线并行

# 流水线并行
class PipelineStage(nn.Module):
    def __init__(self, layers, device):
        super().__init__()
        self.layers = nn.ModuleList(layers)
        self.device = device
    
    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        return x

# Stage 0-1 在 device 0
stage0 = PipelineStage(layers[:5], device=0)
# Stage 2-4 在 device 1
stage1 = PipelineStage(layers[5:], device=1)

混合精度训练

AMP 自动混合精度

from torch.cuda.amp import autocast, GradScaler

scaler = GradScaler()

for batch in dataloader:
    inputs, targets = batch.npu()
    
    # 前向传播
    with autocast(dtype=torch.float16):
        outputs = model(inputs)
        loss = criterion(outputs, targets)
    
    # 反向传播
    scaler.scale(loss).backward()
    scaler.step()
    scaler.update()

###FP16 训练

# 转换为 FP16
model = model.half()

# 输入转换为 FP16
inputs = inputs.half()

# 损失缩放
loss_scale = 1024
scaled_loss = loss * loss_scale

# 参数更新
scaled_loss.backward()
optimizer.step()
optimizer.zero_grad()

BF16 训练

# BF16 配置
model = model.to(torch.bfloat16)

# 训练循环
for batch in dataloader:
    with autocast(dtype=torch.bfloat16):
        outputs = model(batch)
        loss = criterion(outputs, targets)
    
    loss.backward()
    optimizer.step()

梯度策略

梯度累积

accumulation_steps = 4

for i, batch in enumerate(dataloader):
    # 前向和反向
    loss = model(batch)
    loss = loss / accumulation_steps
    loss.backward()
    
    # 更新参数
    if (i + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()

梯度检查点

from torch.utils.checkpoint import checkpoint_sequential

# 使用检查点
class ModelWithCheckpoint(nn.Module):
    def __init__(self, layers):
        super().__init__()
        self.checkpoints = nn.ModuleList([
            nn.Sequential(*chunk) for chunk in chunks
        ])
    
    def forward(self, x):
        return checkpoint_sequential(
            self.checkpoints,
            len(self.checkpoints),
            x
        )

梯度裁剪

# 梯度裁剪
clip_value = 1.0

torch.nn.utils.clip_grad_norm_(model.parameters(), clip_value)
optimizer.step()

优化器

AdamW

import torch.optim as optim

# AdamW 优化器
optimizer = optim.AdamW(
    model.parameters(),
    lr=1e-4,
    weight_decay=0.01,
)

LAMB

# LAMB 优化器
class LAMB(Optimizer):
    def __init__(self, params, lr=1e-3):
        super().__init__(params, lr)
    
    def step(self, closure=None):
        for group in self.param_groups:
            for p in group['params']:
                # LAMB 更新逻辑
                pass

训练技巧

Warmup

# 学习率 Warmup
warmup_epochs = 5

if epoch < warmup_epochs:
    lr = base_lr * (epoch + 1) / warmup_epochs
else:
    lr = base_lr * 0.1 ** (epoch - warmup_epochs)

余弦退火

import math

# 余弦退火
cosine_epochs = 50

lr = min_lr + 0.5 * (max_lr - min_lr) * (
    1 + math.cos(math.pi * epoch / cosine_epochs)
)

早停

patience = 10
best_loss = float('inf')
counter = 0

if loss < best_loss:
    best_loss = loss
    counter = 0
else:
    counter += 1
    if counter >= patience:
        break

训练案例

BERT 训练

import torch
from transformers import BertModel
import torch.distributed as dist

# 初始化
dist.init_process_group(backend="hccl", world_size=8)
model = BertModel("bert-large").npu()

# 混合精度训练
scaler = GradScaler()

for batch in dataloader:
    inputs = batch.input_ids.npu()
    labels = batch.labels.npu()
    
    with autocast():
        outputs = model(inputs)
        loss = F.cross_entropy(outputs.view(-1, vocab_size), labels)
    
    scaler.scale(loss).backward()
    scaler.step()
    scaler.update()

Swin Transformer 训练

# Swin Transformer
from timm.models import swin_transformer

model = swin_transformer.swin_base_patch4_window7_224().npu()

# 对数放大
model.use_winograd = True

# 训练
train_model(model, dataloader)

性能数据

训练性能数据

模型	GPU数	Batch	吞吐量	加速比
ResNet-50	8	64	1560	10x
BERT-Large	8	16	380	7.6x
Swin-B	8	32	890	7.1x

总结

训练场景的最佳实践包括分布式训练混合精度训练梯度策略和优化器选择

更多技术细节https://atomgit.com/cann/cann-recipes

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

Codex 安装适配国产信创环境技术文档

本文档提供了国产信创环境下部署OpenAI Codex CLI的完整指南。主要内容包括：适用范围：支持银河麒麟V10、统信UOS等国产操作系统，适配海光x86_64、鲲鹏ARM64等国产硬件平台。适配准则：强调架构兼容、依赖国产化、无国外闭源高危组件、运行稳定安全四大标准。安装方式：提供npm全局安装、GitHub Release二进制包安装和源码编译三种方法，针对不同架构给出具体操作步骤。