CANN 昇腾训练食谱全景解读：cann-recipes-train 架构与使用指南

h64648564h

72人浏览 · 2026-05-23 15:34:14

h64648564h · 2026-05-23 15:34:14 发布

前言

深度学习模型训练是一个复杂的过程，涉及数据预处理、模型定义、训练循环、性能优化等多个环节。昇腾 CANN 的 cann-recipes-train 仓提供了丰富的训练优化食谱，覆盖图像分类、目标检测、自然语言处理等多个领域。本文深入解析 cann-recipes-train 的架构设计、核心内容和实际应用方法。

cann-recipes-train 在 CANN 生态中的位置

CANN 生态包含多个层次的组件，cann-recipes-train 位于应用使能层，起到最佳实践传递和快速原型开发的关键作用：

CANN 生态架构：
├── 硬件层：昇腾 AI 处理器（910、310、610 等）
├── 驱动层：Driver（设备驱动、内存管理、任务调度）
├── 运行时：Runtime（模型加载、内存管理、任务调度）
├── 编译器：GE 图引擎、Blaze 张量引擎
├── 算子库：ops-transformer、ops-nn、ops-math 等
├── 应用框架：PyTorch、TensorFlow、MindSpore 适配层
└── 应用使能层：cann-recipes-train ← 本文重点

cann-recipes-train 的主要功能包括：

训练优化食谱：提供各种模型的训练优化方法和代码
性能分析工具：提供性能分析和调优工具
分布式训练最佳实践：提供分布式训练的最佳实践指南
示例代码库：提供丰富的训练示例代码

cann-recipes-train 架构设计

整体架构

cann-recipes-train 采用模块化设计，各组件职责清晰：

cann-recipes-train
├── 图像分类训练食谱（Image Classification Training Recipes）
│   ├── ResNet-50 训练优化
│   ├── MobileNet 训练优化
│   └── EfficientNet 训练优化
├── 目标检测训练食谱（Object Detection Training Recipes）
│   ├── YOLOv8 训练优化
│   ├── Faster R-CNN 训练优化
│   └── SSD 训练优化
├── 自然语言处理训练食谱（NLP Training Recipes）
│   ├── BERT 训练优化
│   ├── GPT 训练优化
│   └── LLaMA 训练优化
├── 推荐系统训练食谱（Recommendation Training Recipes）
│   ├── DIN 训练优化
│   ├── DIEN 训练优化
│   └── DeepFM 训练优化
├── 分布式训练最佳实践（Distributed Training Best Practices）
│   ├── 数据并行最佳实践
│   ├── 模型并行最佳实践
│   └── 流水线并行最佳实践
└── 性能分析工具（Performance Analysis Tools）
    ├── 训练吞吐量分析工具
    ├── 梯度同步分析工具
    └── 内存使用分析工具

核心组件详解

1. 图像分类训练食谱

针对图像分类模型，提供完整的训练优化食谱。

核心内容：

数据预处理优化：优化数据加载和预处理流程
模型定义优化：优化模型定义，提升训练性能
训练循环优化：优化训练循环，减少训练时间
精度验证：验证训练后模型的精度是否满足要求

# ResNet-50 训练优化食谱
import torch
import torch.nn as nn
import torchvision
from cann import hccl, amp

# 1. 数据预处理优化
class OptimizedDataset(torch.utils.data.Dataset):
    def __init__(self, data_dir, train=True):
        self.data_dir = data_dir
        self.train = train
        
        # 使用昇腾加速的图像解码
        self.dataset = torchvision.datasets.ImageFolder(
            data_dir,
            transform=self.get_transform()
        )
        
        print(f"数据集加载成功: {len(self.dataset)} 样本")
    
    def get_transform(self):
        """获取优化的数据预处理流程"""
        if self.train:
            return torchvision.transforms.Compose([
                torchvision.transforms.RandomResizedCrop(224),
                torchvision.transforms.RandomHorizontalFlip(),
                torchvision.transforms.ToTensor(),
                torchvision.transforms.Normalize(
                    mean=[0.485, 0.456, 0.406],
                    std=[0.229, 0.224, 0.225]
                )
            ])
        else:
            return torchvision.transforms.Compose([
                torchvision.transforms.Resize(256),
                torchvision.transforms.CenterCrop(224),
                torchvision.transforms.ToTensor(),
                torchvision.transforms.Normalize(
                    mean=[0.485, 0.456, 0.406],
                    std=[0.229, 0.224, 0.225]
                )
            ])
    
    def __len__(self):
        return len(self.dataset)
    
    def __getitem__(self, idx):
        return self.dataset[idx]

# 2. 模型定义优化
class OptimizedResNet50(nn.Module):
    def __init__(self, num_classes=1000):
        super().__init__()
        
        # 使用昇腾优化的 ResNet-50 模型
        self.model = torchvision.models.resnet50(pretrained=False)
        
        # 修改最后一层
        self.model.fc = nn.Linear(2048, num_classes)
        
        print("模型定义成功")
    
    def forward(self, x):
        return self.model(x)

# 3. 训练循环优化
class OptimizedTrainer:
    def __init__(self, model, train_loader, val_loader, optimizer, criterion, device):
        self.model = model
        self.train_loader = train_loader
        self.val_loader = val_loader
        self.optimizer = optimizer
        self.criterion = criterion
        self.device = device
        
        # 使用昇腾的混合精度训练
        self.scaler = amp.GradScaler()
        
        # 使用昇腾的分布式训练
        self.distributed = hccl.is_initialized()
        
        print("训练器初始化成功")
    
    def train_epoch(self, epoch):
        """训练一个 epoch"""
        self.model.train()
        
        total_loss = 0.0
        correct = 0
        total = 0
        
        for batch_idx, (inputs, targets) in enumerate(self.train_loader):
            # 将数据移动到设备
            inputs, targets = inputs.to(self.device), targets.to(self.device)
            
            # 混合精度训练
            with amp.autocast():
                outputs = self.model(inputs)
                loss = self.criterion(outputs, targets)
            
            # 反向传播
            self.optimizer.zero_grad()
            self.scaler.scale(loss).backward()
            self.scaler.step(self.optimizer)
            self.scaler.update()
            
            # 统计
            total_loss += loss.item()
            _, predicted = outputs.max(1)
            total += targets.size(0)
            correct += predicted.eq(targets).sum().item()
            
            # 打印训练进度
            if batch_idx % 100 == 0:
                print(f"Epoch {epoch}: [{batch_idx}/{len(self.train_loader)}] "
                      f"Loss: {loss.item():.4f} | Acc: {100. * correct / total:.2f}%")
        
        return total_loss / len(self.train_loader), 100. * correct / total
    
    def validate(self):
        """验证"""
        self.model.eval()
        
        total_loss = 0.0
        correct = 0
        total = 0
        
        with torch.no_grad():
            for batch_idx, (inputs, targets) in enumerate(self.val_loader):
                # 将数据移动到设备
                inputs, targets = inputs.to(self.device), targets.to(self.device)
                
                # 前向传播
                outputs = self.model(inputs)
                loss = self.criterion(outputs, targets)
                
                # 统计
                total_loss += loss.item()
                _, predicted = outputs.max(1)
                total += targets.size(0)
                correct += predicted.eq(targets).sum().item()
        
        return total_loss / len(self.val_loader), 100. * correct / total
    
    def train(self, num_epochs):
        """训练模型"""
        for epoch in range(num_epochs):
            # 训练
            train_loss, train_acc = self.train_epoch(epoch)
            
            # 验证
            val_loss, val_acc = self.validate()
            
            print(f"Epoch {epoch + 1}/{num_epochs}: "
                  f"Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.2f}% | "
                  f"Val Loss: {val_loss:.4f} | Val Acc: {val_acc:.2f}%")
        
        print("训练完成")

# 4. 使用示例
def main():
    # 初始化昇腾环境
    hccl.init_rank(4, 0)  # 4 个进程，当前是进程 0
    
    # 设置设备
    device = torch.device('npu:0')
    
    # 加载数据集
    train_dataset = OptimizedDataset('data/train')
    val_dataset = OptimizedDataset('data/val', train=False)
    
    # 创建数据加载器
    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=32,
        shuffle=True,
        num_workers=4
    )
    val_loader = torch.utils.data.DataLoader(
        val_dataset,
        batch_size=32,
        shuffle=False,
        num_workers=4
    )
    
    # 创建模型
    model = OptimizedResNet50(num_classes=1000)
    model = model.to(device)
    
    # 分布式训练
    if hccl.is_initialized():
        model = torch.nn.parallel.DistributedDataParallel(model)
    
    # 定义优化器和损失函数
    optimizer = torch.optim.SGD(
        model.parameters(),
        lr=0.1,
        momentum=0.9,
        weight_decay=1e-4
    )
    criterion = nn.CrossEntropyLoss()
    
    # 创建训练器
    trainer = OptimizedTrainer(
        model, train_loader, val_loader,
        optimizer, criterion, device
    )
    
    # 训练模型
    trainer.train(num_epochs=100)
    
    # 保存模型
    torch.save(model.state_dict(), 'resnet50_optimized.pth')
    
    # 清理昇腾环境
    hccl.finalize()
    
    print("训练完成")

if __name__ == '__main__':
    main()

2. 目标检测训练食谱

针对目标检测模型，提供完整的训练优化食谱。

核心内容：

数据预处理优化：优化数据加载和预处理流程
模型定义优化：优化模型定义，提升训练性能
训练循环优化：优化训练循环，减少训练时间
精度验证：验证训练后模型的精度是否满足要求

# YOLOv8 训练优化食谱
import torch
import torch.nn as nn
from ultralytics import YOLO
from cann import hccl, amp

# 1. 数据预处理优化
class OptimizedYOLODataset:
    def __init__(self, data_yaml, train=True):
        self.data_yaml = data_yaml
        self.train = train
        
        # 使用昇腾加速的图像解码
        self.model = YOLO('yolov8s.yaml')
        
        print(f"数据集加载成功: {data_yaml}")
    
    def get_dataloader(self, batch_size=16):
        """获取优化的数据加载器"""
        if self.train:
            return self.model.train(
                data=self.data_yaml,
                batch=batch_size,
                device='npu',
                workers=4
            )
        else:
            return self.model.val(
                data=self.data_yaml,
                batch=batch_size,
                device='npu',
                workers=4
            )

# 2. 模型定义优化
class OptimizedYOLOv8:
    def __init__(self, model_yaml, num_classes):
        self.model_yaml = model_yaml
        self.num_classes = num_classes
        
        # 使用昇腾优化的 YOLOv8 模型
        self.model = YOLO(model_yaml)
        
        print("模型定义成功")
    
    def to(self, device):
        """将模型移动到设备"""
        self.model.to(device)
        return self

# 3. 训练循环优化
class OptimizedYOLOTrainer:
    def __init__(self, model, data_yaml, device):
        self.model = model
        self.data_yaml = data_yaml
        self.device = device
        
        # 使用昇腾的混合精度训练
        self.scaler = amp.GradScaler()
        
        # 使用昇腾的分布式训练
        self.distributed = hccl.is_initialized()
        
        print("训练器初始化成功")
    
    def train(self, epochs=100, batch_size=16, learning_rate=0.01):
        """训练模型"""
        # 训练参数
        args = {
            'data': self.data_yaml,
            'epochs': epochs,
            'batch': batch_size,
            'lr0': learning_rate,
            'device': self.device,
            'amp': True,  # 启用混合精度训练
            'sync_bn': self.distributed,  # 分布式训练启用同步批归一化
        }
        
        # 训练模型
        results = self.model.train(**args)
        
        print("训练完成")
        
        return results
    
    def validate(self):
        """验证模型"""
        results = self.model.val()
        
        print("验证完成")
        
        return results

# 4. 使用示例
def main():
    # 初始化昇腾环境
    hccl.init_rank(4, 0)  # 4 个进程，当前是进程 0
    
    # 设置设备
    device = 'npu:0'
    
    # 加载数据集
    dataset = OptimizedYOLODataset('data/coco.yaml')
    dataloader = dataset.get_dataloader(batch_size=16)
    
    # 创建模型
    model = OptimizedYOLOv8('yolov8s.yaml', num_classes=80)
    model = model.to(device)
    
    # 创建训练器
    trainer = OptimizedYOLOTrainer(
        model.model,
        'data/coco.yaml',
        device
    )
    
    # 训练模型
    results = trainer.train(epochs=100, batch_size=16, learning_rate=0.01)
    
    # 验证模型
    val_results = trainer.validate()
    
    # 保存模型
    model.model.save('yolov8s_optimized.pt')
    
    # 清理昇腾环境
    hccl.finalize()
    
    print("训练完成")

if __name__ == '__main__':
    main()

3. 自然语言处理训练食谱

针对自然语言处理模型，提供完整的训练优化食谱。

核心内容：

数据预处理优化：优化数据加载和预处理流程
模型定义优化：优化模型定义，提升训练性能
训练循环优化：优化训练循环，减少训练时间
精度验证：验证训练后模型的精度是否满足要求

# BERT 训练优化食谱
import torch
import torch.nn as nn
from transformers import BertTokenizer, BertForSequenceClassification
from cann import hccl, amp

# 1. 数据预处理优化
class OptimizedBERTDataset(torch.utils.data.Dataset):
    def __init__(self, texts, labels, tokenizer, max_length=512):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length
        
        print(f"数据集加载成功: {len(texts)} 样本")
    
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]
        
        # 使用昇腾加速的 tokenizer
        encoding = self.tokenizer(
            text,
            max_length=self.max_length,
            padding='max_length',
            truncation=True,
            return_tensors='pt'
        )
        
        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

# 2. 模型定义优化
class OptimizedBERT(nn.Module):
    def __init__(self, num_classes=2):
        super().__init__()
        
        # 使用昇腾优化的 BERT 模型
        self.model = BertForSequenceClassification.from_pretrained(
            'bert-base-uncased',
            num_labels=num_classes
        )
        
        print("模型定义成功")
    
    def forward(self, input_ids, attention_mask, labels=None):
        outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            labels=labels
        )
        
        return outputs

# 3. 训练循环优化
class OptimizedBERTTrainer:
    def __init__(self, model, train_loader, val_loader, optimizer, device):
        self.model = model
        self.train_loader = train_loader
        self.val_loader = val_loader
        self.optimizer = optimizer
        self.device = device
        
        # 使用昇腾的混合精度训练
        self.scaler = amp.GradScaler()
        
        # 使用昇腾的分布式训练
        self.distributed = hccl.is_initialized()
        
        print("训练器初始化成功")
    
    def train_epoch(self, epoch):
        """训练一个 epoch"""
        self.model.train()
        
        total_loss = 0.0
        correct = 0
        total = 0
        
        for batch_idx, batch in enumerate(self.train_loader):
            # 将数据移动到设备
            input_ids = batch['input_ids'].to(self.device)
            attention_mask = batch['attention_mask'].to(self.device)
            labels = batch['labels'].to(self.device)
            
            # 混合精度训练
            with amp.autocast():
                outputs = self.model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    labels=labels
                )
                loss = outputs.loss
            
            # 反向传播
            self.optimizer.zero_grad()
            self.scaler.scale(loss).backward()
            self.scaler.step(self.optimizer)
            self.scaler.update()
            
            # 统计
            total_loss += loss.item()
            _, predicted = outputs.logits.max(1)
            total += labels.size(0)
            correct += predicted.eq(labels).sum().item()
            
            # 打印训练进度
            if batch_idx % 100 == 0:
                print(f"Epoch {epoch}: [{batch_idx}/{len(self.train_loader)}] "
                      f"Loss: {loss.item():.4f} | Acc: {100. * correct / total:.2f}%")
        
        return total_loss / len(self.train_loader), 100. * correct / total
    
    def validate(self):
        """验证"""
        self.model.eval()
        
        total_loss = 0.0
        correct = 0
        total = 0
        
        with torch.no_grad():
            for batch_idx, batch in enumerate(self.val_loader):
                # 将数据移动到设备
                input_ids = batch['input_ids'].to(self.device)
                attention_mask = batch['attention_mask'].to(self.device)
                labels = batch['labels'].to(self.device)
                
                # 前向传播
                outputs = self.model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    labels=labels
                )
                loss = outputs.loss
                
                # 统计
                total_loss += loss.item()
                _, predicted = outputs.logits.max(1)
                total += labels.size(0)
                correct += predicted.eq(labels).sum().item()
        
        return total_loss / len(self.val_loader), 100. * correct / total
    
    def train(self, num_epochs):
        """训练模型"""
        for epoch in range(num_epochs):
            # 训练
            train_loss, train_acc = self.train_epoch(epoch)
            
            # 验证
            val_loss, val_acc = self.validate()
            
            print(f"Epoch {epoch + 1}/{num_epochs}: "
                  f"Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.2f}% | "
                  f"Val Loss: {val_loss:.4f} | Val Acc: {val_acc:.2f}%")
        
        print("训练完成")
    
    def save_model(self, path):
        """保存模型"""
        torch.save(self.model.state_dict(), path)
        print(f"模型保存成功: {path}")

# 4. 使用示例
def main():
    # 初始化昇腾环境
    hccl.init_rank(4, 0)  # 4 个进程，当前是进程 0
    
    # 设置设备
    device = torch.device('npu:0')
    
    # 加载 tokenizer
    tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
    
    # 准备数据（示例）
    train_texts = ["This is a positive review.", "This is a negative review."] * 1000
    train_labels = [1, 0] * 1000
    val_texts = ["Great product!", "Terrible experience."] * 500
    val_labels = [1, 0] * 500
    
    # 创建数据集
    train_dataset = OptimizedBERTDataset(train_texts, train_labels, tokenizer)
    val_dataset = OptimizedBERTDataset(val_texts, val_labels, tokenizer)
    
    # 创建数据加载器
    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=32,
        shuffle=True,
        num_workers=4
    )
    val_loader = torch.utils.data.DataLoader(
        val_dataset,
        batch_size=32,
        shuffle=False,
        num_workers=4
    )
    
    # 创建模型
    model = OptimizedBERT(num_classes=2)
    model = model.to(device)
    
    # 分布式训练
    if hccl.is_initialized():
        model = torch.nn.parallel.DistributedDataParallel(model)
    
    # 定义优化器
    optimizer = torch.optim.AdamW(
        model.parameters(),
        lr=2e-5,
        weight_decay=0.01
    )
    
    # 创建训练器
    trainer = OptimizedBERTTrainer(
        model, train_loader, val_loader,
        optimizer, device
    )
    
    # 训练模型
    trainer.train(num_epochs=3)
    
    # 保存模型
    trainer.save_model('bert_optimized.pth')
    
    # 清理昇腾环境
    hccl.finalize()
    
    print("训练完成")

if __name__ == '__main__':
    main()

分布式训练最佳实践

cann-recipes-train 提供了丰富的分布式训练最佳实践，帮助用户在昇腾硬件上高效地进行分布式训练。

1. 数据并行最佳实践

针对数据并行训练，提供最佳实践指南。

核心内容：

梯度同步优化：优化梯度同步策略，减少通信开销
学习率调度：针对数据并行调整学习率调度策略
批归一化优化：优化批归一化在分布式训练中的行为

# 数据并行最佳实践示例
import torch
import torch.nn as nn
from cann import hccl

class DataParallelBestPractice:
    def __init__(self, model, device, rank, world_size):
        self.model = model
        self.device = device
        self.rank = rank
        self.world_size = world_size
        
        # 初始化昇腾分布式环境
        hccl.init_rank(world_size, rank)
        
        # 将模型转换为分布式模型
        self.model = nn.parallel.DistributedDataParallel(
            self.model.to(device),
            device_ids=[device]
        )
        
        print(f"数据并行初始化成功: rank={rank}, world_size={world_size}")
    
    def optimize_gradient_synchronization(self):
        """优化梯度同步"""
        # 使用梯度累积减少同步次数
        self.gradient_accumulation_steps = 4
        
        # 使用混合精度训练减少通信量
        self.use_mixed_precision = True
        
        print("梯度同步优化完成")
    
    def optimize_learning_rate_scheduling(self, base_lr=0.1):
        """优化学习率调度"""
        # 线性缩放学习率
        scaled_lr = base_lr * self.world_size
        
        # 创建学习率调度器
        self.optimizer = torch.optim.SGD(
            self.model.parameters(),
            lr=scaled_lr,
            momentum=0.9,
            weight_decay=1e-4
        )
        
        self.lr_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(
            self.optimizer,
            T_max=100
        )
        
        print(f"学习率调度优化完成: base_lr={base_lr}, scaled_lr={scaled_lr}")
    
    def optimize_batch_normalization(self):
        """优化批归一化"""
        # 使用同步批归一化
        self.model = nn.  SyncBatchNorm.convert_sync_batchnorm(self.model)
        
        print("批归一化优化完成")
    
    def train(self, train_loader, num_epochs):
        """训练模型"""
        for epoch in range(num_epochs):
            # 训练一个 epoch
            self.model.train()
            
            total_loss = 0.0
            correct = 0
            total = 0
            
            for batch_idx, (inputs, targets) in enumerate(train_loader):
                # 将数据移动到设备
                inputs, targets = inputs.to(self.device), targets.to(self.device)
                
                # 前向传播
                outputs = self.model(inputs)
                loss = nn.functional.cross_entropy(outputs, targets)
                
                # 反向传播
                self.optimizer.zero_grad()
                loss.backward()
                
                # 梯度同步（自动进行）
                
                # 更新参数
                self.optimizer.step()
                
                # 统计
                total_loss += loss.item()
                _, predicted = outputs.max(1)
                total += targets.size(0)
                correct += predicted.eq(targets).sum().item()
                
                # 打印训练进度
                if batch_idx % 100 == 0 and self.rank == 0:
                    print(f"Epoch {epoch}: [{batch_idx}/{len(train_loader)}] "
                          f"Loss: {loss.item():.4f} | Acc: {100. * correct / total:.2f}%")
            
            # 更新学习率
            self.lr_scheduler.step()
            
            # 验证（仅在 rank 0 进行）
            if self.rank == 0:
                val_loss, val_acc = self.validate()
                print(f"Epoch {epoch + 1}/{num_epochs}: "
                      f"Train Loss: {total_loss / len(train_loader):.4f} | "
                      f"Train Acc: {100. * correct / total:.2f}% | "
                      f"Val Loss: {val_loss:.4f} | Val Acc: {val_acc:.2f}%")
        
        print("训练完成")
    
    def validate(self):
        """验证"""
        self.model.eval()
        
        total_loss = 0.0
        correct = 0
        total = 0
        
        with torch.no_grad():
            for batch_idx, (inputs, targets) in enumerate(self.val_loader):
                # 将数据移动到设备
                inputs, targets = inputs.to(self.device), targets.to(self.device)
                
                # 前向传播
                outputs = self.model(inputs)
                loss = nn.functional.cross_entropy(outputs, targets)
                
                # 统计
                total_loss += loss.item()
                _, predicted = outputs.max(1)
                total += targets.size(0)
                correct += predicted.eq(targets).sum().item()
        
        return total_loss / len(self.val_loader), 100. * correct / total
    
    def cleanup(self):
        """清理资源"""
        hccl.finalize()
        print("资源清理完成")

# 使用示例
def main():
    # 设置参数
    rank = 0  # 当前进程的 rank
    world_size = 4  # 总进程数
    
    # 设置设备
    device = torch.device(f'npu:{rank}')
    
    # 创建模型
    model = torchvision.models.resnet50(pretrained=False, num_classes=1000)
    
    # 创建数据并行训练器
    trainer = DataParallelBestPractice(model, device, rank, world_size)
    
    # 应用最佳实践
    trainer.optimize_gradient_synchronization()
    trainer.optimize_learning_rate_scheduling(base_lr=0.1)
    trainer.optimize_batch_normalization()
    
    # 加载数据
    train_dataset = torchvision.datasets.ImageFolder(
        'data/train',
        transform=torchvision.transforms.Compose([
            torchvision.transforms.RandomResizedCrop(224),
            torchvision.transforms.RandomHorizontalFlip(),
            torchvision.transforms.ToTensor(),
            torchvision.transforms.Normalize(
                mean=[0.485, 0.456, 0.406],
                std=[0.229, 0.224, 0.225]
            )
        ])
    )
    
    # 创建分布式数据采样器
    train_sampler = torch.utils.data.distributed.DistributedSampler(
        train_dataset,
        num_replicas=world_size,
        rank=rank
    )
    
    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=32,
        sampler=train_sampler,
        num_workers=4
    )
    
    # 训练模型
    trainer.train(train_loader, num_epochs=100)
    
    # 清理资源
    trainer.cleanup()

if __name__ == '__main__':
    main()