大模型推理配方实战：DeepSeek/Qwen/GLM 在昇腾上的部署优化

大语言模型的推理部署是 AI 应用的关键环节，直接影响用户体验和运营成本。昇腾CANN 生态中的 cann-recipes-infer 仓库，为大模型在昇腾平台上的推理部署提供了经过验证的配方集合。该仓库覆盖了 DeepSeek、Qwen、GLM 等主流开源模型的部署方案，包括模型适配、性能优化、精度验证等完整流程。本文将深入解析该仓库的核心内容，帮助开发者快速掌握大模型推理的实战技能。

2601_96146717

86人浏览 · 2026-05-25 18:41:06

2601_96146717 · 2026-05-25 18:41:06 发布

前言

大模型推理的核心挑战在于如何在保证精度的前提下，最大化吞吐和降低延迟。昇腾 910 作为面向 AI 计算设计的处理器，具备高带宽内存、大容量片上存储以及专用加速单元，为大模型推理提供了坚实的硬件基础。cann-recipes-infer 仓库则将这些硬件能力转化为可复用的软件配方，显著降低了部署门槛。

正文

仓库架构与模型覆盖

cann-recipes-infer 采用配方（Recipe）的组织形式，每个配方对应一个特定模型的部署方案。配方内容包括模型下载、权重转换、推理脚本、性能调优参数等完整信息。开发者可直接使用配方进行部署，也可基于配方进行定制化修改。

当前仓库覆盖的模型系列包括：DeepSeek 系列（DeepSeek-V3、DeepSeek-Coder 等）、Qwen 系列（Qwen-7B/14B/72B、Qwen2.5 等）、GLM 系列（GLM-4、ChatGLM 等）。每个模型的配方都针对其架构特性进行了优化，例如 DeepSeek 的 MoE 架构需要特殊的专家调度策略，Qwen 的长上下文支持需要优化的 KV Cache 管理。

模型适配与权重转换

将 PyTorch 模型迁移到昇腾平台，首先需要完成权重格式转换。cann-recipes-infer 提供了标准化的转换脚本，将 HuggingFace 格式权重转换为昇腾推理引擎可用的格式。转换过程通常涉及张量重排、精度转换、分块存储等步骤。

# 权重转换示例：将 HuggingFace 权重转换为昇腾格式
# WHY: 不同推理引擎对权重布局有不同要求，转换可优化加载效率
import torch
from safetensors.torch import save_file

def convert_weights_for_ascend(hf_model_path, output_path):
    """
    将 HuggingFace 模型权重转换为昇腾优化格式
    
    转换要点：
    1. 张量名称映射：HF 名称 -> 昇腾引擎名称
    2. 精度处理：FP16 -> BF16（如需）
    3. 分块存储：超大张量按层分块，支持增量加载
    """
    from transformers import AutoModelForCausalLM
    
    # 加载原始模型
    # WHY: 使用 from_pretrained 可自动处理不同格式（bin/safetensors）
    model = AutoModelForCausalLM.from_pretrained(
        hf_model_path,
        torch_dtype=torch.float16,
        device_map="cpu"  # 转换时使用 CPU，避免显存限制
    )
    
    # 提取状态字典并重命名
    state_dict = {}
    for name, param in model.state_dict().items():
        # 昇腾引擎的命名约定可能不同
        # WHY: 统一命名便于推理引擎按约定加载
        new_name = map_tensor_name(name)
        
        # 精度转换（可选）
        # BF16 在昇腾 910 上有更好的数值稳定性
        if param.dtype == torch.float16:
            param = param.to(torch.bfloat16)
        
        state_dict[new_name] = param
    
    # 保存为 safetensors 格式
    # WHY: safetensors 支持零拷贝加载，减少内存占用
    save_file(state_dict, output_path)

def map_tensor_name(hf_name):
    """张量名称映射规则"""
    # 示例：transformer.h.0.attn.c_attn.weight -> layers.0.attention.qkv.weight
    name_mapping = {
        "transformer.h.": "layers.",
        ".attn.c_attn.": ".attention.qkv.",
        # ... 更多映射规则
    }
    for old, new in name_mapping.items():
        hf_name = hf_name.replace(old, new)
    return hf_name

权重转换的关键在于保证数值精度的一致性。cann-recipes-infer 中的转换脚本经过充分验证，转换后的模型在标准测试集上的输出与原模型高度一致。开发者在使用自定义模型时，可参考仓库中的转换模式进行适配。

推理引擎与性能优化

昇腾CANN 提供了多种推理引擎选择，包括 MindSpore Lite、Torch_npu 直接推理等。cann-recipes-infer 针对不同引擎提供了对应的配方，开发者可根据应用场景选择合适的方案。

性能优化的核心手段包括：KV Cache 优化、连续批处理、张量并行、流水线并行等。这些技术在仓库中都有对应的配置示例。

# KV Cache 优化配置
# WHY: 大模型推理的主要开销在解码阶段，KV Cache 管理直接影响延迟和吞吐
class KVCacheConfig:
    # PagedAttention 配置：将 KV Cache 分页管理，提高内存利用率
    # WHY: 传统连续分配会导致内存碎片，分页管理可动态分配
    num_blocks = 1024  # 页块数量
    block_size = 16    # 每页的 token 数量
    
    # KV Cache 精度：INT8 量化可节省 50% 内存
    # WHY: 注意力机制对精度敏感，需验证量化误差影响
    cache_dtype = "int8"
    
    # 预分配策略：推理开始前分配所有 KV Cache
    # WHY: 避免推理过程中动态分配带来的延迟抖动
    preallocate = True

# 连续批处理配置
# WHY: 批量推理时，不同请求的生成长度不同，连续批处理可动态调度
class ContinuousBatchingConfig:
    max_batch_size = 32      # 最大批大小
    max_num_seqs = 128       # 最大并发序列数
    max_model_len = 4096     # 最大序列长度
    
    # 调度策略
    # WHY: 先进先出（FIFO）简单但可能造成队头阻塞
    # 优先级调度可优化长尾延迟
    scheduler = "priority"   # fifo / priority / preemption

连续批处理是大模型推理服务的关键技术。传统静态批处理需要等待所有请求完成才能返回，导致短请求被长请求拖慢。连续批处理允许在批处理过程中动态加入新请求、移除已完成请求，显著提升整体吞吐。cann-recipes-infer 中的配置示例展示了如何调整批处理参数以平衡吞吐和延迟。

张量并行与流水线并行

对于超大参数模型（如 Qwen-72B、DeepSeek-V3），单卡显存无法容纳完整模型，必须采用并行策略。昇腾CANN 支持张量并行（Tensor Parallelism, TP）和流水线并行（Pipeline Parallelism, PP）两种主要模式。

张量并行将模型层内的矩阵按行列切分到多卡，每卡持有部分权重，通过 AllReduce 同步计算结果。这种方式通信频繁，但每个 token 的处理都可并行，延迟较低。流水线并行将模型层按顺序分配到多卡，每卡持有一段连续的层，通过点对点通信传递中间激活。这种方式通信较少，但存在流水线气泡，吞吐受影响。

# 并行策略配置示例
# WHY: 不同模型架构和硬件拓扑适合不同并行策略
class ParallelConfig:
    # 张量并行度
    # WHY: TP 适合层内计算密集型算子，如矩阵乘法
    # TP 度数通常选择 2/4/8，对应卡数
    tensor_parallel_size = 4
    
    # 流水线并行度
    # WHY: PP 适合层数多的模型，减少层间通信
    # PP 度数 = 总卡数 / TP 度数
    pipeline_parallel_size = 2
    
    # 混合并行示例：8 卡部署 Qwen-72B
    # TP=4, PP=2：每 4 卡组成一个张量并行组
    # 共 2 个 PP 阶段，每阶段 4 卡
    # WHY: 这种配置平衡了通信开销和内存占用
    
    # 优化：PP 的气泡可通过 micro-batch 减小
    num_micro_batches = 4  # micro-batch 数量

cann-recipes-infer 为每个模型提供了推荐的并行配置，开发者可根据实际硬件资源进行调整。仓库中的性能基准数据（仅供参考）展示了不同配置下的吞吐和延迟指标，便于评估优化效果。

MoE 模型的特殊优化

DeepSeek 系列模型采用 Mixture-of-Experts（MoE）架构，其推理优化面临独特挑战。MoE 模型的每个 token 只激活部分专家，导致专家负载不均衡和通信模式复杂。cann-recipes-infer 中的 DeepSeek 配方针对这些挑战提供了专门的优化策略。

专家负载均衡通过动态调度实现：推理时记录每个专家的负载情况，将新 token 路由到负载较低的副本。这种策略需要多卡协同，仓库中提供了相关的调度代码示例。专家通信优化则采用 All-to-All 通信模式，昇腾硬件的高带宽互联为此提供了基础支持。

# MoE 专家调度示例
# WHY: MoE 模型的专家激活不均衡，需要动态调度
class MoEScheduler:
    def __init__(self, num_experts, num_devices):
        self.num_experts = num_experts
        self.num_devices = num_devices
        # 专家到设备的映射：每个专家可能有多个副本
        self.expert_to_devices = self._build_expert_mapping()
        
    def route_token(self, token, expert_id):
        """将 token 路由到目标专家的最优设备"""
        # WHY: 选择负载最低的设备处理该专家的计算
        candidate_devices = self.expert_to_devices[expert_id]
        
        # 负载感知调度
        # 统计各设备当前队列长度，选择最空闲的
        min_load = float('inf')
        selected_device = candidate_devices[0]
        
        for device in candidate_devices:
            load = self.get_device_load(device)
            if load < min_load:
                min_load = load
                selected_device = device
        
        return selected_device
    
    def _build_expert_mapping(self):
        """构建专家到设备的映射"""
        # 示例：128 专家分布在 8 卡上，每卡 16 个专家
        # WHY: 这种映射需考虑专家间的共现模式
        mapping = {}
        experts_per_device = self.num_experts // self.num_devices
        
        for i in range(self.num_experts):
            device_idx = i // experts_per_device
            if i not in mapping:
                mapping[i] = []
            mapping[i].append(device_idx)
        
        return mapping

精度验证与回归测试

模型迁移后必须进行精度验证，确保推理结果与原模型一致。cann-recipes-infer 提供了标准化的验证流程，包括固定输入测试、随机输入测试、标准数据集测试等多个层次。验证指标包括输出 token 序列一致率、perplexity 差异、人工评估等。

精度问题的常见原因包括：浮点精度差异（FP16 vs BF16）、量化误差、算子实现差异等。仓库中的调试工具可以帮助定位问题根因。开发者在遇到精度偏差时，应首先检查权重转换是否正确，然后逐层比对中间激活值，最终定位到具体算子。

结尾

cann-recipes-infer 仓库为大模型在昇腾平台上的推理部署提供了开箱即用的配方集合。通过该仓库，开发者可以快速部署 DeepSeek、Qwen、GLM 等主流模型，并根据实际需求进行性能优化。仓库中的配置示例、性能数据和调试工具，覆盖了从模型适配到生产部署的完整链路，是大模型推理实践的宝贵资源。

随着大模型技术的快速发展，cann-recipes-infer 持续更新，跟进最新的模型架构和优化技术。开发者应关注仓库的更新动态，及时获取新的配方和优化方案。在实际应用中遇到问题时，可参考仓库中的示例代码和配置，结合昇腾CANN 文档进行深入分析。

仓库地址: https://gitee.com/ascend/cann-recipes-infer