模型瘦身实战：AMCT 量化工具从入门到落地

song501

474人浏览 · 2026-05-22 19:38:05

song501 · 2026-05-22 19:38:05 发布

在这里插入图片描述

前言

模型太大了，显存不够、推理太慢、部署成本高。量化是最直接的解决方案——把 FP32 压成 INT8，显存省 4 倍，计算量也能下降。

AMCT（Ascend Model Compression Tool）是昇腾的模型量化工具，支持训练后量化（PTQ）和量化感知训练（QAT），把 PyTorch/ONNX 模型转成 INT8 后部署到昇腾 NPU。

量化的基本原理

神经网络里的权重和激活值，大部分分布在 -1 到 1 之间，用 FP32 存很浪费。INT8 只需要 256 个离散值，通过映射关系把 FP32 压过去：

FP32 → 量化 → INT8
INT8 → 反量化 → FP32（有精度损失）

量化有两种方式：

方式	说明	精度损失	适用场景
对称量化	零点固定为 0	较大	权重量化
非对称量化	零点可调	较小	激活量化

实际推理时，大部分算子用 INT8 计算，关键算子（LayerNorm、Softmax）保留 FP16/FP32 保精度。

AMCT 的量化流程

方案一：训练后量化（PTQ）

不需要重新训练，用少量校准数据跑一遍，统计每层的激活分布，确定量化参数。

原始模型 → 校准数据采样 → 量化参数计算 → INT8 模型

优点：简单快速，不需要重训练
缺点：精度损失比 QAT 大

方案二：量化感知训练（QAT）

在训练过程中模拟量化误差，让模型学会适应低精度。

原始模型 → 插入量化节点 → 微调训练 → INT8 模型

优点：精度损失小
缺点：需要训练资源和时间

实战：ResNet50 量化（PTQ）

Step 1：准备校准数据

import torch
from torchvision import datasets, transforms

# 校准数据（100-500 张即可）
calib_dataset = datasets.ImageFolder(
    "calib_data/",
    transform=transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])
)

calib_loader = torch.utils.data.DataLoader(
    calib_dataset, batch_size=32, shuffle=False
)

Step 2：加载模型并量化

import amct_pytorch as amct
from torchvision.models import resnet50

# 加载原始模型
model = resnet50(pretrained=True)
model.eval（)

# 创建量化配置
config = amct.create_quant_config(
    model,
    activation_offset=True,  # 非对称量化
    batch_num=32  # 校准 batch 数
)

# 插入量化节点
quant_model = amct.quantize_model(model, config)

# 校准
with torch.no_grad():
    for i, (data, _) in enumerate(calib_loader):
        if i >= config.batch_num:
            break
        quant_model(data)

# 导出量化后的模型
amct.save_model(quant_model, "resnet50_quant.onnx")

Step 3：编译部署

# 编译成 .om
atc --model=resnet50_quant.onnx \
    --framework=5 \
    --output=resnet50_quant \
    --soc_version=Ascend910

精度与性能对比

ResNet50（ImageNet 验证集）：

模型	精度	显存	延迟（batch=32）
FP32 原始	76.15%	512MB	12.4ms
INT8 PTQ	75.82%	138MB	6.8ms
INT8 QAT	76.01%	138MB	6.9ms

PTQ 精度损失 0.33%，显存省 4 倍，延迟降 45%。QAT 精度几乎无损，但需要额外的训练时间。

进阶：混合精度量化

不是所有层都适合量化。某些敏感层（第一层卷积、最后一层全连接）量化后精度损失大，可以保留 FP16。

# 指定敏感层保留高精度
skip_layers = [
    "conv1",      # 第一层卷积
    "fc"          # 最后一层全连接
]

config = amct.create_quant_config(
    model,
    skip_layers=skip_layers
)