昇思训练营—模型推理和性能优化

将模型权重和激活值从高精度（如 FP32）转换为低精度（如 FP16、BF16、INT8、INT4 甚至 INT2），减少内存占用和计算量。用 “大模型（教师模型）” 的输出指导 “小模型（学生模型）” 训练，使小模型学到大模型的知识，在参数量大幅减少的情况下保持接近的精度。移除模型中 “冗余” 的参数或结构（如权重接近 0 的神经元、不重要的卷积核），降低模型复杂度。

lugang139

106人浏览 · 2025-08-04 19:47:04

lugang139 · 2025-08-04 19:47:04 发布

量化（Quantization）
- 将模型权重和激活值从高精度（如 FP32）转换为低精度（如 FP16、BF16、INT8、INT4 甚至 INT2），减少内存占用和计算量。
  优点：无需修改模型结构，兼容多数硬件加速（如 GPU 的 Tensor Core、NPU 的 INT8 计算单元）。关键技术：校准（Calibration）确定量化范围，避免精度损失过大；混合精度量化（部分层用高精度，部分用低精度）平衡精度与性能。
- 剪枝（Pruning）
  移除模型中 “冗余” 的参数或结构（如权重接近 0 的神经元、不重要的卷积核），降低模型复杂度。
  类型：结构化剪枝（移除整个通道 / 层，保持模型结构规则，利于硬件加速）、非结构化剪枝（移除单个权重，可能破坏结构，需专用推理引擎支持）。
- 知识蒸馏（Knowledge Distillation）
  用 “大模型（教师模型）” 的输出指导 “小模型（学生模型）” 训练，使小模型学到大模型的知识，在参数量大幅减少的情况下保持接近的精度。
  典型场景：用 10 亿参数模型蒸馏出千万级参数模型，适配移动端部署。