昇思训练营—模型推理和性能优化
将模型权重和激活值从高精度(如 FP32)转换为低精度(如 FP16、BF16、INT8、INT4 甚至 INT2),减少内存占用和计算量。用 “大模型(教师模型)” 的输出指导 “小模型(学生模型)” 训练,使小模型学到大模型的知识,在参数量大幅减少的情况下保持接近的精度。移除模型中 “冗余” 的参数或结构(如权重接近 0 的神经元、不重要的卷积核),降低模型复杂度。
·
- 量化(Quantization)
-
将模型权重和激活值从高精度(如 FP32)转换为低精度(如 FP16、BF16、INT8、INT4 甚至 INT2),减少内存占用和计算量。
优点:无需修改模型结构,兼容多数硬件加速(如 GPU 的 Tensor Core、NPU 的 INT8 计算单元)。关键技术:校准(Calibration)确定量化范围,避免精度损失过大;混合精度量化(部分层用高精度,部分用低精度)平衡精度与性能。 -
剪枝(Pruning)
类型:结构化剪枝(移除整个通道 / 层,保持模型结构规则,利于硬件加速)、非结构化剪枝(移除单个权重,可能破坏结构,需专用推理引擎支持)。
移除模型中 “冗余” 的参数或结构(如权重接近 0 的神经元、不重要的卷积核),降低模型复杂度。 -
知识蒸馏(Knowledge Distillation)
典型场景:用 10 亿参数模型蒸馏出千万级参数模型,适配移动端部署。
用 “大模型(教师模型)” 的输出指导 “小模型(学生模型)” 训练,使小模型学到大模型的知识,在参数量大幅减少的情况下保持接近的精度。
-
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐


所有评论(0)