摘要

随着大模型日益发展,包括参数规模与序列长度不断扩展,以及多模态、Agent等新场景应用的驱动,单双机与大EP等部署形态推陈出新,大模型推理也面临新的性能瓶颈,因此对大模型压缩技术提出了新的需求与挑战。

一、深度学习时代模型压缩

深度学习时代,模型参数规模在10M~100M量级,典型模型如ResNet50、BERT-base等,推理部署形态通常为单卡部署一个或多个模型,模型压缩的主要作用在于减小模型体积与计算量:

压缩技术 简要说明
量化 由于模型参数规模小,通常为W8A8/W4A4量化
结构剪枝 通常为channel-wise/layer-wise裁剪,如Taylor-prunning、DynaBERT
低秩分解 如对权重进行SVD分解
半结构稀疏 如2:4稀疏、block-wise稀疏,通常对权重进行稀疏化
知识蒸馏 教师模型输出作为ground truth,诱导小模型训练

二、大模型时代关键压缩技术

以LLM语言大模型为例,推理瓶颈主要体现在Prefill(扩散生成也表现为并行计算)、Decode权重访存

 

推理阶段

简要说明

① Prefill

1. 计算密集型,包括Linear Matmul与Attention计算

2. 随序列增加,计算量急剧上升

② Decode

1. Token by token解码

2. 访存密集型,包括权重与KV Cache访存

3. 短序列场景,权重占主导;长序列场景,KV Cache占主导

③ 权重访存

1. 大模型权重访存引起的推理开销,在Prefill与Decode阶段,都有影响

由于大模型推理范式/部署形态与深度学习模型有着本质区别,如LLM自回归范式、DiT扩散范式、以及分布式并行等集群系统架构,因此大模型压缩需要拥抱新的应用需求、并直面新的技术挑战。可定义如下大模型压缩关键技术与分类标准,作用于大模型推理的不同阶段(以LLM为例),针对性缓解推理性能瓶颈:

压缩技术

分类标准

推理阶段

简要说明

量化压缩

权重量化

权重访存

降低线性层的权重搬运开销,如AWQ、GPTQ、Qserve,以及极低比特量化(如BiLLM、BitNet)等

权重激活量化

Prefill/权重访存

使能线性层的低比特矩阵乘,如Outlier Suppression+、DartQuant、LLM.int8等

激活量化

Prefill/Decode

QKV激活、通信激活量化,如KVTuner、FA3、SageAttention、通信FP8量化等

VQ量化

权重访存/Decode

基于codebook,等效实现低比特量化,如PQCache、AQLM、VQ-LLM、CQ等

KV Cache

压缩

序列维度

Decode

基于Attention稀疏性,丢弃KV或稀疏检索,降低KV Cache访存开销,如RazorAttention、FreeKV

特征维度

Decode

通过特征降维,实现KV Cache压缩,如Palu、MLA、MFA

层维度

Decode

层间KV Cache共享,减少KV Cache容量,如miniCache

Head维度

Decode

通过Head共享,压缩KV Heads,如GQA、MQA

数值维度

Decode

KV Cache低比特量化,如KVQuant、KIVI

稀疏压缩

权重稀疏

Prefill/权重访存

静态稀疏化压缩,包括结构剪枝、半结构稀疏、非结构稀疏,如SparseGPT、Wanda、LLM-pruner

激活稀疏

Prefill

对激活实施动态稀疏化,包括半结构稀疏、块稀疏等

权重激活稀疏

Prefill/权重访存

对权重激活同时实施稀疏化

Attention稀疏

Prefill

基于Attention稀疏性,降低Attention计算开销,如RainFusion、AdaSpa

数据压缩

无损压缩

权重访存/Decode

包括熵编码、游程编码、算术编码等

有损压缩

权重访存/Decode

包括浮点数尾数裁剪、低比特近似(Spark、Olive)等

以DeepSeek-V3/R1大模型以及大EP部署为例,推理系统涉及计算、访存与通信瓶颈,大模型压缩技术可有效缓解性能瓶颈、发挥关键作用:

推理瓶颈

简要说明

关键压缩技术

① ⑤

计算/访存瓶颈

1.权重搬运开销

2.大Batch计算bound

量化压缩、稀疏压缩、数据压缩

② 访存瓶颈

长序列或大Batch,KV Cache开销

KV Cache压缩、稀疏压缩、数据压缩

③ 计算瓶颈

长序列或大Batch,Attention计算开销

KV Cache压缩、量化压缩、稀疏压缩

④ 通信瓶颈

通信带宽受限、或通信imbalance,拖尾性能

量化压缩、数据压缩

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐