大模型推理显存评估与影响因素分析

孙铭择

96人浏览 · 2025-12-29 17:56:29

孙铭择 · 2025-12-29 17:56:29 发布

——作者：昇腾实战派

1. 背景

在开发过程中，我们经常遇到的一个问题是：部署某个大模型至少需要多少张显卡。虽然昇腾社区提供了模型支持列表，但该列表覆盖的模型有限，无法满足所有需求。

此外，在性能要求不高的场景中，出于成本考虑，我们往往希望用最少的卡数进行部署，因此需要自行评估显存需求。本文对大模型推理显存的评估方法及主要影响因素进行简要总结。

2. 经验法则估计

2.1 公式1

以Qwen3-14B模型为例，若使用FP16精度（每参数占2字节），则最小显存需求为：14 × 2 + 10 = 38 GB。此时可使用一张显存为64 GB的昇腾910B卡或一张48 GB的300I Duo卡进行推理。

2.2 公式2

➢ 基础内存 = 模型参数量*精度

➢ 工作内存 = 激活值（包含kv cache和逐层计算释放的激活值）+ 临时缓存

➢ 系统预留：因为操作系统和其他程序也会占用显存资源，如果显存被模型完全占用，可能会导致系统不稳定甚至崩溃。根据经验，建议预留至少 500MB 到 1GB 的显存作为系统缓冲区。

如：Qwen3-14B模型，虽然在单卡910B4上可以运行，但推荐部署卡数为双卡，以保证性能和精度。

3. 精确计算方法与原理

显存占用的主要来源	说明
1. 模型参数（Model Parameters）	如果希望获取最佳的推理性能需要将模型权重完全加载到显卡上，因此权重参数是显存占用的最大部分。
2. 激活值（Activations / KV Cache）	激活值指的是前向传播过程中每一层的中间输出，在推理过程中大部分参数完成传播后会自行释放，除kv cache外需保留的部分只占总显存的1%左右可以忽略不计，但自回归生成的Key-Value 缓存（KV Cache）会一直保留，是推理时第二大显存开销。
3. 临时缓存（Temporary Buffers）	部分临时变量，主要由框架动态分配，约占总显存的10%~20%。

3.1 模型参数

3.1.1 原理

模型参数是模型的核心权重，存储在显存中。每个参数的存储格式（精度FP16、INT8等）直接影响显存占用。

3.1.2 计算公式

➢单个参数的字节数，取决于数据类型：

○ FP32（32位浮点数）：4 字节

○ FP16/BF16（16位浮点数）：2 字节

○ INT8（8位整型）：1 字节

例如，Qwen3-14B模型有14B参数，使用FP16精度存储：

3.1.3 查看模型参数量：

部分模型直接标注参数量（如Qwen3-14B），未标注的模型可通过Hugging Face模型仓库等平台查询模型卡信息。例如，GLM-4.5的参数量为358B。

3.2 激活值（不含KV cache）

3.2.1 原理

激活值主要指的是模型在前向传播过程中产生的中间结果，其包含了各层的输出，并不单指激活函数相关的值，存储推理过程中每一层的中间结果，其大小与输入序列长度和模型的隐藏层大小直接相关。

对于推理任务，激活值具有逐层计算与释放的特点即每层激活值在计算完下一层后立即释放，不会长期占用。因此激活值在推理过程中占用显存相对较少，所以除kv cache外其他激活值对显存的占用几乎可以忽略。（在模型训练过程中，会存储前向传播的所有中间变量（激活）结果，称为 memory_activations，用以在反向传播过程中计算梯度时使用。）

类型	是否常驻	说明
1. 输入嵌入（Input Embeddings）	✅ 是	序列长度 × 隐藏维度
2. 每层注意力输入/输出	❌ 否	计算完即释放，不累积
3. MLP 中间激活（如 SwiGLU）	❌ 否	一般不缓存
4. KV Cache（Key/Value States）	✅ 是	每层每头缓存，随序列增长
5. 残差连接输入	❌ 否	多数框架即时计算
6. LayerNorm 统计量	❌ 否	通常不缓存

3.3 KV-Cache

3.3.1 原理

理论上KV-Cache是激活值的子集，或者说是典型应用。在推理过程中大部分激活值完成当前层的前向传播后就会被释放，但是为了避免重复计算KV-Cache会被全部缓存，单独管理。

3.3.2 计算公式

➢ 2：Key和Value两个矩阵各占一次存储

➢ batch_size：批大小

➢ sequence_length：序列长度即输入输出总token数

➢ Layers_num：模型层数

➢ hidden_size：Transformers的隐层维度

➢ precision：kv cache缓存精度，通常与模型精度一致

3.3.3 注意事项

kv cache的大小会随着序列长度线性增长，对于长文本推力需求需要提供更大的显存空间。

3.4 临时缓存

3.4.1原理：

临时缓存主要是框架开销，包括矩阵乘法、卷积等产生的中间变量，这些显存通常由框架动态分配，难以精确计算，估算值通常为模型参数和和激活值（含kv）总和的10%~20%。

4. 参考文献

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

一天一个昇腾Skill小技巧：1小时完成Triton Vector算子开发

指标目标实际状态性能表现约 1.15x PyTorch✅ 达标精度验证通过100% 通过✅ 完成代码质量优秀优秀✅ 完成文档完整性完整完整✅ 完成开发效率提升：传统方式需要 2-3 天完成的算子开发，使用 Triton Skills 后缩短至 1 小时，且代码质量有保障。Triton Skills 通过模块化的技能体系，将昇腾 NPU 上 Triton 算子开发的最佳实践固化为一套可复用的工作流程

鲲鹏昇腾开发者社区

华为鲲鹏 920 CentOS7 无法启动完整修复实录

鲲鹏昇腾开发者社区

2026年中国中小企业AI营销基础设施调研报告：超算一体机市场格局与选型策略

因为当算力不再稀缺、模型不再神秘之后，真正决定企业AI营销成败的，从来不是看谁的GPU更多，而是看谁能真正帮助企业在本地安全地积累数据资产，谁能真正懂企业的业务逻辑，谁能陪伴企业走完整条AI转型之路。搭载自研玄武大模型（已通过工信部备案），通过"玄武大模型+奔腾OS+超算一体机"的软硬一体方案，解决跨设备兼容与AI部署门槛高的痛点。以神州鲲泰KunTai A989 I3、天翼云息壤智算一体机为代表