【昇腾MindIE技术公开课】昇腾大模型量化技术

鲲鹏昇腾开发者社区

203人浏览 · 2026-01-13 09:44:50

鲲鹏昇腾开发者社区 · 2026-01-13 09:44:50 发布

阐述大模型量化的基本概念，重点讲解W8A8、W4A8及稀疏量化等量化技术的原理与适用场景。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

手把手教你用stream做内存带宽压测详解

📌 鲲鹏 920 通常搭配 DDR4-2400/3200，单线程 ~15-20 GB/s，16 线程 ~80-120 GB/s 属于正常范围。例如：单线程 Triad = 18 GB/s，16 线程 Triad = 120 GB/s。Stream 的测试数组必须远大于 L3 缓存，否则测到的是缓存速度，不是内存速度。📌 你的机器是单路 16 核（NUMA node(s): 1），（1G/2G/

鲲鹏昇腾开发者社区

昇思大模型思维链（CoT）推理使用

昇思MindSpore大模型通过思维链(CoT)技术显著提升复杂推理任务性能。该技术采用分步推理方式，将问题拆解为多步中间过程，支持零样本、少样本、自洽采样等多种范式。依托MindFormers套件和盘古/DeepSeek等大模型，昇思提供完整的CoT实现方案，包括环境配置、代码实践和优化要点。实践表明，CoT技术使数学推理准确率提升至85%以上，多跳问答错误率降低40%。结合昇腾NPU硬件加速，

鲲鹏昇腾开发者社区

昇思推理系统优化目标与约束

昇思（MindSpore）推理系统优化聚焦性能、资源、精度和工程四大目标，在硬件、模型、部署等多重约束下，通过图算融合、内存复用、混合精度等关键技术实现平衡。系统提供端到端优化方案，包括环境配置、图算融合、KVCache优化等代码示例，可在昇腾平台上实现时延降低50%+、内存减少60%+、吞吐提升2-5倍的效果，同时满足精度要求，适用于端边云全场景AI推理部署。