登录社区云,与社区用户共同成长
邀请您加入社区
阐述大模型量化的基本概念,重点讲解W8A8、W4A8及稀疏量化等量化技术的原理与适用场景。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
手把手教你用stream做内存带宽压测详解
📌 鲲鹏 920 通常搭配 DDR4-2400/3200,单线程 ~15-20 GB/s,16 线程 ~80-120 GB/s 属于正常范围。例如:单线程 Triad = 18 GB/s,16 线程 Triad = 120 GB/s。Stream 的测试数组必须远大于 L3 缓存,否则测到的是缓存速度,不是内存速度。📌 你的机器是单路 16 核(NUMA node(s): 1),(1G/2G/
昇思大模型思维链(CoT)推理使用
昇思MindSpore大模型通过思维链(CoT)技术显著提升复杂推理任务性能。该技术采用分步推理方式,将问题拆解为多步中间过程,支持零样本、少样本、自洽采样等多种范式。依托MindFormers套件和盘古/DeepSeek等大模型,昇思提供完整的CoT实现方案,包括环境配置、代码实践和优化要点。实践表明,CoT技术使数学推理准确率提升至85%以上,多跳问答错误率降低40%。结合昇腾NPU硬件加速,
昇思推理系统优化目标与约束
昇思(MindSpore)推理系统优化聚焦性能、资源、精度和工程四大目标,在硬件、模型、部署等多重约束下,通过图算融合、内存复用、混合精度等关键技术实现平衡。系统提供端到端优化方案,包括环境配置、图算融合、KVCache优化等代码示例,可在昇腾平台上实现时延降低50%+、内存减少60%+、吞吐提升2-5倍的效果,同时满足精度要求,适用于端边云全场景AI推理部署。
扫一扫分享内容
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
所有评论(0)