登录社区云,与社区用户共同成长
邀请您加入社区
https://cloud-atlas.readthedocs.io/zh_CN/latest/ceph/index.html
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
K8S大EP开启Metrics监控
在基于Kubernetes部署MindIE大模型服务(大EP)时,PD分离架构是常见场景,其中用户请求需经调度器(Coordinator)转发至处理节点(P节点)与解码节点(D节点)。为实时监控服务性能、请求状态及资源利用率,需开启Metrics监控功能。本指南针对PD分离场景,详细说明如何通过修改Coordinator配置启用Prometheus格式的监控指标,便于集成可视化监控工具(如Prom
【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化
本文介绍了智谱GLM4.5/GLM4.6模型的推理性能优化方法,重点提供量化权重导出方案。首先需要准备硬件环境(910B 8卡)和软件环境(CANN 8.2.RC1、msmodelslim等),通过下载官方镜像并安装必要的Python库完成环境配置。针对量化工具msmodelslim的特殊适配需求,文章详细说明了如何修改相关代码文件,包括新建__init__.py和glm4moe.py文件,并实现
【DeepSeek-模型解读】DeepSeek-V3模型特性之FP8混合精度训练
受此前低精度训练优势的启发,文章提出了使用FP8数据格式的细粒度混合精度框架用于DeepSeek-V3的训练。尽管低精度训练有巨大的潜力,但经常被激活值、权重、梯度的异常值限制。虽然在推理量化上已经有重大进步,但是低精度技术在大规模语言模型预训练中的成功应用相对较少。为了应对这一挑战并且有效地拓宽FP8格式的动态范围,文章引入了细粒度量化策略:切片分组和分块分组量化。在提高累加精度。
扫一扫分享内容
所有评论(0)