登录社区云,与社区用户共同成长
邀请您加入社区
https://www.zhihu.com/question/488475148/answer/2144010995华为 9 月 25 日全新发布的 openEuler 欧拉操作系统是不是套壳CentOS 操作系统? - 知乎
https://www.zhihu.com/question/488475148/answer/2144010995
华为 9 月 25 日全新发布的 openEuler 欧拉操作系统是不是套壳CentOS 操作系统? - 知乎
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
K8S大EP开启Metrics监控
在基于Kubernetes部署MindIE大模型服务(大EP)时,PD分离架构是常见场景,其中用户请求需经调度器(Coordinator)转发至处理节点(P节点)与解码节点(D节点)。为实时监控服务性能、请求状态及资源利用率,需开启Metrics监控功能。本指南针对PD分离场景,详细说明如何通过修改Coordinator配置启用Prometheus格式的监控指标,便于集成可视化监控工具(如Prom
【vLLM-模型特性适配】Minimax模型特性分析
本文分析了Minimax公司发布的大模型架构的创新技术及其应用。重点介绍了Lightning Attention结构,通过结合Linear Attention与分块计算实现线性复杂度,支持超长上下文处理(训练100万tokens/推理400万tokens)。文章还解析了CISPO算法如何优化PPO在长序列生成中的梯度裁剪问题,以及主流线性注意力模型(如Qwen3_next、Kimi Linear等
【DeepSeek-模型解读】DeepSeek-V3模型特性之FP8混合精度训练
受此前低精度训练优势的启发,文章提出了使用FP8数据格式的细粒度混合精度框架用于DeepSeek-V3的训练。尽管低精度训练有巨大的潜力,但经常被激活值、权重、梯度的异常值限制。虽然在推理量化上已经有重大进步,但是低精度技术在大规模语言模型预训练中的成功应用相对较少。为了应对这一挑战并且有效地拓宽FP8格式的动态范围,文章引入了细粒度量化策略:切片分组和分块分组量化。在提高累加精度。
扫一扫分享内容
所有评论(0)