登录社区云,与社区用户共同成长
邀请您加入社区
本次直播HCCL集合通信专用引擎CCU技术原理入手,讲解CCU的关键技术和CCU对昇腾芯片带来的改变。以8Pfull-mesh拓扑场景为例介绍CCU的开发使用和收益。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
手把手教你用stream做内存带宽压测详解
📌 鲲鹏 920 通常搭配 DDR4-2400/3200,单线程 ~15-20 GB/s,16 线程 ~80-120 GB/s 属于正常范围。例如:单线程 Triad = 18 GB/s,16 线程 Triad = 120 GB/s。Stream 的测试数组必须远大于 L3 缓存,否则测到的是缓存速度,不是内存速度。📌 你的机器是单路 16 核(NUMA node(s): 1),(1G/2G/
昇思大模型思维链(CoT)推理使用
昇思MindSpore大模型通过思维链(CoT)技术显著提升复杂推理任务性能。该技术采用分步推理方式,将问题拆解为多步中间过程,支持零样本、少样本、自洽采样等多种范式。依托MindFormers套件和盘古/DeepSeek等大模型,昇思提供完整的CoT实现方案,包括环境配置、代码实践和优化要点。实践表明,CoT技术使数学推理准确率提升至85%以上,多跳问答错误率降低40%。结合昇腾NPU硬件加速,
昇腾算力集群的组成:核心组件、架构解析
昇腾算力集群是基于华为昇腾芯片构建的AI计算系统,采用分层架构设计: 硬件层:以昇腾NPU为核心计算单元(Ascend 910训练芯片/Ascend 310推理芯片),搭配鲲鹏CPU和高速互联网络(HCCS协议,带宽200Gbps),通过分布式存储系统实现PB级数据支撑。 软件层:包含昇思MindSpore框架(原生适配昇腾硬件)和推理优化工具(如Ascend-vLLM),提供自动并行、显存优化等
扫一扫分享内容
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
所有评论(0)