登录社区云,与社区用户共同成长
邀请您加入社区
化繁为简,训练加速!
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
手把手教你用stream做内存带宽压测详解
📌 鲲鹏 920 通常搭配 DDR4-2400/3200,单线程 ~15-20 GB/s,16 线程 ~80-120 GB/s 属于正常范围。例如:单线程 Triad = 18 GB/s,16 线程 Triad = 120 GB/s。Stream 的测试数组必须远大于 L3 缓存,否则测到的是缓存速度,不是内存速度。📌 你的机器是单路 16 核(NUMA node(s): 1),(1G/2G/
昇腾算力集群的组成:核心组件、架构解析
昇腾算力集群是基于华为昇腾芯片构建的AI计算系统,采用分层架构设计: 硬件层:以昇腾NPU为核心计算单元(Ascend 910训练芯片/Ascend 310推理芯片),搭配鲲鹏CPU和高速互联网络(HCCS协议,带宽200Gbps),通过分布式存储系统实现PB级数据支撑。 软件层:包含昇思MindSpore框架(原生适配昇腾硬件)和推理优化工具(如Ascend-vLLM),提供自动并行、显存优化等
MindSpore分布式并行原理与实战
摘要:MindSpore框架提供四种分布式并行训练模式(数据并行、半自动并行、自动并行、混合并行),支持昇腾、GPU等硬件平台。通过SPMD编程范式实现多设备协同训练,开发者无需修改模型结构即可快速实现分布式训练。本文详细解析四种并行模式原理,提供数据并行和半自动并行的完整代码示例,涵盖通信初始化、数据集切分、模型配置等关键环节,并给出性能优化技巧。MindSpore的分布式能力显著降低开发门槛,
扫一扫分享内容
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
所有评论(0)