HCCL集合通信专用引擎CCU技术介绍

Lchhhhh666

7人浏览 · 2026-03-24 18:46:08

Lchhhhh666 · 2026-03-24 18:46:08 发布

本次直播HCCL集合通信专用引擎CCU技术原理入手，讲解CCU的关键技术和CCU对昇腾芯片带来的改变。以8Pfull-mesh拓扑场景为例介绍CCU的开发使用和收益。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

手把手教你用stream做内存带宽压测详解

📌 鲲鹏 920 通常搭配 DDR4-2400/3200，单线程 ~15-20 GB/s，16 线程 ~80-120 GB/s 属于正常范围。例如：单线程 Triad = 18 GB/s，16 线程 Triad = 120 GB/s。Stream 的测试数组必须远大于 L3 缓存，否则测到的是缓存速度，不是内存速度。📌 你的机器是单路 16 核（NUMA node(s): 1），（1G/2G/

鲲鹏昇腾开发者社区

昇思大模型思维链（CoT）推理使用

昇思MindSpore大模型通过思维链(CoT)技术显著提升复杂推理任务性能。该技术采用分步推理方式，将问题拆解为多步中间过程，支持零样本、少样本、自洽采样等多种范式。依托MindFormers套件和盘古/DeepSeek等大模型，昇思提供完整的CoT实现方案，包括环境配置、代码实践和优化要点。实践表明，CoT技术使数学推理准确率提升至85%以上，多跳问答错误率降低40%。结合昇腾NPU硬件加速，

鲲鹏昇腾开发者社区

昇腾算力集群的组成：核心组件、架构解析

昇腾算力集群是基于华为昇腾芯片构建的AI计算系统，采用分层架构设计：硬件层：以昇腾NPU为核心计算单元（Ascend 910训练芯片/Ascend 310推理芯片），搭配鲲鹏CPU和高速互联网络（HCCS协议，带宽200Gbps），通过分布式存储系统实现PB级数据支撑。软件层：包含昇思MindSpore框架（原生适配昇腾硬件）和推理优化工具（如Ascend-vLLM），提供自动并行、显存优化等