鲲鹏赋能算力卡集群组网，打造MOE大模型高效推理

CSDN资讯 · 2026-06-11 11:14:51 发布

鲲鹏基于灵衢互联打造多机超节点，实现800GB/s全网状互联，无需专用交换设备。支持2-8节点灵活组网，最多挂载64张计算卡，PCIe与UB协同满足张量并行与专家并行的带宽时延要求。CPU内存统一编址可容纳大容量KV Cache，降低Engram内存，实现轻量化、高性价比的千亿MoE集群推理。

特性介绍

千亿或万亿参数的MoE模型通常难以适配单机8卡部署，需通过多机组网方式来满足MoE的模型权重和KV Cache对片上内存容量的需求，并且现有集群组网须依赖专用卡间互联专有网络或多网卡搭建RDMA网络，这些方案都需额外增加互联设备，机柜复杂度高，如何实现轻量化MoE大模型推理亟待突破。

鲲鹏依托灵衢互联打造多机互联的超节点，可实现整机双向800GB/s聚合带宽，如下图所示，每个节点的CPU服务器可与其他节点进行全网状互联，为每个节点提供均衡互联高带宽，CPU节点数可从2到8任意组合，满足不同计算卡数、不同模型的组网诉求。

图1：基于灵衢互联的8节点FullMesh组网

优势分析

图2：基于PCIe Switch和NIC的典型组网方案

目前，大部分算力卡的互联方案依赖PCIe Switch和NIC，跨节点通信存在以下问题：

时延高：跨节点RDMA通信带宽利用率低、时延高。在EP并行、大规模稀疏数据访问（如搜推广的embedding table稀疏访问）等场景下时延问题尤为突出。

带宽收敛：跨节点PCIe Switch直连方案会出现带宽汇聚与争用，导致单卡可用带宽下降。

成本高：跨节点通信依赖额外的PCIe lanes和NIC设备，带来更高成本。

基于灵衢互联的集群组网可以打破这些限制，实现：

跨节点带宽零收敛：节点间大带宽低延迟通信，无带宽收敛

统一编址：基于灵衢互联，并结合openEuler的GMEM成熟生态，可以实现超节点内GPU、CPU、内存的统一编址

硬件成本优化：无需额外互联设备，即可实现多节点高性能通信

图3：基于灵衢互联的多节点集群组网方案

鲲鹏CPU服务器原生同时提供PCIe接口与UB接口，叠加灵衢能力，实现：

支持本地CPU-GPU与GPU-GPU通信

支持多节点算力卡灵衢互联，形成高带宽低延迟的小型多机推理集群

最大可挂载64张计算卡，满足：

整个集群无需额外互联设备，实现了轻量化、易部署、高性价比的推理方案。

同时，鲲鹏多机推理集群结合CPU节点间统一内存编址优势，可以为KV Cache提供跨节点大容量DDR存储，并有效减少每个节点上Engram的重复内存开销，从而进一步提升资源利用率与系统吞吐。

基于鲲鹏处理器和灵衢互联的大带宽、低时延以及内存语义通信，我们构建对等计算架构，减少数据交换，打造高性能计算网络，助力算力卡集群组网，在MoE大模型轻量推理场景下实现有效算力提升。

更多推荐

昇腾CANN主机通信库hcomm深度解读：从PCIe直连通信到跨设备数据共享的硬件感知传输机制

昇腾CANN ops-cv仓库实战指南：5分钟在昇腾NPU上跑通CV算子与端到端推理pipeline

Triton Serving部署昇腾推理全流程详解：从环境安装到首个模型跑通实战指南（新手必读实操版）

查看更多评论

已为社区贡献88条内容

温馨提示：您尚未绑定手机号