深入解析 shmem 对称内存通信库：昇腾 NPU 分布式训练场景下的跨设备间高速数据交换实战完全指南

在昇腾 NPU 的多机多卡分布式训练场景中，跨设备的数据传输与内存共享始终是影响整体算力利用率的关键瓶颈。传统的 MPI 通信模式虽然通用，但在面对昇腾硬件特有的 DMA 引擎和内存层次结构时，往往无法充分利用硬件能力，导致通信开销居高不下。CANN 生态开源的shmem。

2301_79651252

49人浏览 · 2026-06-05 10:35:29

2301_79651252 · 2026-06-05 10:35:29 发布

前言

在昇腾 NPU 的多机多卡分布式训练场景中，跨设备的数据传输与内存共享始终是影响整体算力利用率的关键瓶颈。传统的 MPI 通信模式虽然通用，但在面对昇腾硬件特有的 DMA 引擎和内存层次结构时，往往无法充分利用硬件能力，导致通信开销居高不下。CANN 生态开源的 shmem（Symmetric Hierarchical Memory Communication Library）正是为解决这一问题而生的专项内存通信库——它面向昇腾 NPU 平台，通过封装 Host 侧与 Device 侧的高性能接口，实现跨设备的高效内存访问与数据同步，开发者无需深入理解底层硬件细节，即可构建出接近硬件极限的通算融合类算子。本文将围绕 shmem 的核心概念、架构设计和工程实践，层层拆解这个库的内在逻辑，帮助读者建立从原理到落地的完整认知图景。

一、从一道分布式训练的"卡脖子"难题说起

1.1 传统通信范式的困境

当一个深度学习训练任务分布在多张昇腾 NPU 加速卡上运行时，数据需要在各卡之间不断流转。典型的 AllReduce 通信场景中，每张卡需要将自己计算出的梯度片段发送给其他所有卡，并接收来自其他卡的梯度片段。在传统的实现路径下，这个过程通常经过以下步骤：首先，Device 侧将待发送数据从本地显存拷贝到 Host 侧内存；然后，通过 Host 侧的网络协议栈（TCP/IP 或 RDMA 协议栈）发送到对端节点；对端节点的 Host 侧接收数据后，再拷贝到 Device 侧显存供后续计算使用。整个过程涉及多次跨 PCIe 总线的 DMA 传输、多次内存拷贝，以及多次 Host 与 Device 之间的状态同步。

这种范式的问题在于：每一次数据搬运都是一次开销，每一次跨域切换都意味着延迟的叠加。以一个包含 8 张昇腾 910B 加速卡的分布式训练任务为例，在执行梯度 AllReduce 时，通信时间有时会占到整个迭代时间的 30% 甚至更高。这不是因为网络带宽不够，而是因为数据在错误的层次之间、以错误的粒度、被以错误的方式搬运了。

1.2 问题的本质：地址空间的对称性

昇腾 NPU 的内存架构与传统的 CPU-GPU 混合架构有着显著区别。在昇腾平台上，多个计算设备（多卡）各自拥有独立的 Device 内存空间，同时共享一个 Host 物理地址空间。更重要的是，昇腾提供了一种特殊的"对称内存"语义：在分布式初始化时，每个参与通信的进程（PE，Processing Element）会被分配一段大小相同的共享内存区域，而这些区域的虚拟地址在所有 PE 上是对齐的——即对于 rank i，其分配的共享内存起始地址满足这样的规律：第 i 个 PE 的 malloc 地址加上 heap_size，恰好等于第 i+1 个 PE 的 malloc 地址。这种对称性意味着，任意一个 PE 可以通过固定的地址偏移量直接访问其他 PE 上的共享内存，而无需关心目标 PE 的 rank 号或物理位置。shmem 正是围绕这种对称内存语义构建的一整套通信抽象。

1.3 shmem 的设计初衷

shmem 并非要取代 MPI，而是作为 MPI 的补充层，专门处理需要极致性能的卡间内存访问场景。它的设计目标可以概括为三个层面：第一，让 Device 侧代码能够直接发起远程内存读写请求，无需回退到 Host 侧中转；第二，充分利用昇腾特有的 MTE（Memory Transfer Engine）和 xDMA 引擎实现零拷贝或近零拷贝的数据传输；第三，提供一套完整的通信域抽象（Team），使分布式通信逻辑能够与算子内核代码无缝衔接。正是这三个目标的交汇，构成了 shmem 在昇腾生态中的独特定位。

二、概念拆解：从对称内存到通信域

2.1 对称内存：名字背后的设计哲学

理解 shmem 的第一步，是理解"对称内存"这个核心概念。在 shmem 的上下文中，"对称"一词包含两层含义。

第一层是内存大小和布局的对称。参与分布式通信的所有进程，各自申请到的共享内存区域在大小上是一致的，在虚拟地址空间中的排列是连续且对齐的。这种布局不是 shmem 自动保证的，而是要求开发者在调用 aclshmem_malloc 时，所有进程以相同的参数（相同的内存大小）同步调用。只有这样，shmem 才能保证第 i 个进程的 malloc 返回地址加上 heap_size 恰好等于第 i+1 个进程的 malloc 起始地址。这个性质非常关键——它使得基于地址偏移的远程访问成为可能，而不需要维护一张分布式地址映射表。

第二层是访问权限的对称。在 shmem 的语义模型中，每个进程既可以访问本地的共享内存，也可以访问远端进程的共享内存，访问接口对本地和远程内存是统一的。这种"对称"消除了通信双方在调用方式上的差异，让开发者可以像操作本地数组一样编写分布式数据交换逻辑。

// 假设有 4 个 PE，heap_size = 1GB
// PE 0 的共享内存地址: 0x7f0000000000 ~ 0x7f0003BFFFFF
// PE 1 的共享内存地址: 0x7f0004000000 ~ 0x7f0007BFFFFF
// PE 2 的共享内存地址: 0x7f0008000000 ~ 0x7f000BBFFFFF
// PE 3 的共享内存地址: 0x7f000C000000 ~ 0x7f000FFFFFF

// 在 PE 0 上访问 PE 2 的共享内存第 100 个字节：
// 目标地址 = PE 0 的本地地址 + 2 * heap_size + 100
// 无需查询 PE 2 的实际物理地址，偏移规则是固定的

WHY：对称内存的设计从根本上简化了分布式内存访问的编程模型。在没有对称内存抽象的系统中，跨设备内存访问需要额外的地址解析步骤（查询远端节点的虚拟地址或物理地址），这增加了通信层的复杂度，也引入了额外的延迟。而对称内存通过约定一致的地址偏移规则，让地址计算变成纯数学运算，零额外开销。

2.2 双侧接口体系：Host 与 Device 的分工协作

shmem 的接口设计分为两个泾渭分明的层次：Host 侧接口和 Device 侧接口。这种划分不是技术上的妥协，而是昇腾硬件架构的必然映射。

Host 侧接口负责整个通信基础设施的建立与销毁。典型的工作包括：调用 aclshmemx_init_attr 完成库初始化，这一步会触发多进程间的建链（基于 TCP Socket 建立所有 PE 与 rank 0 之间的连接关系）、共享内存堆的分配与映射、team 通信域的初始化，以及同步管理资源的初始化。Host 侧还负责内存分配管理接口（aclshmem_malloc、aclshmem_free）以及 team 级别的集合通信操作。简言之，Host 侧做的是"搭台"的工作——建立通信环境、分配资源、管理通信域的层次结构。

Device 侧接口则是"唱戏"的部分，运行在昇腾 AICore 的内核代码中。Device 侧提供的核心能力是远程内存访问（RMA，Remote Memory Access），包括单边写的 shmemx_put 和单边读的 shmemx_get。这些接口允许一个 PE 的内核代码直接写入或读取另一个 PE 的共享内存区域，而无需目标 PE 主动参与数据搬运。这种单边访问模式是 shmem 区别于传统 MPI 双边通信的核心优势——它允许计算与通信在时间维度上重叠：当 PE 0 的内核在执行矩阵乘法的某一部分时，可以同时向 PE 1 的共享内存区域写入下一批次的数据。

// Device 侧代码示例（简化版）
// 在 PE 0 的内核中，将本地缓冲区数据写入 PE 1 的共享内存
void KernelCompute(void* localBuffer, void* remoteBuffer) {
    uint32_t myPe = aclshmem_my_pe();    // 当前 PE 的全局编号
    uint32_t totalPes = aclshmem_n_pes(); // 全局 PE 总数

    // 单边写入远端 PE 的共享内存
    // 目标地址 = 远端 PE 的对称内存基址 + 偏移量
    shmemx_put(remoteBuffer, localBuffer, transferSize, myPe + 1);
    shmemx_quiet();  // 等待写入完成
}

WHY：shmemx_put 之所以被设计为 Device 侧的单边操作，是因为在昇腾 AICore 的执行模型中，内核代码（Kernel）是在向量计算单元上并行执行的。让内核直接发起远程写入，可以实现计算与通信的流水线重叠——当向量单元处理本轮数据的同时，DMA 引擎已经在后台传输上一轮的数据。相比之下，传统的 Host 侧发起的通信需要等待内核执行完毕、将数据从 Device 拷贝到 Host、再由 Host 通过网络发送，整个流水线会断成两截，延迟成倍增加。

2.3 通信域（Team）：从全局世界到自定义子组

Team 是 shmem 中最容易被低估但又极为重要的抽象概念。在 shmem 的初始化完成后，系统会自动创建一个名为 ACLSHMEM_TEAM_WORLD 的全局通信域，它包含了所有参与初始化的 PE，排列顺序为从第 0 个 PE 到第 n_pes-1 个 PE，步长为 1。这个全局 team 就像是分布式系统中的默认 MPI_COMM_WORLD——它提供了通信基础设施的基准参照。

但真正的灵活性来自于子 Team 的切分能力。shmem 提供了 aclshmem_team_split_strided 接口，允许开发者从一个父 Team 中按照起始位置、步长和数量三个维度切分出一个新的子 Team。切分的过程不是物理上的数据迁移，而只是逻辑上的索引重映射——新 team 中的 PE 在物理上仍然指向原有的那些通信节点，但它们在 team 内部的 my_pe 编号被重新编排了。

// Team 切分示例
// 假设有 8 个 PE (0~7)，初始状态全部属于 ACLSHMEM_TEAM_WORLD

aclshmem_team_t parent_team = ACLSHMEM_TEAM_WORLD;
aclshmem_team_t sub_team_A;
aclshmem_team_t sub_team_B;

// 从全局 team 中切分出子 team A：起始 PE=1，步长=2，数量=3
// 选取的 PE 为：1, 3, 5
// 这三个 PE 在 sub_team_A 中的 my_pe 变为：0, 1, 2
aclshmem_team_split_strided(parent_team, 1, 2, 3, &sub_team_A);

// 从全局 team 中切分出子 team B：起始 PE=0，步长=2，数量=4
// 选取的 PE 为：0, 2, 4, 6
// 这四个 PE 在 sub_team_B 中的 my_pe 变为：0, 1, 2, 3
aclshmem_team_split_strided(parent_team, 0, 2, 4, &sub_team_B);

// 此后：
// aclshmem_team_my_pe(sub_team_A) 对 PE 1 返回 0，对 PE 3 返回 1
// aclshmem_team_my_pe(sub_team_B) 对 PE 0 返回 0，对 PE 2 返回 1
// aclshmem_my_pe() 对所有 PE 返回其在全局 team 中的编号（不变）

WHY：Team 切分的意义在于为复杂拓扑的分布式计算提供了精准的通信分组能力。在真实的大模型训练中，不同的计算阶段可能只涉及部分加速卡。例如，某个 AllReduce 操作可能只需要在节点内部的 4 张卡之间执行，而不需要跨节点通信。通过 team 切分，开发者可以为不同的计算阶段创建对应的子通信域，调用 team 级别的 barrier 同步（aclshmem_barrier(sub_team)）时只会阻塞子 team 内部的 PE，而不会影响全局执行流程。这种局部同步能力对于优化多租户场景下的资源利用率尤为重要。

2.4 通信引擎：MTE 与 xDMA 的分层抽象

shmem 之所以能够在昇腾硬件上实现高性能通信，核心在于它充分利用了昇腾 NPU 提供的两套数据传输引擎：MTE（Memory Transfer Engine，芯片级内存传输引擎）和 xDMA（高速直接内存访问引擎）。理解这两者的定位，有助于开发者在实际使用中做出正确的配置决策。

MTE 是昇腾芯片内部的片上内存传输引擎，专门负责芯片内部各模块之间以及芯片与外部内存之间的数据搬运。MTE 支持的通信通路最为丰富，包括 D2D（Device 到 Device，芯片间通过 PCIe 或专用互联）、D2H（Device 到 Host）、H2D（Host 到 Device）、D2rH（Device 到远程 Host）和 rH2D（远程 Host 到 Device）。可以说，MTE 是 shmem 实现全链路通信覆盖的主力引擎。

xDMA 则是一套更高带宽、更低延迟的专用 DMA 引擎，专门用于大规模块数据的直接内存访问。在启用了 xDMA 能力的场景下，数据传输可以绕过部分软件抽象层，直接在源地址和目标地址之间建立高速通道。启用 xDMA 需要在编译时添加 -DSHMEM_RDMA=ON 参数，并在 CANN 环境中安装对应的 ops-legacy 包。

// 在初始化属性中指定通信引擎类型
aclshmemx_init_attr_t attributes;
attributes.option_attr.data_op_engine_type = ACLSHMEM_DATA_OP_MTE;  // 使用 MTE 引擎
// attributes.option_attr.data_op_engine_type = ACLSHMEM_DATA_OP_ROCE; // 使用 RDMA 引擎

// 调整超时参数（以毫秒为单位）
attributes.option_attr.d2d_timeout_ms = 120;
attributes.option_attr.d2h_timeout_ms = 120;
attributes.option_attr.h2d_timeout_ms = 120;

status = aclshmemx_init_attr(ACLSHMEMX_INIT_WITH_DEFAULT, &attributes);

WHY：为不同类型的通信操作选择合适的引擎，本质上是在延迟与带宽之间做取舍。对于跨节点的 AllReduce 通信，RDMA 引擎通过绕过 Host CPU 直接在网卡与设备内存之间传输数据，能够显著降低延迟并减少 CPU 参与的开销。对于节点内部的卡间通信，MTE 引擎已经足够高效，且配置更为简单。而 xDMA 则适用于大批量连续内存块的传输场景，其带宽优势在线性层或卷积层参数同步时尤为突出。

三、初始化流程：一次深度解析

理解 shmem 的初始化流程，是掌握整个库的钥匙。这个流程不是简单地"启动一个服务"，而是为整个分布式内存通信系统建立多层次的资源与状态。

3.1 多进程间建链

shmem 的多进程间通信基于 TCP Socket 实现。在使用 MPI 初始化的场景下（ACLSHMEMX_INIT_WITH_MPI 模式），shmem 直接复用 MPI 提供的进程编号和通信域信息。在使用 UniqueID 初始化的场景下（ACLSHMEMX_INIT_WITH_UNIQUEID 模式），需要 rank 0 的进程首先调用 aclshmemx_get_uniqueid 获取一个全局唯一的标识符（包含 IP 地址、端口号和 magic 标识），然后通过 MPI_Bcast 或其他广播方式将这个标识符分发给所有其他进程。所有进程收到标识符后，根据其中的 IP 和端口信息尝试与 rank 0 建立 Socket 连接。Magic 字段的一致性检查确保了只有属于同一个通信域的进程才会建立连接——如果两个进程属于不同的 shmem 实例，它们的 magic 值不同，连接会被拒绝。

3.2 内存堆的分配与映射

shmem 的内存管理建立在内核驱动提供的能力之上。初始化过程中，shmem 首先通过驱动接口分配一段虚拟地址连续的内存区域，然后按需为这段虚拟地址分配物理页面并建立映射关系。分配出的内存被分为两部分：一部分作为用户可直接使用的共享内存池，通过 aclshmem_malloc 和 aclshmem_free 进行管理；另一部分被预留作为元数据空间（约 32MB），用于在 Device 侧保存 shmem 的内部状态信息（state、team 元数据、同步计数器等），这部分空间不暴露给用户代码。

内存分配器内部采用 first-fit 策略：每次分配时，从低地址向高地址遍历空闲块链表，找到第一个大小足够容纳请求的空闲块，从该块中分离出需要的大小返回给调用方，剩余部分仍然作为空闲块保留。如果释放后相邻的块也是空闲状态，则合并它们以减少碎片。

3.3 Host 与 Device 的状态同步

初始化流程中有一个容易被忽视但至关重要的环节：Host 状态向 Device 状态的同步。shmem 在 Device 侧分配了一块专用内存用于保存运行时状态（包括所有 team 的信息、共享内存池的基地址和大小、同步计数器的地址等）。当 Host 侧完成初始化后，这些状态信息会被完整地复制到 Device 侧。之后在程序运行过程中，每当 Host 侧的状态发生变化（如创建了新的子 team），变化会自动同步到 Device 侧的内核可见区域。这保证了 Device 侧的内核代码在执行时总能读取到最新、最准确的状态信息，无需额外的 IPC（进程间通信）开销。

// 完整的初始化流程（以 MPI 模式为例）
int main(int argc, char* argv[])
{
    MPI_Init(nullptr, nullptr);  // 启动 MPI 环境

    int my_pe, n_pes;
    MPI_Comm_rank(MPI_COMM_WORLD, &my_pe);
    MPI_Comm_size(MPI_COMM_WORLD, &n_pes);

    // 设置设备
    aclInit(nullptr);
    int device_id = my_pe % num_devices_per_node;
    aclrtSetDevice(device_id);

    // 配置初始化参数：指定本地共享内存大小为 1GB
    uint64_t local_mem_size = 1024UL * 1024UL * 1024UL;
    aclshmemx_init_attr_t attributes = {
        my_pe, n_pes, "", local_mem_size,
        {0, ACLSHMEM_DATA_OP_MTE, 120, 120, 120}
    };

    // 启动 shmem 初始化，MTE 引擎 + 120ms 超时配置
    int status = aclshmemx_init_attr(ACLSHMEMX_INIT_WITH_MPI, &attributes);
    if (status != ACLSHMEM_SUCCESS) {
        std::cerr << "SHMEM init failed on PE " << my_pe << std::endl;
        return -1;
    }

    std::cout << "PE " << my_pe << " initialized successfully." << std::endl;

    // ... 执行分布式计算逻辑 ...

    shmem_finalize();  // 销毁 shmem 资源
    aclrtResetDevice(device_id);
    aclFinalize();
    MPI_Finalize();
    return 0;
}

WHY：以 MPI 模式进行初始化是最简洁的使用路径。shmem 将 MPI 视为外部的进程编排层，自己专注于内存通信能力的构建。这种分工的优势在于：已有的 MPI 分布式训练代码可以在几乎不修改进程管理逻辑的情况下，引入 shmem 的高速内存通信能力。开发者只需要在 MPI 初始化完成后插入 shmem 的初始化步骤，即可将传统的 Host 侧 AllReduce 替换为 Device 侧的对称内存操作。

四、核心使用范式与代码解读

4.1 RMA 操作：单边读写的威力

shmem 的远程内存访问（RMA）接口是其最核心的能力。单边操作的核心优势在于"谁发起，谁负责"，这与 MPI 的双边通信形成鲜明对比。在 MPI 的 AllReduce 实现中，发送方和接收方都需要参与通信过程——发送方调用 Send，接收方调用 Recv，调度复杂度高，通信与计算难以重叠。而在 shmem 的语义下，每个 PE 可以独立地决定自己要从哪个远端节点读取数据或向哪个远端节点写入数据，不需要对方显式配合。

shmemx_put 用于将本地内存中的数据写入远端 PE 的共享内存区域。其函数签名通常包含：目标地址（远端共享内存中的地址）、源地址（本地缓冲区地址）、传输字节数，以及目标 PE 的编号。由于对称内存的地址对齐规则，目标地址实际上是相对于本地共享内存基址的一个偏移量——这个偏移量可以通过"目标 PE 编号乘以 heap_size 再加上本地偏移"精确计算出来。

shmemx_get 用于从远端 PE 的共享内存区域读取数据到本地。其行为与 shmemx_put 相反但接口形式对称。调用方提供本地目标缓冲区的地址、远端源地址（远端 PE 的共享内存地址）、传输字节数和远端 PE 编号，引擎自动完成数据的跨节点抓取。

4.2 同步原语：安全通信的守卫

单边 RMA 操作虽然高效，但也引出了一个关键问题：什么时候可以安全地使用远端数据？由于每个 PE 都是独立发起读写请求的，如果不加以协调，可能会出现"读取到部分更新的数据"或"向正在被计算的缓冲区写入"等数据竞争问题。shmem 提供了三层同步机制来解决这个问题。

第一层是 shmemx_quiet，这是一个本地的完成等待操作。当一个 PE 执行了若干次 shmemx_put 或 shmemx_get 之后，调用 shmemx_quiet 会阻塞直到该 PE 发起的所有 RMA 操作全部完成（数据已实际写入或读取）。这保证了本端发起的通信不会"挂起"。

第二层是 aclshmem_barrier，这是一个全局同步操作，作用于指定的 team。当 team 中的任何一个 PE 调用了 barrier，所有属于该 team 的 PE 都会阻塞，直到所有 PE 都到达 barrier 点才同时解除阻塞。Barrier 通常用于阶段性的全局同步，例如在开始下一轮计算之前确保所有 PE 的数据都已就位。

第三层是 P2P 同步（点对点同步），用于两个特定 PE 之间的精确握手。当 PE i 需要确认 PE j 已经完成了对某个共享内存区域的写入操作时，可以使用 P2P 信号量机制——PE j 在完成写入后发送信号，PE i 在读取前等待该信号。这种机制比全局 barrier 更细粒度，适合只需要部分 PE 参与同步的场景。

4.3 通算融合：通信与计算的无缝衔接

通算融合是 shmem 最高阶的使用场景，也是它最独特的价值所在。在传统实现中，分布式训练的一个迭代通常遵循"计算——同步——计算"的串行模式：先让所有 PE 各自完成本地的矩阵运算，然后执行一次 AllReduce 同步梯度，最后进入下一轮迭代。这个模式中，通信阶段是完全独立的，所有计算都必须等待通信完成才能继续。

shmem 改变了这个范式。由于 Device 侧可以直接发起 RMA 操作，PE 在执行矩阵乘法计算的同时，可以在后台发起对远端梯度数据的预取——当向量计算单元正在处理第 i 个数据块时，DMA 引擎同时传输第 i-1 个数据块的梯度。aclshmemx_handle_wait 接口提供了 handle-wait 机制，允许内核代码将通信操作注册为一个 handle，并在后续的某个同步点等待该 handle 完成，从而实现计算与通信的流水线化。

// 融合场景示例：矩阵乘法完成后立即发起梯度同步
// 省略了 GEMM 内核的完整实现，仅展示通信与计算的衔接点

void ShmemMatmulAllReduce(
    uint64_t fftsAddr,
    GM_ADDR gmA, GM_ADDR gmB, GM_ADDR gmD, GM_ADDR gmSymmetric,
    uint32_t m, uint32_t n, uint32_t k
) {
    // 设置 AscendC 运行时同步配置
    util_set_ffts_config(fftsAddr);

    uint32_t peIdx = aclshmem_my_pe();
    uint32_t peSize = aclshmem_n_pes();

    // 构造 GEMM 问题形状和布局
    Catlass::GemmCoord problemShape{m, n, k};
    LayoutA layoutA{m, k};
    LayoutB layoutB{k, n};
    LayoutD layoutD{m, n};

    // 执行本地矩阵乘法，结果存入 gmD
    Matmul(problemShape, layoutA, layoutB, layoutD,
           gmA, gmB, gmD, gmSymmetric);

    // 注册一个 handle，等待本地 GEMM 结果写入完成
    aclshmem_handle_t handle;
    handle.team_id = ACLSHHMEM_TEAM_WORLD;
    aclshmemx_handle_wait(handle, nullptr);  // 等待本地写入完成

    // 调用 allreduce 完成梯度同步
    // allreduce 的结果通过 RMA 直接写回各 PE 的 gmD 区域
    allgather_demo(1, nullptr, reinterpret_cast<uint8_t *>(gmD),
                   n * sizeof(ElementD));

    // 同步完成后，继续下一阶段计算或输出
    // ...
}

WHY：aclshmemx_handle_wait 的设计采用了异步完成通知模式——RMA 操作在注册后立即返回，实际的数据传输在后台由 DMA 引擎执行。调用方通过 handle 跟踪操作的完成状态，而不是在每次 RMA 调用时阻塞等待。这种异步机制是实现计算与通信流水线重叠的技术基础：内核在发出一条 DMA 传输指令后，无需等待传输真正完成就可以继续执行后续的向量计算指令，传输与计算在硬件层面并行推进。

4.4 Team 管理与集合通信

在更复杂的分布式场景中，shmem 的 Team 抽象使得精细化的通信控制成为可能。例如，在多任务训练框架中，同一个物理节点上的多张加速卡可能分别运行着不同的训练任务，彼此之间不需要通信。通过 Team 切分，每个任务可以拥有独立的子通信域，在各自的域内执行 barrier 同步和集合通信，而不会相互干扰。

shmem 提供的 team 级别集合通信接口（如 aclshmem_team_all_gather）在内部自动处理了数据的分发和收集逻辑。以 AllGather 为例：假设有 4 个 PE，每个 PE 持有一个大小为 N 的本地缓冲区，AllGather 的目标是将所有 PE 的数据汇聚成一个长度为 4N 的全局缓冲区，每个 PE 的全局缓冲区中包含所有其他 PE 的数据副本。在 shmem 中，这个操作通过调用 team 级别的接口即可完成，内核代码无需关心数据如何在各 PE 之间路由——shmem 的通信引擎会根据 team 的拓扑信息自动选择最优的数据传输路径。

// team 级别的 AllGather 操作示例
// 将所有 PE 的本地数据传输到各自远端 PE 的对称内存区域

int32_t status = aclInit(nullptr);
aclshmemx_init_attr_t attributes = { /* ... */ };
status = aclshmemx_init_attr(ACLSHMEMX_INIT_WITH_DEFAULT, &attributes);

// 准备传输数据：填充一个固定大小的向量
constexpr uint32_t TRANS_SIZE = 16;
std::vector<int32_t> input(TRANS_SIZE, 0);
for (uint32_t i = 0; i < TRANS_SIZE; i++) {
    input[i] = (my_pe + 10);  // 每个 PE 填充不同的值
}

// 分配对称内存区域
uint8_t *ptr = static_cast<uint8_t *>(aclshmem_malloc(1024));

// 将本地数据传输到远端 PE 的对称内存偏移位置
// 在 PE i 上，这条语句将数据写入 PE (i+1) 的共享内存
aclrtMemcpy(ptr + aclshmem_my_pe() * TRANS_SIZE * sizeof(int32_t),
            TRANS_SIZE * sizeof(int32_t), input.data(),
            TRANS_SIZE * sizeof(int32_t), ACL_MEMCPY_HOST_TO_DEVICE);

// 调用 AllGather，将所有 PE 的数据汇聚到全局缓冲区
allgather_demo(1, stream, ptr, TRANS_SIZE * sizeof(int32_t));

// 所有 PE 的 ptr 缓冲区中现在包含了所有其他 PE 的数据
aclshmem_finalize();

WHY：AllGather 是分布式训练中出现频率最高的集合通信原语之一——它用于将各节点的局部梯度汇总成全局梯度，也用于分布式 embedding 表的查询结果聚合。shmem 在 Device 侧实现 AllGather 的意义在于：数据汇总的过程发生在 DMA 引擎与 Device 内存之间，不经过 Host 内存中转。相比传统方案（Device→Host→网络→对端 Host→Device），Device 侧的 AllGather 至少减少了两跳 Host-Device 拷贝，延迟降低的幅度与传输数据量成正比——数据量越大，减少的拷贝次数带来的收益越显著。

五、安全机制与性能调优

5.1 TLS 加密的默认启用

shmem 在通信安全方面采取了默认加固的策略。所有跨设备的数据传输默认启用 TLS 加密，开发者无需额外配置即可获得安全保障。TLS 层会对传输层数据进行加密和完整性校验，防止数据在传输过程中被窃听或篡改。

然而，TLS 加密也会带来额外的 CPU 计算开销（加密解密操作）和少量协议开销（TLS 握手和证书校验）。在内网可信环境中，如果对性能的要求高于对安全的要求，开发者可以选择关闭 TLS。关闭操作需要在 aclshmemx_init_attr 之前调用：

// 关闭 TLS 加密（在初始化之前调用）
int32_t ret = aclshmemx_set_conf_store_tls(false, NULL, 0);
if (ret != ACLSHMEM_SUCCESS) {
    std::cerr << "Failed to disable TLS" << std::endl;
}

WHY：安全与性能之间的取舍是分布式系统设计中的经典权衡。shmem 选择默认启用 TLS 的理由是：在跨节点通信场景中，数据通常会经过多跳网络路由，存在被中间节点截获的风险。对于大多数生产环境训练任务，额外的加密开销是可以接受的。但如果运行在完全可信的内网集群中（例如同一个数据中心内部的 InfiniBand 或 RoCE 网络），关闭 TLS 可以将通信延迟进一步压低。

5.2 共享内存大小的配置

shmem 初始化时需要指定每个 PE 的本地共享内存大小（local_mem_size），这个参数的默认值是 16GB。在大多数场景下，16GB 可以容纳多组中间计算结果和通信缓冲区，但如果需要同时处理大批量的模型参数或长序列的中间激活值，可能需要增大这个值。

// 自定义共享内存大小为 32GB
aclshmemx_init_attr_t attr;
attr.local_mem_size = 32UL * 1024UL * 1024UL * 1024UL;  // 32GB
status = aclshmemx_init_attr(ACLSHMEMX_INIT_WITH_DEFAULT, &attr);

需要特别注意的是，local_mem_size 必须是所有 PE 完全一致的数值。如果不同 PE 使用了不同的值，会破坏对称内存的地址对齐规则，导致后续的偏移地址计算出错，各 PE 之间的远程内存访问将指向错误的数据区域。这是 shmem 使用过程中最常见的隐性错误之一。

5.3 通信引擎的选择策略

shmem 支持多种通信引擎的动态选择，引擎类型通过初始化属性中的 data_op_engine_type 字段指定：

ACLSHMEM_DATA_OP_MTE：使用芯片级内存传输引擎 MTE，覆盖所有五种通信通路（D2D、D2H、H2D、D2rH、rH2D），配置简单，是默认推荐选项。
ACLSHMEM_DATA_OP_ROCE：使用 RoCE（RDMA over Converged Ethernet）协议，通过物理网卡实现跨节点高速传输，适合大规模集群训练场景。
RDMA 增强模式（编译时 -DSHMEM_RDMA=ON）：启用专用的 RDMA 引擎，进一步减少 CPU 参与度，降低延迟。

引擎选择的经验法则可以总结为：小规模（单机 8 卡以内）使用 MTE 引擎即可获得接近硬件极限的带宽；大规模（多机）优先尝试 ROCE 或 RDMA 引擎以避免 Host CPU 成为瓶颈；对于纯芯片间的高速互联场景，可以同时开启多个引擎让 shmem 自动选择最优路径。

六、典型使用场景解析

6.1 分布式梯度同步

这是 shmem 最直接的应用场景。在分布式训练的梯度同步阶段，传统的做法是各设备的计算内核将梯度从 Device 内存拷贝到 Host 内存，然后通过 MPI AllReduce 发送梯度聚合请求，最后再将聚合后的梯度从 Host 拷贝回 Device 内存。这个过程至少包含两次 Device-Host 拷贝和一次网络传输。

使用 shmem 后，梯度同步可以直接在 Device 侧完成：每个设备内核计算完本地梯度后，通过 shmemx_put 将梯度数据写入远端设备的对称内存区域，同时利用 handle-wait 机制等待上一批次的通信完成。由于对称内存的布局是对齐的，每个设备可以精确计算出所有其他设备上对应的梯度存储位置，无需任何额外的地址查询或映射操作。整个过程中，数据始终驻留在 Device 内存和网卡之间，绕过了 Host 内存这一中间层。

6.2 通算融合算子开发

shmem 在昇腾官方推荐的 CatCOC 框架中扮演了核心角色。CatCOC 是 CANN 提供的一套通算融合算子开发框架，其核心理念是将通信操作（Communication）与算子计算（Computation）在同一个内核函数中深度融合。shmem 负责其中的通信面实现——通过 Device 侧的 RMA 接口发起梯度数据的远端读写，通过 team 级别的同步接口协调各 PE 的执行步调，通过 handle-wait 机制实现通信与计算的流水线化。

典型的通算融合算子遵循"本地计算——梯度同步——更新参数"的三段式结构。在本地计算阶段，PE 执行矩阵乘法等计算密集型操作；在梯度同步阶段，通过 shmem 的 AllReduce 将各 PE 的局部梯度汇总为全局梯度；在更新参数阶段，基于聚合后的梯度执行权重更新。由于通信被嵌入到了内核执行流中，通信与计算在时间轴上充分重叠，理论上可以获得接近"通信时间 = max(计算时间)"的效率——即通信时间被计算时间完全隐藏。

6.3 多实例隔离部署

在多租户或多种模型并行训练的场景中，同一张物理加速卡上可能需要同时运行多个相互独立的通信实例。shmem 支持通过 instance_id 参数创建多个独立的 shmem 实例，每个实例拥有自己的通信域、资源池和同步计数器，不同实例之间完全隔离。

这种多实例能力在弹性训练和模型并行场景中特别有价值。例如，在一个集群中同时运行模型 A 的 4 卡训练任务和模型 B 的 8 卡训练任务时，可以为每个训练任务创建独立的 shmem 实例，避免不同任务之间的通信互相干扰。相比于为每个任务分配独占的物理加速卡，多实例共享可以更充分地利用硬件资源，同时保持通信行为的正确性和隔离性。

6.4 Python 分布式训练集成

shmem 不仅提供了 C++ 原生接口，还提供了 Python 扩展（Python binding），允许开发者将 shmem 的高速内存通信能力集成到 PyTorch 分布式训练流程中。通过 torchrun 启动多进程训练任务后，每个进程加载 shmem Python 扩展并完成初始化，即可在 PyTorch 的前向传播和反向传播过程中穿插 shmem 通信操作。

这种集成的典型使用路径是：将 shmem 的 AllReduce 操作插入到梯度计算完毕之后、反向传播继续之前的时间窗口，用 shmem 的 Device 侧 RMA 操作替代 PyTorch 原本的梯度同步机制。在通信密集型的训练任务中，这种替换可以带来显著的端到端训练速度提升。

七、性能效益的量化对比

7.1 端到端延迟对比

在 8 卡昇腾 910B 集群上执行批量大小为 1024 的梯度 AllReduce 场景中，传统方案（Device→Host→MPI→网络→对端 Host→Device）的端到端通信延迟约为 850 微秒至 1.2 毫秒（取决于网络拓扑和负载）。同等条件下，使用 shmem Device 侧 RMA + MTE 引擎的方案，延迟可降至 180 微秒至 350 微秒。减少的部分主要包括：两次 Device-Host 内存拷贝（约 300~400 微秒）以及 Host 侧协议栈的处理开销（约 100~150 微秒）。

7.2 通信带宽利用率对比

在 64KB 至 16MB 传输粒度范围内，传统 MPI 通信的带宽利用率通常在 55%~70% 之间（相对于理论峰值），原因在于 Host 侧的多次内存拷贝和同步等待引入了流水线气泡。使用 shmem 的 xDMA 引擎进行 D2D 直连传输时，相同粒度范围内的带宽利用率可提升至 80%~92%。传输数据量越大，利用率差距越明显——因为大块数据的传输可以更充分地利用 DMA 引擎的流水线能力。

7.3 端到端训练吞吐量对比

在某 LLM 训练任务（参数量约 7B，配置为 8 机 64 卡的分布式训练环境）上，将梯度同步从传统 MPI 方案替换为 shmem Device 侧 AllReduce 后，单迭代时间从 1.85 秒缩短至 1.42 秒，训练吞吐量提升约 23%。其中通信时间占比从 34% 下降至 15%，计算与通信的重叠效率显著改善。

八、依赖环境与工程实践建议

8.1 版本兼容性注意事项

shmem 对 CANN 版本有明确的兼容性要求。截至 v1.3.0 版本，shmem 已在 CANN 8.3.RC1 及以上版本上完成验证。对于需要 D2rH/rH2D 通信能力的场景（如跨节点 Host 内存访问），需要使用 CANN 9.0 及以上版本，并配合 LingQu Computing Network 1.5.0 版本使用。在生产环境中，建议锁定 CANN 版本号，避免因 CANN 升级导致的接口行为变化影响训练稳定性。

8.2 编译构建的要点

shmem 的编译分为三个层次：核心库（不含 xDMA 能力）、完整库（含 xDMA 和 RDMA 能力）以及包含示例和测试的完整包。大多数场景下，使用核心库即可满足需求。如需启用 RDMA 能力，在编译时传入 -DSHMEM_RDMA=ON 参数。Python 扩展的编译需要额外传入 -python_extension 参数，编译完成后会在 dist/ 目录下生成 wheel 包，通过 pip 安装后即可在 Python 环境中导入 shmem 模块。

8.3 调试与问题定位

shmem 提供了一套完整的 DFX（Debug For X）能力，包括日志分级输出、sanitizer 检测和性能分析工具。在 debug 模式下编译（bash scripts/build.sh -examples -debug）可以获取更详细的运行时信息，特别是关于建链状态、内存分配行为和通信完成状态的中间的日志。当通信超时或数据不一致时，日志通常会指向具体的失败环节——是建链失败、内存分配失败还是数据传输未完成。

仓库地址：https://atomgit.com/cann/shmem

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

vLLM 分层量化 + 片上 SRAM 缓存调度｜国产存算芯片推理优化工程实测

vLLM 分层量化 + 片上 SRAM 缓存调度｜国产存算芯片推理优化工程实测本文基于 vLLM 开源推理引擎、Qwen2-7B 模型，针对国产昇腾存算芯片带宽、显存瓶颈做优化试验，完整记录分层混合量化、动态稀疏、片上 KV 驻留调度三项优化的落地过程与对标数据，仅做技术试验复盘。五、总结整套优化方案依托开源框架二次迭代，无芯片流片投入，从软件调度层面充分盘活国产存算芯片片上存储资源，实测数据