零拷贝通信的秘密：昇腾CANN hixl单边通信库的技术原理与PD分离实践

本文通过手把手实战的方式，深入解析了昇腾CANN hixl单边通信库的技术原理与PD分离实践。我们从环境搭建开始，逐步完成了三个实战项目：单边内存写入、单边内存读取、PD分离架构下的KV Cache池化传输。通过这些实战项目，读者可以深入理解hixl的接口调用流程和底层原理。hixl作为昇腾NPU集群场景下的高性能通信库，通过单边通信技术、零拷贝传输、多种传输协议支持、异步通信等技术手段，显著提升

2301_79516720

46人浏览 · 2026-06-04 10:05:59

2301_79516720 · 2026-06-04 10:05:59 发布

前言

零拷贝通信的秘密：昇腾CANN hixl单边通信库的技术原理与PD分离实践以及手把手实战指南（完整版）

在大模型推理的分布式部署中，通信效率往往是决定系统整体性能的关键瓶颈。昇腾CANN（Compute Architecture for Neural Networks）作为华为昇腾AI处理器（昇腾NPU）的核心软件栈，提供了hixl（Huawei Xfer Library）单边通信库来专门解决集群场景下的高效数据传输问题。hixl库通过单边通信（One-Sided Communication）技术，实现了数据传输的低延迟和高吞吐量，特别适合PD分离（Prefill-Decode分离）架构下的KV Cache池化传输。本文将通过手把手实战的方式，深入解析hixl库的技术原理与PD分离实践。

一、hixl单边通信库基础认知

1.1 单边通信 vs 双边通信

传统通信库（如MPI、NCCL）采用的是双边通信（Two-Sided Communication）模式，即通信的发起方和接收方都需要显式地参与通信操作。例如，一个标准的MPI_Send/MPI_Recv操作需要发送进程和接收进程都调用相应的接口。

单边通信（One-Sided Communication）则不同，通信的发起方可以直接访问接收方的内存空间，而无需接收方显式地参与通信操作。这使得通信操作可以完全由发起方控制，从而降低了通信延迟和CPU开销。

双边通信示例：

// 发送进程
MPI_Send(buffer, count, datatype, target_rank, tag, comm);

// 接收进程（必须显式调用接收操作）
MPI_Recv(buffer, count, datatype, source_rank, tag, comm, &status);

单边通信示例：

// 发送进程（直接将数据写入目标进程的内存空间）
MPI_Put(buffer, count, datatype, target_rank, offset, count, datatype, win);

// 接收进程（无需显式调用接收操作，可以继续进行计算）
// ...

1.2 hixl在CANN生态中的位置

hixl是CANN生态中专门针对集群场景设计的高性能通信库。其位置如下：

应用层（分布式推理框架、PD分离框架）
        ↓
hixl单边通信库（提供单边通信接口）
        ↓
通信传输层（支持多种传输协议：PCIe、RDMA、UBOE等）
        ↓
昇腾NPU硬件层（支持DC（Direct Cache Access）等硬件加速技术）

hixl提供的核心能力包括：

单边数据传输：支持单边读写操作，降低通信延迟和CPU开销。
多种传输协议：支持PCIe、RDMA、UBOE等多种传输协议，适应不同的集群网络环境。
零拷贝传输：通过内存注册（Memory Registration）技术，实现数据的零拷贝传输，减少数据在不同内存空间之间的拷贝次数。
异步通信：支持异步通信操作，使得通信和计算可以重叠执行，提高系统整体吞吐量。

二、手把手实战：从环境搭建到第一个hixl程序

2.1 环境准备与验证

在开始使用hixl之前，需要完成昇腾NPU开发环境的搭建。

# WHY: 正确的环境配置是使用hixl的前提。
# CANN软件包包含了hixl的预编译二进制，
# 同时提供了头文件和运行时库。
# 环境变量的正确设置确保了编译器和
# 运行时能够找到所需的库文件。

# ========== 步骤1：安装CANN Toolkit ==========
chmod +x Ascend-cann-toolkit_8.5_linux-aarch64.run
./Ascend-cann-toolkit_8.5_linux-aarch64.run --install

# 配置CANN环境变量
source ${HOME}/Ascend/ascend-toolkit/set_env.sh

# ========== 步骤2：安装hixl通信库 ==========
# hixl作为CANN的一部分提供
# 需要安装对应芯片类型的通信库包
chmod +x Ascend-cann-hixl_8.5_linux-aarch64.run
./Ascend-cann-hixl_8.5_linux-aarch64.run --install

# 配置hixl环境变量
export HIXL_HOME=${HOME}/Ascend/hixl/latest
export LD_LIBRARY_PATH=${HIXL_HOME}/lib64:$LD_LIBRARY_PATH
export PATH=${HIXL_HOME}/bin:$PATH

# ========== 步骤3：验证安装 ==========
# 检查hixl库文件是否存在
ls -la ${HIXL_HOME}/lib64/libhixl*

# 检查头文件
ls -la ${HIXL_HOME}/include/hixl*

# 预期输出应包含：
# libhixl.so  (动态链接库)
# libhixl.a   (静态链接库)
# hixl.h      (C接口头文件)
# hixl.hpp    (C++接口头文件)

2.2 实战项目1：使用hixl进行单边内存写入

我们首先通过一个简单的示例来展示hixl的单边内存写入功能。

步骤1：编写C++代码

// hixl_put_example.cpp
// WHY: 选择C++而非Python作为第一个示例的原因在于，
// C++代码能够更直观地展示hixl的接口调用流程，
// 以及内存注册、传输完成检测等底层细节。
// 理解了C++接口后，使用Python接口会更加得心应手。

#include <iostream>
#include <vector>
#include <cstring>
#include "hixl/hixl.h"

// 辅助函数：初始化数据缓冲区
void InitDataBuffer(void* buffer, size_t size, int seed) {
    char* charBuffer = static_cast<char*>(buffer);
    srand(seed);
    for (size_t i = 0; i < size; ++i) {
        charBuffer[i] = static_cast<char>(rand() % 256);
    }
}

// 辅助函数：验证数据缓冲区
bool VerifyDataBuffer(const void* buffer, size_t size, int seed) {
    const char* charBuffer = static_cast<const char*>(buffer);
    srand(seed);
    for (size_t i = 0; i < size; ++i) {
        if (charBuffer[i] != static_cast<char>(rand() % 256)) {
            return false;
        }
    }
    return true;
}

int main(int argc, char* argv[]) {
    // ========== 初始化hixl ==========
    // WHY: hixl的初始化需要指定通信域（Communicator）
    // 和本地 rank。通信域定义了参与通信的进程集合，
    // 而本地 rank 则标识了当前进程在通信域中的位置。
    // 这是与hixl进行交互的第一步。
    
    hixl::Status hixlRet = hixl::Init(&argc, &argv);
    if (hixlRet != hixl::STATUS_SUCCESS) {
        std::cerr << "hixl初始化失败，错误码：" << hixlRet << std::endl;
        return -1;
    }
    
    // 获取通信域信息和本地rank
    hixl::Communicator comm = hixl::GetWorldCommunicator();
    int rank = hixl::GetRank(comm);
    int worldSize = hixl::GetSize(comm);
    
    if (worldSize < 2) {
        std::cerr << "此示例需要至少2个进程，" << std::endl;
        std::cerr << "当前进程数：" << worldSize << std::endl;
        hixl::Finalize();
        return -1;
    }
    
    std::cout << "进程 " << rank << " / " << worldSize << " 启动成功" << std::endl;
    
    // ========== 准备本地内存缓冲区 ==========
    const size_t bufferSize = 1024 * 1024;  // 1MB
    
    // 分配本地内存缓冲区
    // WHY: 为了使用hixl进行单边通信，需要将内存缓冲区
    // 注册到hixl的通信上下文中。注册后的内存缓冲区
    // 可以被其他进程直接访问（读取或写入）。
    // 内存注册是零拷贝通信的基础。
    void* localBuffer = malloc(bufferSize);
    if (localBuffer == nullptr) {
        std::cerr << "内存分配失败" << std::endl;
        hixl::Finalize();
        return -1;
    }
    
    // 注册本地内存缓冲区
    hixl::MemoryHandle localHandle;
    hixlRet = hixl::RegisterMemory(localBuffer, bufferSize, 
                                    HIXL_MEMORY_DEVICE,  // 设备内存（NPU）
                                    HIXL_MEMORY_ACCESS_READ_WRITE, 
                                    &localHandle);
    if (hixlRet != hixl::STATUS_SUCCESS) {
        std::cerr << "内存注册失败，错误码：" << hixlRet << std::endl;
        free(localBuffer);
        hixl::Finalize();
        return -1;
    }
    
    std::cout << "进程 " << rank << " 内存注册成功，句柄：" 
              << localHandle << std::endl;
    
    // ========== 执行单边写入操作 ==========
    // 定义目标进程的rank（假设为 (rank + 1) % worldSize）
    int targetRank = (rank + 1) % worldSize;
    
    if (rank == 0) {
        // 进程0作为发起方，向进程1写入数据
        std::cout << "进程 " << rank << " 向进程 " << targetRank 
                  << " 发起单边写入操作" << std::endl;
        
        // 初始化本地缓冲区数据
        InitDataBuffer(localBuffer, bufferSize, rank);
        
        // 执行单边写入操作（hixl_Put）
        // WHY: hixl_Put是单边写入操作的核心接口。
        // 它将本地缓冲区的数据直接写入目标进程的内存空间，
        // 而无需目标进程显式地调用接收操作。
        // 这降低了通信延迟和CPU开销。
        hixlRet = hixl::Put(
            localBuffer,       // 本地数据缓冲区
            bufferSize,       // 数据大小（字节）
            targetRank,       // 目标进程rank
            0,                // 目标进程内存偏移量
            localHandle,      // 本地内存句柄
            comm              // 通信域
        );
        
        if (hixlRet != hixl::STATUS_SUCCESS) {
            std::cerr << "单边写入操作失败，错误码：" << hixlRet << std::endl;
        } else {
            std::cout << "进程 " << rank << " 单边写入操作成功" << std::endl;
        }
        
        // 等待单边写入操作完成
        // WHY: hixl_Put是异步操作，即调用会立即返回，
        // 而数据传输在后台进行。
        // 必须调用hixl_Fence或hixl_Quiet来等待操作完成，
        // 然后才能确保数据已经成功写入目标进程的内存空间。
        hixlRet = hixl::Fence(comm);
        if (hixlRet != hixl::STATUS_SUCCESS) {
            std::cerr << "等待操作完成失败，错误码：" << hixlRet << std::endl;
        } else {
            std::cout << "进程 " << rank << " 单边写入操作已完成" << std::endl;
        }
    } else if (rank == 1) {
        // 进程1作为接收方，无需显式调用接收操作
        // 可以直接访问已被写入数据的本地缓冲区
        std::cout << "进程 " << rank << " 等待数据写入..." << std::endl;
        
        // 等待一段时间，确保数据写入完成
        // 在实际应用中，应该使用更可靠的同步机制（如hixl_Fence）
        sleep(2);
        
        // 验证本地缓冲区数据
        bool verified = VerifyDataBuffer(localBuffer, bufferSize, 0);
        if (verified) {
            std::cout << "进程 " << rank << " 数据验证成功" << std::endl;
        } else {
            std::cerr << "进程 " << rank << " 数据验证失败" << std::endl;
        }
    }
    
    // ========== 清理资源 ==========
    hixlRet = hixl::DeregisterMemory(localHandle);
    if (hixlRet != hixl::STATUS_SUCCESS) {
        std::cerr << "内存注销失败，错误码：" << hixlRet << std::endl;
    }
    
    free(localBuffer);
    
    hixl::Finalize();
    
    return 0;
}

步骤2：编译与运行

# WHY: 编译时需要正确链接hixl库和通信库（如MPI）。
# -I 指定头文件搜索路径
# -L 指定库文件搜索路径
# -l 指定需要链接的库

# 设置编译环境变量（确保已source set_env.sh）
export ASCEND_HOME=${HOME}/Ascend/ascend-toolkit/latest
export HIXL_HOME=${HOME}/Ascend/hixl/latest

# 编译
mpic++ -std=c++17 -O3 \
       -I${ASCEND_HOME}/include \
       -I${HIXL_HOME}/include \
       hixl_put_example.cpp \
       -L${HIXL_HOME}/lib64 \
       -lhixl -lhixl_transport \
       -o hixl_put_example

# 运行（使用2个进程）
mpirun -np 2 ./hixl_put_example

2.3 实战项目2：使用hixl进行单边内存读取

单边内存读取（Get）操作允许发起方直接从目标进程的内存空间中读取数据，而无需目标进程显式地参与发送操作。

// hixl_get_example.cpp
// WHY: 单边内存读取操作与单边写入操作类似，
// 但数据传输的方向相反。
// 单边读取操作在某些场景下更为高效，
// 例如，当接收方需要主动获取数据时。

#include <iostream>
#include <vector>
#include <cstring>
#include "hixl/hixl.h"

int main(int argc, char* argv[]) {
    // ========== 初始化hixl ==========
    hixl::Status hixlRet = hixl::Init(&argc, &argv);
    if (hixlRet != hixl::STATUS_SUCCESS) {
        std::cerr << "hixl初始化失败，错误码：" << hixlRet << std::endl;
        return -1;
    }
    
    hixl::Communicator comm = hixl::GetWorldCommunicator();
    int rank = hixl::GetRank(comm);
    int worldSize = hixl::GetSize(comm);
    
    if (worldSize < 2) {
        std::cerr << "此示例需要至少2个进程，" << std::endl;
        std::cerr << "当前进程数：" << worldSize << std::endl;
        hixl::Finalize();
        return -1;
    }
    
    // ========== 准备本地内存缓冲区 ==========
    const size_t bufferSize = 1024 * 1024;  // 1MB
    void* localBuffer = malloc(bufferSize);
    hixl::MemoryHandle localHandle;
    hixlRet = hixl::RegisterMemory(localBuffer, bufferSize, 
                                    HIXL_MEMORY_DEVICE, 
                                    HIXL_MEMORY_ACCESS_READ_WRITE, 
                                    &localHandle);
    
    // ========== 执行单边读取操作 ==========
    int targetRank = (rank + 1) % worldSize;
    
    if (rank == 0) {
        // 进程0作为发起方，从进程1读取数据
        std::cout << "进程 " << rank << " 从进程 " << targetRank 
                  << " 发起单边读取操作" << std::endl;
        
        // 执行单边读取操作（hixl_Get）
        // WHY: hixl_Get是单边读取操作的核心接口。
        // 它直接从目标进程的内存空间中读取数据到本地缓冲区，
        // 而无需目标进程显式地调用发送操作。
        hixlRet = hixl::Get(
            localBuffer,       // 本地数据缓冲区
            bufferSize,       // 数据大小（字节）
            targetRank,       // 目标进程rank
            0,                // 目标进程内存偏移量
            localHandle,      // 本地内存句柄
            comm              // 通信域
        );
        
        if (hixlRet != hixl::STATUS_SUCCESS) {
            std::cerr << "单边读取操作失败，错误码：" << hixlRet << std::endl;
        } else {
            std::cout << "进程 " << rank << " 单边读取操作成功" << std::endl;
        }
        
        // 等待单边读取操作完成
        hixlRet = hixl::Fence(comm);
        if (hixlRet != hixl::STATUS_SUCCESS) {
            std::cerr << "等待操作完成失败，错误码：" << hixlRet << std::endl;
        } else {
            std::cout << "进程 " << rank << " 单边读取操作已完成" << std::endl;
            // 可以对读取到的数据进行处理或验证
        }
    } else if (rank == 1) {
        // 进程1作为数据提供方，无需显式调用发送操作
        // 只需要确保本地缓冲区包含有效数据即可
        std::cout << "进程 " << rank << " 准备数据..." << std::endl;
        InitDataBuffer(localBuffer, bufferSize, rank);
        
        // 等待一段时间，确保数据被读取
        sleep(2);
    }
    
    // ========== 清理资源 ==========
    hixl::DeregisterMemory(localHandle);
    free(localBuffer);
    hixl::Finalize();
    
    return 0;
}

2.4 实战项目3：PD分离架构下的KV Cache池化传输

PD分离（Prefill-Decode分离）架构是大模型推理的一种优化部署方式。它将推理过程划分为Prefill阶段（处理输入提示）和Decode阶段（逐Token生成输出），并将这两个阶段部署在不同的NPU设备上，从而提高资源利用率和推理吞吐量。在PD分离架构中，Decode阶段需要访问Prefill阶段计算得到的KV Cache。这就需要在Prefill NPU和Decode NPU之间高效地传输KV Cache数据。hixl的单边通信特性非常适合于这种场景。

// pd_separation_kv_cache_transfer.cpp
// WHY: PD分离架构下的KV Cache传输是一个典型的
// 单边通信场景。Prefill NPU作为数据提供方，
// 可以将KV Cache存储在已注册的内存缓冲区中。
// Decode NPU作为数据消费方，可以主动地从
// Prefill NPU的内存空间中读取KV Cache，
// 而无需Prefill NPU显式地参与发送操作。
// 这降低了通信延迟和CPU开销，提高了系统整体吞吐量。

#include <iostream>
#include <vector>
#include <cstring>
#include "hixl/hixl.h"
#include "acl/acl.h"

// 假设KV Cache的数据结构
struct KvCache {
    void* kCache;   // Key Cache的指针
    void* vCache;   // Value Cache的指针
    size_t size;     // KV Cache的大小（字节）
    int    seqLen;   // 序列长度
    int    numLayers; // 层数
    int    numHeads; // 头数
    int    headDim;  // 头维度
};

int main(int argc, char* argv[]) {
    // ========== 初始化hixl和ACL ==========
    hixl::Status hixlRet = hixl::Init(&argc, &argv);
    aclInit(nullptr);
    aclrtSetDevice(0);
    
    hixl::Communicator comm = hixl::GetWorldCommunicator();
    int rank = hixl::GetRank(comm);
    int worldSize = hixl::GetSize(comm);
    
    if (worldSize != 2) {
        std::cerr << "此示例需要 exactly 2个进程，" << std::endl;
        std::cerr << "当前进程数：" << worldSize << std::endl;
        hixl::Finalize();
        aclFinalize();
        return -1;
    }
    
    // ========== 准备KV Cache数据 ==========
    KvCache kvCache;
    kvCache.seqLen = 512;
    kvCache.numLayers = 32;
    kvCache.numHeads = 32;
    kvCache.headDim = 128;
    kvCache.size = kvCache.seqLen * kvCache.numLayers * 
                   kvCache.numHeads * kvCache.headDim * 2 * sizeof(float);
    
    // 分配设备内存（NPU）
    aclrtMalloc(&kvCache.kCache, kvCache.size / 2, ACL_MEM_MALLOC_HUGE_FIRST);
    aclrtMalloc(&kvCache.vCache, kvCache.size / 2, ACL_MEM_MALLOC_HUGE_FIRST);
    
    // 注册KV Cache内存缓冲区
    hixl::MemoryHandle kCacheHandle, vCacheHandle;
    hixlRet = hixl::RegisterMemory(kvCache.kCache, kvCache.size / 2, 
                                    HIXL_MEMORY_DEVICE, 
                                    HIXL_MEMORY_ACCESS_READ_ONLY,  // Prefill侧只读
                                    &kCacheHandle);
    hixlRet = hixl::RegisterMemory(kvCache.vCache, kvCache.size / 2, 
                                    HIXL_MEMORY_DEVICE, 
                                    HIXL_MEMORY_ACCESS_READ_ONLY,  // Prefill侧只读
                                    &vCacheHandle);
    
    if (rank == 0) {
        // ========== Prefill NPU（进程0） ==========
        std::cout << "Prefill NPU：计算KV Cache..." << std::endl;
        
        // 模拟Prefill阶段计算KV Cache
        // 省略：实际实现中，这里应该包含Prefill阶段的前向计算逻辑
        // ...
        
        std::cout << "Prefill NPU：KV Cache计算完成，等待Decode NPU读取..." << std::endl;
        
        // Prefill NPU无需显式调用发送操作，
        // 只需要保持KV Cache内存缓冲区注册状态即可。
        // 可以通过某种同步机制（如hixl_Fence）来等待Decode NPU读取完成。
        hixl::Fence(comm);
        
        std::cout << "Prefill NPU：Decode NPU已读取KV Cache" << std::endl;
    } else if (rank == 1) {
        // ========== Decode NPU（进程1） ==========
        std::cout << "Decode NPU：准备读取KV Cache..." << std::endl;
        
        // 分配本地内存缓冲区，用于存储从Prefill NPU读取的KV Cache
        void* localKCache;
        void* localVCache;
        aclrtMalloc(&localKCache, kvCache.size / 2, ACL_MEM_MALLOC_HUGE_FIRST);
        aclrtMalloc(&localVCache, kvCache.size / 2, ACL_MEM_MALLOC_HUGE_FIRST);
        
        // 注册本地内存缓冲区
        hixl::MemoryHandle localKCacheHandle, localVCacheHandle;
        hixlRet = hixl::RegisterMemory(localKCache, kvCache.size / 2, 
                                        HIXL_MEMORY_DEVICE, 
                                        HIXL_MEMORY_ACCESS_WRITE_ONLY,  // Decode侧只写
                                        &localKCacheHandle);
        hixlRet = hixl::RegisterMemory(localVCache, kvCache.size / 2, 
                                        HIXL_MEMORY_DEVICE, 
                                        HIXL_MEMORY_ACCESS_WRITE_ONLY,  // Decode侧只写
                                        &localVCacheHandle);
        
        // 执行单边读取操作，从Prefill NPU读取KV Cache
        // WHY: 通过单边读取操作，Decode NPU可以主动地
        // 从Prefill NPU的内存空间中读取KV Cache，
        // 而无需Prefill NPU显式地参与发送操作。
        // 这降低了通信延迟和CPU开销。
        std::cout << "Decode NPU：读取K Cache..." << std::endl;
        hixlRet = hixl::Get(
            localKCache,       // 本地数据缓冲区
            kvCache.size / 2,  // 数据大小（字节）
            0,                 // Prefill NPU的rank
            0,                 // 内存偏移量
            localKCacheHandle, // 本地内存句柄
            comm               // 通信域
        );
        
        std::cout << "Decode NPU：读取V Cache..." << std::endl;
        hixlRet = hixl::Get(
            localVCache,       // 本地数据缓冲区
            kvCache.size / 2,  // 数据大小（字节）
            0,                 // Prefill NPU的rank
            0,                 // 内存偏移量
            localVCacheHandle, // 本地内存句柄
            comm               // 通信域
        );
        
        // 等待单边读取操作完成
        hixlRet = hixl::Fence(comm);
        if (hixlRet == hixl::STATUS_SUCCESS) {
            std::cout << "Decode NPU：KV Cache读取完成" << std::endl;
            // 省略：实际实现中，这里应该包含Decode阶段的前向计算逻辑
            // ...
        }
        
        // 清理本地内存缓冲区
        hixl::DeregisterMemory(localKCacheHandle);
        hixl::DeregisterMemory(localVCacheHandle);
        aclrtFree(localKCache);
        aclrtFree(localVCache);
    }
    
    // ========== 清理资源 ==========
    hixl::DeregisterMemory(kCacheHandle);
    hixl::DeregisterMemory(vCacheHandle);
    aclrtFree(kvCache.kCache);
    aclrtFree(kvCache.vCache);
    
    aclrtResetDevice(0);
    aclFinalize();
    hixl::Finalize();
    
    return 0;
}

三、hixl的优化技术与性能分析

3.1 核心技术优化

hixl通过以下技术实现了对昇腾NPU集群场景的深度优化：

1. 零拷贝传输

hixl通过内存注册（Memory Registration）技术，实现了数据的零拷贝传输。注册后的内存缓冲区可以被直接访问，而无需在用户空间和内核空间之间进行数据拷贝。这显著减少了数据传输的延迟和CPU开销。

2. 多种传输协议支持

hixl支持多种传输协议，包括PCIe、RDMA、UBOE等。用户可以根据集群网络环境选择最合适的传输协议，从而获得最佳的性能。例如，对于跨节点的通信，RDMA协议可以提供更低的延迟和更高的吞吐量。

3. 异步通信

hixl支持异步通信操作，使得通信和计算可以重叠执行。例如，在Decode NPU读取KV Cache的同时，Prefill NPU可以继续处理新的输入提示。这提高了系统整体吞吐量。

4. 批量操作

hixl支持批量操作（Batch Operations），即一次调用可以传输多个不连续的内存区域。这减少了函数调用的开销，提高了传输效率。

3.2 性能对比实验

我们在昇腾NPU集群（2个节点，每个节点1个Ascend 910 NPU）上进行了性能对比实验，比较了不同通信库在KV Cache传输任务中的性能。

实验设置：

KV Cache大小：1GB（512 tokens × 32 layers × 32 heads × 128 dim × 2 × 4 bytes）
对比对象：
1. 基于MPI的双边通信（MPI_Send/MPI_Recv）
2. 基于NCCL的集合通信（ncclSend/ncclRecv）
3. 基于hixl的单边通信（hixl_Put/hixl_Get）

实验结果：