昇腾CANN shmem 仓：NPU进程间共享内存零拷贝

本文介绍了昇腾CANNN的共享内存库shmem，用于解决多进程推理中的显存浪费问题。当多个进程加载相同模型权重时，传统方式会重复占用显存（如4个BERT进程占用6GB）。shmem通过Linux共享内存机制，将NPU显存映射到多个进程，实现权重共享（4进程仅占1.5GB）。文章详细拆解了shmem的实现原理：基于POSIX共享内存API，通过ioctl将NPU显存映射到共享内存区域，使多进程可零拷

2501_94138677

204人浏览 · 2026-05-27 13:36:51

2501_94138677 · 2026-05-27 13:36:51 发布

前言

你启动4个进程做多模型推理（比如同时跑BERT、ResNet、GPT、YOLO），每个进程加载自己的模型权重。4个进程 × 1.5GB（BERT权重）= 6GB显存，但NPU只有32GB HBM。

你发现：4个进程的模型权重是一样的（都是BERT-base），为什么要加载4份？

shmem 是昇腾CANNN的共享内存库，让多个进程共享同一份NPU显存（权重、KV Cache）。4个进程加载同一份权重，只占 1.5GB（不是6GB）。

这篇文章用概念拆解的方式，从多进程推理的显存问题讲起，一步步拆开shmem的实现原理。

多进程推理的显存问题

先说清楚问题出在哪。

单进程推理

# 单进程推理（简单）
import torch
import torch_npu

# 加载模型（占显存）
model = torch.load("bert_base.pth").npu()  # 1.5GB

# 推理
input_ids = torch.randint(0, 21128, (1, 512)).npu()
output = model(input_ids)  # 占显存：1.5GB（权重）+ 0.2GB（中间激活）= 1.7GB

单进程，显存占用 1.7GB，没问题。

多进程推理（问题来了）

# 多进程推理（每个进程加载自己的模型）
import torch
import torch_npu
import multiprocessing as mp

def infer_process(model_path, input_ids):
    # 每个进程都加载模型（占自己的显存）
    model = torch.load(model_path).npu()  # 1.5GB
    output = model(input_ids.npu())
    return output.cpu()

# 启动4个进程
processes = []
for i in range(4):
    p = mp.Process(target=infer_process, args=("bert_base.pth", torch.randint(0, 21128, (1, 512))))
    p.start()
    processes.append(p)

# 问题：4个进程 × 1.5GB = 6GB 显存
# 如果模型更大（比如GPT-3 175B），直接OOM

关键问题：4个进程加载同一份权重，但每个进程都占自己的显存，浪费 4.5GB（3份重复的）。

KV Cache 的共享需求

大模型推理（GPT）需要 KV Cache（历史Token的Key/Value张量）。

# 单进程推理（有 KV Cache）
import torch
import torch_npu

model = torch.load("gpt2.pth").npu()

# KV Cache（历史Token的Key/Value）
kv_cache = {
    "layer_0": {
        "key": torch.zeros(1, 12, 0, 64).npu(),   # (Batch, Head, SeqLen, HeadDim)
        "value": torch.zeros(1, 12, 0, 64).npu()
    },
    # ... 12 层
}

# 推理时，KV Cache 不断增长（每生成一个Token，加一行）
# 生成长文本（1000个Token）时，KV Cache 占 **12GB** 显存

如果多进程服务（比如vLLM），每个进程都要存自己的KV Cache，显存直接爆炸。

解决思路：让多个进程共享同一份KV Cache（只读，不写）。

shmem 的核心机制

shmem 让多个进程共享同一份NPU显存，原理是跨进程内存映射。

Linux 共享内存基础

shmem 基于 Linux 的 shmem（POSIX 共享内存）实现。

// Linux 共享内存 API（shmem 的底层）
#include <sys/mman.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>

/*
 * 创建共享内存
 */
int shm_fd = shm_open("/my_shm", O_CREAT | O_RDWR, 0666);
ftruncate(shm_fd, 1024 * 1024 * 1024);  // 1GB

/*
 * 映射到进程地址空间
 */
void *shm_addr = mmap(NULL, 1024 * 1024 * 1024, PROT_READ | PROT_WRITE, MAP_SHARED, shm_fd, 0);

/*
 * 现在多个进程可以映射到同一块物理内存
 * 进程A写，进程B能立刻看到
 */

关键点：

shm_open 创建命名共享内存（名字以 / 开头）
mmap 把共享内存映射到进程虚拟地址空间
MAP_SHARED 保证：进程A写，进程B立刻看到（不是拷贝）

shmem 的 NPU 显存共享

shmem 把上述机制扩展到NPU显存：

// shmem 的 NPU 显存共享（简化）
#include "shmem.h"

/*
 * shmem_create() - 创建 NPU 共享内存
 *
 * 参数：
 *   name    - 共享内存名字（比如 "/bert_weights"）
 *   size    - 大小（字节）
 *   device  - NPU 设备 ID（0, 1, 2, ...）
 *
 * 返回：
 *   共享内存句柄（可用于跨进程映射）
 */
shmem_handle_t shmem_create(const char *name, size_t size, int device)
{
    int shm_fd;
    void *npu_va;
    int ret;
    
    // 1. 创建 POSIX 共享内存
    shm_fd = shm_open(name, O_CREAT | O_RDWR, 0666);
    if (shm_fd < 0) {
        shmem_err("Failed to create shared memory %s, errno=%d\n", name, errno);
        return -1;
    }
    
    // 2. 设置大小
    ret = ftruncate(shm_fd, size);
    if (ret < 0) {
        shmem_err("Failed to truncate shared memory %s, errno=%d\n", name, errno);
        close(shm_fd);
        return -1;
    }
    
    // 3. 映射 NPU 显存到共享内存
    // 关键：用 NPU 驱动的 ioctl 做映射（不是 mmap）
    ret = ioctl(npu_fd, NPU_IOCTL_MAP_DEVMM_TO_SHM, shm_fd, size, &npu_va);
    if (ret < 0) {
        shmem_err("Failed to map NPU memory to shared memory, ret=%d\n", ret);
        close(shm_fd);
        return -1;
    }
    
    // 4. 返回句柄
    shmem_handle_t handle = {
        .shm_fd = shm_fd,
        .npu_va = npu_va,
        .size = size,
        .name = name
    };
    
    return handle;
}

/*
 * shmem_map() - 把共享内存映射到当前进程
 */
void *shmem_map(shmem_handle_t handle)
{
    void *va;
    
    // 映射共享内存到当前进程的虚拟地址空间
    va = mmap(NULL, handle.size, PROT_READ | PROT_WRITE, MAP_SHARED, handle.shm_fd, 0);
    if (va == MAP_FAILED) {
        shmem_err("Failed to mmap shared memory %s, errno=%d\n", handle.name, errno);
        return NULL;
    }
    
    // 关键：这块虚拟地址对应 NPU 显存（不是 CPU 内存）
    // 进程访问 *va，其实是访问 NPU 显存（通过 PCIe）
    
    return va;
}

关键点：

用 ioctl 把 NPU 显存映射到 POSIX 共享内存
多个进程 mmap 同一块共享内存，就能共享同一份NPU显存
访问共享内存，就是访问 NPU 显存（零拷贝）

shmem 的使用场景

场景1：多模型共享权重

# shmem_shared_weights.py
import torch
import torch_npu
import shmem

def create_shared_weights(model_path, shm_name="/bert_weights"):
    """创建共享权重（主进程）"""
    # 1. 加载模型
    model = torch.load(model_path).npu()
    
    # 2. 创建共享内存
    shm_handle = shmem.create(shm_name, model.numel() * model.element_size())
    
    # 3. 把权重拷贝到共享内存
    shm_addr = shmem.map(shm_handle)
    shm_tensor = torch.from_file(shm_addr, size=model.shape, dtype=model.dtype, device="npu:0")
    shm_tensor.copy_(model)
    
    return shm_handle

def open_shared_weights(shm_name="/bert_weights"):
    """打开共享权重（子进程）"""
    # 1. 打开共享内存
    shm_handle = shmem.open(shm_name)
    
    # 2. 映射到当前进程
    shm_addr = shmem.map(shm_handle)
    
    # 3. 用共享内存构造张量（不拷贝！）
    # 关键：from_file 是零拷贝（共享同一块物理内存）
    shm_tensor = torch.from_file(shm_addr, size=model.shape, dtype=model.dtype, device="npu:0")
    
    return shm_tensor

# 主进程：创建共享权重
shm_handle = create_shared_weights("bert_base.pth")

# 子进程：打开共享权重（不占额外显存）
shared_weights = open_shared_weights()

# 验证：主进程和子进程访问的是同一份权重
print(f"主进程权重地址: {model.data_ptr():x}")
print(f"子进程权重地址: {shared_weights.data_ptr():x}")
# 输出：两个地址不一样（虚拟地址），但物理地址是同一份（零拷贝）

效果：

单进程：1.5GB（BERT权重）
4进程（无共享）：6GB
4进程（有共享）：1.5GB（省 4.5GB）

场景2：KV Cache 共享

# shmem_shared_kv_cache.py
import torch
import torch_npu
import shmem
import torch.multiprocessing as mp

def create_shared_kv_cache(shm_name="/kv_cache", max_seq_len=1024, num_layers=12, num_heads=12, head_dim=64):
    """创建共享 KV Cache（主进程）"""
    # 1. 计算 KV Cache 大小
    # KV Cache 形状：(Batch, Head, SeqLen, HeadDim)
    # 假设 Batch=1，SeqLen=max_seq_len
    kv_size = 2 * num_layers * 1 * num_heads * max_seq_len * head_dim * 2  # FP16=2字节
    
    # 2. 创建共享内存
    shm_handle = shmem.create(shm_name, kv_size)
    
    # 3. 初始化 KV Cache（全零）
    shm_addr = shmem.map(shm_handle)
    kv_cache = torch.from_file(
        shm_addr,
        size=(2 * num_layers, 1, num_heads, max_seq_len, head_dim),
        dtype=torch.float16,
        device="npu:0"
    )
    kv_cache.zero_()
    
    return shm_handle, kv_cache

def open_shared_kv_cache(shm_name="/kv_cache", num_layers=12, num_heads=12, max_seq_len=1024, head_dim=64):
    """打开共享 KV Cache（子进程）"""
    # 1. 打开共享内存
    shm_handle = shmem.open(shm_name)
    
    # 2. 映射到当前进程
    shm_addr = shmem.map(shm_handle)
    
    # 3. 构造 KV Cache 张量（零拷贝）
    kv_cache = torch.from_file(
        shm_addr,
        size=(2 * num_layers, 1, num_heads, max_seq_len, head_dim),
        dtype=torch.float16,
        device="npu:0"
    )
    
    return kv_cache

# 主进程：创建共享 KV Cache
shm_handle, kv_cache = create_shared_kv_cache()

# 子进程：打开共享 KV Cache（不占额外显存）
child_kv_cache = open_shared_kv_cache()

# 推理时使用共享 KV Cache
def infer_with_shared_kv_cache(model, input_ids, kv_cache, cur_seq_len):
    """用共享 KV Cache 推理"""
    # 1. 前向计算（传入 KV Cache）
    output = model(input_ids, kv_cache=kv_cache, cur_seq_len=cur_seq_len)
    
    # 2. 更新 KV Cache（共享内存，所有进程都能看到更新）
    # 关键：KV Cache 是共享的，一个进程更新，其他进程立刻看到
    new_kv = output.attentions.kv_cache  # 假设模型返回新的 KV Cache
    kv_cache[:, :, cur_seq_len:cur_seq_len+1, :] = new_kv
    
    return output

# 多进程共享同一份 KV Cache（省显存）
# 假设 4 个进程，每个进程生成 1000 个 Token
# 无共享：4 × 12GB = 48GB
# 有共享：12GB（省 36GB）

效果：

单进程：12GB（KV Cache，1000 Token）
4进程（无共享）：48GB
4进程（有共享）：12GB（省 36GB）

shmem 与 HCCL 的区别

shmem 和 HCCL 都涉及"共享"，但场景完全不同：

特性	shmem	HCCL
范围	单机（同一台服务器）	分布式（多台服务器）
共享方式	共享内存（零拷贝）	网络通信（PCIe/RDMA）
适用场景	多进程共享权重/KV Cache	多卡分布式训练/推理
延迟	~100ns（内存访问）	~10μs（网络通信）
带宽	~1TB/s（内存带宽）	~100GB/s（PCIe 4.0）× 8 卡

简单区分：

单机多进程 → 用 shmem（共享内存，零拷贝）
多机多卡 → 用 HCCL（网络通信，AllReduce/AlltoAll）

shmem 的 Python 接口

shmem 提供 Python 接口（基于 torch.multiprocessing 封装）：

# shmem_python_api.py
import torch
import torch_npu
from shmem import NpuShmem

# 1. 创建共享张量（主进程）
shared_tensor = NpuShmem.create_shared_tensor(
    shape=(1024, 512),
    dtype=torch.float16,
    device="npu:0",
    name="/my_shared_tensor"
)

# 2. 写入数据（主进程）
shared_tensor.fill_(1.0)

# 3. 子进程打开共享张量
def child_process(shm_name):
    # 打开共享张量（零拷贝）
    shared_tensor = NpuShmem.open_shared_tensor(
        name=shm_name,
        device="npu:0"
    )
    
    # 读取数据（不拷贝）
    print(f"子进程看到的数据: {shared_tensor[0, 0].item()}")  # 1.0
    
    # 修改数据（所有进程都能看到）
    shared_tensor[0, 0] = 2.0

# 4. 启动子进程
import multiprocessing as mp
p = mp.Process(target=child_process, args=("/my_shared_tensor",))
p.start()
p.join()

# 5. 主进程验证
print(f"主进程看到的数据: {shared_tensor[0, 0].item()}")  # 2.0（子进程修改的）