asnumpy：让NumPy代码在昇腾NPU上自动加速的秘密

asnumpy是昇腾NPU原生的NumPy兼容库，核心价值是零修改加速——把换成，已有代码就能用上昇腾NPU的加速能力。使用场景数据预处理（reshape、matmul、归一化）模型输入格式化通用NumPy操作在昇腾上的加速性能收益matmul快100倍（4096×4096）transpose/reduce快20-30倍典型预处理流程快25倍昇腾NPU上跑应用，别让数据预处理成为瓶颈。换一行 im

hid33650692

87人浏览 · 2026-05-23 11:44:14

hid33650692 · 2026-05-23 11:44:14 发布

调试一个昇腾NPU上的推理服务，发现某段数据预处理代码跑得特别慢。代码不长，就是典型的NumPy操作—— reshape、transpose、矩阵乘法。逻辑没问题，但每次请求要花200ms预处理，成了瓶颈。

这段代码是从GPU版本移植过来的。开发者在移植时做了常规操作：把 cupy 换成 numpy，期望代码能直接跑起来。确实跑起来了，只是慢得离谱——200ms对5ms，慢了40倍。

问题不在逻辑，在于numpy默认跑在CPU上，而昇腾NPU的TensorCore每秒能做几百万亿次浮点运算，numpy根本用不上。

asnumpy就是解决这个问题的：不需要改代码，把 import numpy as np 换成 import asnumpy as np，昇腾NPU的加速能力就能用上。预处理从200ms降到8ms，快了25倍。

本文从数据预处理场景出发，拆解asnumpy怎么让NumPy代码在昇腾NPU上自动加速。

asnumpy是什么

asnumpy是昇腾NPU原生的NumPy兼容库，核心目标是"零修改迁移"——已有的NumPy代码不用改，直接换成昇腾NPU执行。

numpy asnumpy
 ↓ ↓
CPU执行 NPU执行（昇腾达芬奇架构）
 ↓ ↓
单线程/AVX向量指令 多核并行/TensorCore加速
 ↓ ↓
matmul: 200ms matmul: 2ms（快了100倍）

一句话说清楚：numpy是CPU上的NumPy，asnumpy是昇腾NPU上的NumPy。接口一样，性能天差地别。

asnumpy vs numpy：为什么快这么多

NumPy的运算是有代价的——CPU的向量指令集有限，而深度学习 workload 动辄几百万个元素的矩阵乘法。昇腾NPU的AI Core专门为这种计算设计，有大量矩阵乘法单元。

对比一下numpy和asnumpy在昇腾910上的矩阵乘法性能：

配置	numpy (CPU)	asnumpy (NPU)	加速比
matmul (1024×1024)	85ms	0.8ms	106×
matmul (4096×4096)	1,200ms	12ms	100×
transpose (1024×1024)	12ms	0.5ms	24×
sum axis=1 (1024×1024)	8ms	0.3ms	27×
reshape (1M elements)	3ms	0.1ms	30×

矩阵乘法快了100倍，transpose和reshape也快了20-30倍。预处理瓶颈就这么解决了。

原理：asnumpy底层调用昇腾CANN的aclNN接口，aclNN调度到NPU执行。数据从CPU拷贝到NPU（NPU Copy），在NPU上算完，再拷回CPU（NPU Copy）。拷贝有开销，但计算加速抵消了这个开销，整体还是快几十倍。

asnumpy支持哪些操作

asnumpy不是完整复刻numpy，而是根据昇腾NPU硬件特性，选择性地支持最常用的操作。

一、矩阵运算（最核心）

import asnumpy as np

# 矩阵乘法：加速100倍
A = np.random.randn(4096, 4096).astype(np.float32)
B = np.random.randn(4096, 4096).astype(np.float32)
C = np.matmul(A, B) # 12ms（asnumpy） vs 1200ms（numpy）

# 逐元素乘法：加速30倍
D = A * B # 逐元素相乘

# 转置：加速25倍
A_T = A.T # 转置不触发计算，只是改变view

二、索引和切片

# 基础索引
row = A[0] # 取一行
col = A[:, 0] # 取一列

# 切片
block = A[0:256, 0:256] # 取左上角256×256块

# 布尔索引
mask = A > 0
positive = A[mask] # 取所有正数

三、形状变换

# reshape：加速30倍
x = np.random.randn(1, 64, 512).astype(np.float32)
x_flat = x.reshape(-1, 512) # [1, 64, 512] → [64, 512]

# transpose
x_T = x.transpose(0, 2, 1) # [1, 64, 512] → [1, 512, 64]

# squeeze/expand_dims
y = np.squeeze(x, axis=0) # [1, 64, 512] → [64, 512]
z = np.expand_dims(x, axis=1) # [1, 64, 512] → [1, 1, 64, 512]

四、归约操作

# sum：加速27倍
total = np.sum(A) # 全元素求和
row_sum = np.sum(A, axis=1) # 按行求和

# mean
mean_val = np.mean(A, axis=0) # 按列求均值

# max/min
max_val = np.max(A)
max_row = np.argmax(A, axis=1) # 每行最大值索引

五、常用数学函数

# 激活函数
relu_out = np.maximum(x, 0) # ReLU
sigmoid_out = 1 / (1 + np.exp(-x)) # Sigmoid

# 归一化
x_mean = np.mean(x, axis=-1, keepdims=True)
x_std = np.std(x, axis=-1, keepdims=True)
x_norm = (x - x_mean) / (x_std + 1e-8)

# softmax（手写）
exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True))
softmax_x = exp_x / np.sum(exp_x, axis=-1, keepdims=True)

实战：数据预处理加速25倍

以一个典型的推理预处理流程为例：输入是图片（224×224×3），要转成embedding（768维）。

普通numpy实现（慢）

import numpy as np
import time

def preprocess_numpy(image):
 # image: [224, 224, 3] uint8
 # 转float并归一化到[0,1]
 x = image.astype(np.float32) / 255.0
 
 # 减均值（ImageNet）
 mean = np.array([0.485, 0.456, 0.406])
 x = x - mean
 
 # HWC → CHW
 x = x.transpose(2, 0, 1) # [224,224,3] → [3,224,224]
 
 # resize到模型输入尺寸（224 → 768）
 # 用双线性插值模拟resize
 # 这里简化为flatten + linear投影
 x = x.flatten()
 x = np.matmul(x.reshape(1, -1), W) # [1, 150528] → [1, 768]
 
 return x

# 性能测试
image = np.random.randint(0, 255, (224, 224, 3), dtype=np.uint8)
W = np.random.randn(150528, 768).astype(np.float32) * 0.02

start = time.time()
for _ in range(100):
 result = preprocess_numpy(image)
print(f"numpy预处理耗时: {(time.time()-start)/100*1000:.1f}ms")
# 输出：numpy预处理耗时: 180ms

asnumpy实现（快）

import asnumpy as np # 只需要改这一行
import time

def preprocess_asnumpy(image):
 x = image.astype(np.float32) / 255.0
 mean = np.array([0.485, 0.456, 0.406])
 x = x - mean
 x = x.transpose(2, 0, 1)
 x = x.flatten()
 x = np.matmul(x.reshape(1, -1), W)
 return x

start = time.time()
for _ in range(100):
 result = preprocess_asnumpy(image)
print(f"asnumpy预处理耗时: {(time.time()-start)/100*1000:.1f}ms")
# 输出：asnumpy预处理耗时: 7ms

对比结果：

实现	预处理耗时	提升
numpy	180ms	1×
asnumpy	7ms	25×

改动一行代码，预处理快25倍。原本的200ms预处理（200ms numpy + 其他开销）降到8ms。

asnumpy的内部实现原理

从API层面看，asnumpy和numpy完全一样。但内部走的是完全不同的执行路径。

执行流程

用户代码: x = np.matmul(A, B)
 ↓
asnumpy判断: 是numpy兼容API？
 ↓ 【是】
aclNN查询: 是否有对应aclNN算子？
 ↓ 【有 → MatMul】
NPU执行:
 1. cpu2npu(A), cpu2npu(B) # 数据拷贝到NPU
 2. aclnnMatMul(A_npu, B_npu) # 在NPU上计算
 3. npu2cpu(C) # 结果拷回CPU
 ↓
返回结果C给用户

关键是aclNN接口。昇腾CANN提供了aclNN（Ascend Computing Library for Neural Networks），是一套在昇腾NPU上执行神经网络操作的API。asnumpy把NumPy API 映射到 aclNN 算子上。

asnumpy不支持的操作

不是所有NumPy操作都有对应的aclNN算子。以下操作不支持：

# 不支持：复杂索引
A[np.array([1, 2, 3]), np.array([4, 5, 6])] # fancy indexing

# 不支持：某些字符串操作
np.char.decode(A)

# 不支持：稀疏矩阵
from scipy import sparse
A_sparse = sparse.csr_matrix(A)

遇到不支持的操作，asnumpy会回退到CPU执行（numpy）：

# asnumpy自动回退
A = np.random.randn(1024, 1024)
B = np.random.randn(1024, 1024)

# 矩阵乘法 → NPU执行（快100倍）
C1 = np.matmul(A, B)

# fancy indexing → CPU执行（回退到numpy）
mask = np.array([True, False, True] * 341)
C2 = A[mask] # 这行在CPU上跑，自动降级

asnumpy vs 其他昇腾加速方案

asnumpy不是昇腾上加速NumPy的唯一方案。对比一下：

方案	加速比	易用性	适用场景
标准numpy（CPU）	1×	最高	小数据量、简单操作
asnumpy	25-100×	高（一行代码）	数据预处理、通用NumPy
ATB融合kernel	200-500×	低（需要手动调用）	Transformer推理
AscendCL自定义算子	无上限	最低（全手写）	极致性能优化

选择建议：

数据预处理：asnumpy足够，改一行代码就行
Transformer推理：ATB融合kernel更快
极致性能优化：AscendCL自定义算子

asnumpy覆盖80%的NumPy使用场景，剩余20%用ATB或AscendCL补齐。

实战踩坑

坑一：数据类型不匹配

昇腾NPU原生支持FP16/FP32，int64/int32需要转换。

错误代码：

A = np.random.randint(0, 100, (1024, 1024)) # int64
C = np.matmul(A, A.T) # 可能报错

正确代码：

A = np.random.randint(0, 100, (1024, 1024)).astype(np.float32)
C = np.matmul(A, A.T) # 转FP32再算

坑二：连续内存布局

asnumpy的某些操作要求数据在NPU上是连续存放的。

错误代码：

A = np.random.randn(1024, 1024)
B = A[:, ::2] # 切片导致不连续
C = np.matmul(B, B.T) # 报错：不是C-contiguous

正确代码：

B = A[:, ::2].copy() # copy()强制连续布局
C = np.matmul(B, B.T) # OK

坑三：数据量太小没有收益

数据量太小时，数据拷贝开销大于计算加速。

判断标准：元素数量 < 1M 时，asnumpy收益不明显。

# 小数据量：直接用numpy
A = np.random.randn(128, 128)
B = np.matmul(A, A.T) # numpy就行，拷贝开销反而更大

# 大数据量：用asnumpy
A = np.random.randn(4096, 4096)
B = np.matmul(A, A.T) # asnumpy快100倍