昇腾CANN算子精度问题排查：从ops-math说起

ops-math是昇腾CANN里和精度关系最密切的算子库。它负责的类型转换、数学函数、随机数生成这三类算子，直接影响模型推理和训练的质量。把ops-math的精度处理策略搞清楚，就能理解为什么同样的模型在GPU和NPU上的表现会有差异，以及怎么缩小这个差异。CANN开源之后，这些问题不再需要猜，可以直接到源码里找答案。

Rannydown

100人浏览 · 2026-05-23 21:05:19

Rannydown · 2026-05-23 21:05:19 发布

昇腾NPU上做模型推理，最容易踩的坑不是性能，而是精度。同样是FP16推理，GPU上能跑出和FP32几乎一样的结果，NPU上可能就差出3%的精度。这个问题在CANN开源之后终于有解了——可以直接翻ops-math仓库的源码，看每个算子的精度处理逻辑。

ops-math在CANN里的位置

ops-math是昇腾CANN开源社区里的数学类基础算子库，和ops-nn、ops-blas、ops-transformer这些仓库并列，同属于核心算子仓库这一层。从CANN五层架构来看，这些算子仓库都位于第2层——昇腾计算服务层的AOL算子库里。

具体到精度问题，ops-math负责的是conversion类（类型转换）、math类（Exp/Log/Sin等）、random类（随机数生成）这三大类算子。这些算子看起来简单，但精度处理方式直接影响下游任务的表现。

精度损失的来源

在昇腾NPU上，精度损失通常来自三个地方：

1. 输入数据类型的隐式转换

PyTorch的tensor默认是FP32，但NPU上的算子为了性能考虑，很多只支持FP16。框架适配层（pyasc）在调用算子的时候会做隐式转换：把FP32的输入转成FP16，算子算完再转回FP32。

这个转换过程是有精度损失的。特别是Exp、Log这类对输入敏感的函数，FP16的动态范围比FP32小很多，大数值输入会导致溢出，小数值输入会导致下溢。

2. 中间计算的累加精度

矩阵乘法的累加器（accumulator）可以用FP16也可以用FP32。用FP16做累加，每乘加一次就截断一次，误差会累积。用FP32做累加，只有在最后写回HBM的时候才截断成FP16。

ops-math里的Exp算子，中间计算是用FP32做的，只有在最后输出的时候才转成FP16。这个选择在性能和精度之间取了平衡。

3. 特殊值的处理

FP16里有两个特殊值：NaN和Inf。GPU上的算子通常会把Inf转成NaN，或者做特定的裁剪。NPU上的算子如果没有做这件事，Inf会一路传播到最终输出，导致整个推理结果不可用。

ops-math的精度处理策略

翻ops-math的源码，发现它对精度问题做了系统性的处理。以Exp算子为例：

# Exp 算子的精度处理流程（概念性代码）
import torch
import torch_npu

def exp_precision_check(input_tensor):
    """检查 Exp 算子的输入是否在合理范围内"""
    # FP16 的有效动态范围大约是 6e-5 ~ 65504
    # Exp 之后会放大，需要提前裁剪
    max_input = 11.0  # Exp(11.0) ≈ 60000，接近 FP16 上限
    min_input = -11.0
    
    clipped = torch.clamp(input_tensor, min_input, max_input)
    return clipped

# 调用 ops-math 的 Exp 算子
input_fp16 = torch.randn(1024, 1024, dtype=torch.float16, device="npu:0")
clipped_input = exp_precision_check(input_fp16)
output = torch.exp(clipped_input)  # 内部走 ops-math 的 Exp 实现

这段代码的核心信息是：ops-math的Exp算子在内部做了输入裁剪，把超出[-11.0, 11.0]范围的值裁剪掉，避免Exp之后溢出成Inf。这个处理在GPU的CUDA实现里通常不做（因为FP32的动态范围足够大），但在NPU的FP16场景下是必要的。

代码示例：用ops-math做类型转换

ops-math里的conversion类算子（Cast、TypeConvert等）是精度问题的重灾区。下面给一个正确的类型转换示例：

# 正确的 FP32 → FP16 转换方式（避免精度损失）
import torch
import torch_npu

# 错误做法：直接 .half()
tensor_fp32 = torch.randn(1024, 1024, dtype=torch.float32)
tensor_fp16_wrong = tensor_fp32.half().to("npu:0")
# 问题：CPU 上的 .half() 和 NPU 上的算子对边界值的处理可能不一致

# 正确做法：用 ops-math 的 Cast 算子
tensor_npu = tensor_fp32.to("npu:0")
tensor_fp16_correct = torch_npu.npu_cast(tensor_npu, torch.float16)
# ops-math 的 Cast 算子会处理边界情况（NaN/Inf/溢出）

# 验证精度损失
diff = (tensor_fp16_wrong.cpu() - tensor_fp16_correct.cpu()).abs()
print(f"Max precision diff: {diff.max().item():.6f}")

两种做法的结果在大部分数值上是一致的，但在边界值（比如输入是1e4）的时候，错误做法会产生NaN，正确做法会输出一个合理的裁剪值。

精度调试工具

CANN提供了一套精度调试工具，可以和ops-math配合使用：

1. 算子级别精度对比

# 用 CPU FP32 作为参考值，对比 NPU FP16 的结果
import torch
import torch_npu

def compare_precision(op_name, input_shape, iters=100):
    """对比 CPU 和 NPU 上的算子精度"""
    # CPU FP32 参考值
    input_cpu = torch.randn(input_shape, dtype=torch.float32)
    if op_name == "exp":
        ref_output = torch.exp(input_cpu)
    elif op_name == "log":
        ref_output = torch.log(torch.abs(input_cpu) + 1e-10)
    
    # NPU FP16 输出
    input_npu = input_cpu.half().to("npu:0")
    if op_name == "exp":
        npu_output = torch.exp(input_npu)
    elif op_name == "log":
        npu_output = torch.log(torch.abs(input_npu) + 1e-10)
    
    # 对比精度
    ref_fp16 = ref_output.half()
    npu_cpu = npu_output.cpu()
    
    diff = (ref_fp16 - npu_cpu).abs()
    print(f"Op: {op_name}, Shape: {input_shape}")
    print(f"  Max abs diff: {diff.max().item():.6f}")
    print(f"  Mean abs diff: {diff.mean().item():.6f}")
    print(f"  >1e-3 ratio: {(diff > 1e-3).float().mean().item()*100:.2f}%")

# 测试几个常见 shape
compare_precision("exp", (1024, 1024))
compare_precision("log", (4096, 4096))

2. 使用CANN的精度分析工具

# 开启算子精度统计
export ASCEND_PRECISION_MODE="allow_fp32_to_fp16"
export ASCEND_PRINT_OPLIST=1

# 跑模型，观察每个算子的精度表现
python infer.py 2>&1 | grep "Precision"

# 生成精度报告（需要 CANN 8.0+）
python -m ascend.precision_analyzer --input_model=model.pt --output=report.html

和opbase的关系

ops-math不是从零开始写的。它依赖opbase仓库提供的基础组件：

类型转换工具：opbase提供了一套统一的类型转换函数，ops-math里的Cast算子直接调用这些函数
错误处理：算子执行失败的时候，怎么报错误码、怎么清理资源，这些逻辑在opbase里统一实现
算子注册：ops-math里新增的算子，要通过opbase的注册接口挂到AscendCL的算子列表里

所以如果你要改ops-math里某个算子的精度处理逻辑，需要先搞懂opbase里对应的工具函数是怎么实现的。CANN开源之后，这套依赖关系完全透明，改起来比闭源时代方便太多。

常见精度问题和解法

根据实际项目的经验，ops-math相关的精度问题通常有几类：

问题1：Exp/Log在大数值输入下溢出

解法：在调用Exp/Log之前，先对输入做裁剪。ops-math的新版本已经内置了这个处理逻辑，但需要手动开启：

# 开启 ops-math 的输入裁剪功能
os.environ["OPS_MATH_ENABLE_INPUT_CLIP"] = "1"
# 重新加载模型，使配置生效
model = torch.load("model.pt").npu()

问题2：类型转换导致梯度消失

训练场景下，FP16的梯度可能因为数值太小变成0。解法是关键层用FP32：

# 混合精度训练：计算用 FP16，梯度用 FP32
with torch.cuda.amp.autocast():
    output = model(input)
    loss = loss_fn(output, target)

# 反向传播，梯度以 FP32 计算
scaler = torch.cuda.amp.GradScaler()
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

问题3：随机数生成的质量问题

ops-math里的random类算子（随机数生成）用的是硬件随机数生成器。质量比CPU上的软件实现高，但如果我们每次都重新seed，会导致实验结果不可复现。

# 固定随机数种子，确保可复现
import torch
import numpy as np

def set_seed(seed=42):
    torch.manual_seed(seed)
    torch.npu.manual_seed_all(seed)
    np.random.seed(seed)
    torch.backends.cudnn.deterministic = True

set_seed(42)