基于vLLM-Ascend的DeepSeek-V3.2模型Atlas 800I A3单机混部部署实践

heyyyyyyyyyy

41人浏览 · 2026-07-04 14:38:08

heyyyyyyyyyy · 2026-07-04 14:38:08 发布

作者：昇腾实战派
知识地图：https://blog.csdn.net/Lumos_Lovegood/article/details/161601003

背景概述

本文档将介绍基于vLLM-Ascend的DeepSeek-V3.2模型在Atlas 800I A3上的单机混部部署实践，包括支持的特性、特性配置、环境信息以及性能测试典型case

基本信息

软件版本	设备信息	组网形态	总卡数	数据格式
0.18.0	NPU: Atlas 800I A3-560T, HBM 128G CPU: Kunpeng 920 (80核-2900MHz) 内存: 32根64G 5200MHz OS: OpenEuler 22.03 LTS-SP4	Atlas 800I A3单机	8	W8A8

服务化配置

低时延/高吞吐

export OMP_PROC_BIND=false
export OMP_NUM_THREADS=10
export HCCL_OP_EXPANSION_MODE="AIV"
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOAD
export VLLM_USE_V1=1
export HCCL_BUFFSIZE=256
export ASCEND_AGGREGATE_ENABLE=1
export ASCEND_TRANSPORT_PRINT=1
export ACL_OP_INIT_MODE=1
export ASCEND_A3_ENABLE=1
export VLLM_NIXL_ABORT_REQUEST_TIMEOUT=300000
export TASK_QUEUE_ENABLE=1
export VLLM_ASCEND_ENABLE_MLAPO=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1

vllm serve /mnt/share/weights/DeepSeek-V3.2-W8A8 \
    --port 8003 \
    --data-parallel-size 2 \
    --tensor-parallel-size 8 \
    --seed 1024 \
    --served-model-name dsv3 \
    --max-model-len 67000 \
    --max-num-batched-tokens 4096 \
    --max-num-seqs 8 \
    --trust-remote-code \
    --quantization ascend \
    --async-scheduling \
    --no-enable-prefix-caching \
    --enable-expert-parallel \
    --gpu-memory-utilization 0.95 \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY", "cudagraph_capture_sizes":[1,2,4,8,16,24,32,40,48]}' \
    --speculative-config '{"num_speculative_tokens": 3, "method":"deepseek_mtp"}' \
    --tokenizer-mode deepseek_v32 \
    --reasoning-parser deepseek_v3

典型测试用例

平均输入	平均输出	并行策略	上下文长度	总请求数	最大并发数	请求频率(req/s)
16384	1024	MLA：DP2+TP8	67000	4	1	0
16384	1024	MLA：DP2+TP8	67000	16	4	0.5
32768	512	MLA：DP2+TP8	67000	4	1	0
32768	512	MLA：DP2+TP8	67000	8	2	0.2
65536	1024	MLA：DP2+TP8	67000	4	1	0
65536	1024	MLA：DP2+TP8	67000	8	2	1
2048	2048	MLA：DP2+TP8	8000	4	1	0
2048	2048	MLA：DP2+TP8	8000	16	4	0
3500	1500	MLA：DP2+TP8	8000	4	1	0
3500	1500	MLA：DP2+TP8	8000	16	4	0

测试命令

参考aisbench官方测试指南。

aisbench测试命令

vllm-ascend社区官网

特别声明

以上配置均未开启Prefix Cache，若实际生产环境需要使用该特性，参考vLLM-Ascend社区参数指南开启–enable-prefix-caching

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

从开发者到企业量产：香橙派四款昇腾产品解决什么问题？

20T版本支持40路1080P@30FPS硬件解码，在多路摄像头场景中，这颗芯片可以独立完成“解码→AI推理→编码输出”的全链路任务，无需外挂其他芯片。通过SODIMM接口引出了PCIe X4、USB3.0×3、MIPI CSI 4-Lane×2、HDMI等全功能高速信号，工业设备、机器人、边缘计算盒子的开发者可以灵活设计自己的底板。，但做成了一块可以嵌入产品主板的模块。硬件产品开发有一个经典困境

鲲鹏昇腾开发者社区

ay 0 部署：昇腾 910B DeepSeek-V4 部署指南与压测表现

GPUStack 支持可插拔的推理引擎架构，允许自定义推理后端及其版本，用于引入 GPUStack 未内置的 vLLM / SGLang / MindIE 版本，或接入其他自定义推理引擎镜像。为了部署模型，需要添加 vLLM Ascend 最新发布的v0.13.0rc3版本。vLLM在推理后端菜单，编辑 vLLM，在版本配置中选择添加版本配置值版本0.13.0rc3镜像名称框架CANN覆盖镜像入口

鲲鹏昇腾开发者社区

信创IM安全合规架构的三个闭环

随着信创替代进入深水区，政企单位在即时通讯系统上的选型逻辑正在发生根本性转变。过去判断一款IM是否好用，标准通常集中在消息延迟、文件传输速度和群组管理能力上，但现在，当系统需要运行在飞腾、鲲鹏、龙芯等国产芯片上，部署在统信UOS、麒麟等国产操作系统上，连接达梦、人大金仓等国产数据库时，技术的复杂性已经远远超出了功能层面的考量。很多信息化负责人开始意识到，信创环境下的即时通讯，首先要解决的不是协同效