基于vLLM-Ascend的Qwen3.5-27B模型Atlas 800I A2单机混部部署实践

m0_75133289

176人浏览 · 2026-07-04 14:54:30

m0_75133289 · 2026-07-04 14:54:30 发布

作者：昇腾实战派
知识地图：https://blog.csdn.net/Lumos_Lovegood/article/details/161601003

背景概述

本文档将介绍基于vLLM-Ascend的Qwen3.5-27B模型在Atlas 800I A2上的单机混部部署实践，包括支持的特性、特性配置、环境信息以及性能测试典型case。

基本信息

软件版本	设备信息	组网形态	总卡数	数据格式
0.18.0	NPU：Atlas 800I A2-280T, HBM 64G CPU：Kunpeng 920（48核-2600MHz）内存：24根32G3200MHZ OS：Ubuntu 22.04 LTS	Atlas 800I A2单机	2	W8A8C16

服务化配置

低时延/高吞吐

export ASCEND_RT_VISIBLE_DEVICES="2,3"
export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_IF_IP="xxx"
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_BUFFSIZE=1024
export OMP_NUM_THREADS=1
echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOAD
export TASK_QUEUE_ENABLE=1

export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
export VLLM_ASCEND_ENABLE_NZ=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=1


vllm serve /home/Qwen3.5-27B-w8a8-mtp \
    --served-model-name "qwen3.5-27B" \
    --host 0.0.0.0 \
    --port 8314 \
    --tensor-parallel-size 2 \
    --max-model-len 262144 \
    --max-num-batched-tokens 8192 \
    --max-num-seqs 128 \
    --gpu-memory-utilization 0.95 \
    --trust-remote-code \
    --async-scheduling \
    --allowed-local-media-path / \
    --quantization ascend \
    --mm_processor_cache_type="shm" \
    --mm-processor-cache-gb 0 \
    --speculative-config '{"num_speculative_tokens": 3, "method":"qwen3_5_mtp", "enforce_eager": true}' \
    --additional-config '{"enable_cpu_binding":true, "multistream_overlap_shared_expert": true, "enable_weight_nz_layout":true}' \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY", "cudagraph_capture_sizes":[4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144]}' \

典型测试用例

平均输入	平均输出	并行策略	上下文长度	总请求数	最大并发数
2048	2048	MLA：DP1+TP2	262144	44	11
3500	1500	MLA：DP1+TP2	262144	128	32
3500	1500	MLA：DP1+TP2	262144	32	8
16384	1024	MLA：DP1+TP2	262144	40	10
16384	1024	MLA：DP1+TP2	262144	12	3
32768	512	MLA：DP1+TP2	262144	16	4
32768	512	MLA：DP1+TP2	262144	8	2
65536	1024	MLA：DP1+TP2	262144	12	3
65536	1024	MLA：DP1+TP2	262144	4	1
131072	1024	MLA：DP1+TP2	262144	8	2
131072	1024	MLA：DP1+TP2	262144	4	1

测试命令

参考aisbench官方测试指南。

aisbench测试命令

vllm-ascend社区官网

特别声明

以上配置均未开启Prefix Cache，若实际生产环境需要使用该特性，参考vLLM-Ascend社区参数指南开启–enable-prefix-caching

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

调查研究-213 UBTech U1：当人形机器人从“听懂指令“走向“情绪陪伴“

鲲鹏昇腾开发者社区

信创IM安全合规架构的三个闭环

随着信创替代进入深水区，政企单位在即时通讯系统上的选型逻辑正在发生根本性转变。过去判断一款IM是否好用，标准通常集中在消息延迟、文件传输速度和群组管理能力上，但现在，当系统需要运行在飞腾、鲲鹏、龙芯等国产芯片上，部署在统信UOS、麒麟等国产操作系统上，连接达梦、人大金仓等国产数据库时，技术的复杂性已经远远超出了功能层面的考量。很多信息化负责人开始意识到，信创环境下的即时通讯，首先要解决的不是协同效

鲲鹏昇腾开发者社区

龍魂·創新引擎鯤鵬服務器集成補丁

本文档介绍了如何在鲲鹏(ARM64/aarch64)服务器上集成"穷则思变创新引擎"系统。该系统包含四个核心组件：人格路由、CNSH运行时、龙魂创新引擎和监控面板，通过状态机机制实现从"穷"到"久"的四态转换。采用Docker Compose部署方案，新增三个服务：创新引擎容器（基于Python 3.11的ARM64镜像）、Prometheus指标收集器和Grafana监控面板。配置参数涵盖四态转