基于vLLM-Ascend的MiniMax-M2.5模型Atlas 800I A3单机混部部署实践

heyyyyyyyyyy

41人浏览 · 2026-07-04 14:44:15

heyyyyyyyyyy · 2026-07-04 14:44:15 发布

作者：昇腾实战派
知识地图：https://blog.csdn.net/Lumos_Lovegood/article/details/161601003

背景概述

本文档将介绍基于vLLM-Ascend的MiniMax-M2.5模型在Atlas 800I A3上的单机混部部署实践，包括支持的特性、特性配置、环境信息以及性能测试典型case。

基本信息

软件版本	设备信息	组网形态	总卡数	数据格式
0.18.0	NPU：Atlas 800I A3-560T，HBM 128G CPU：Kunpeng 920（80核-2900MHz）内存：32根64G 5200MHZ OS：OpenEuler 22.03 LTS-SP4	Atlas 800I A3单机	8	W8A8C16

服务化配置

低时延/高吞吐

nic_name="xxx" 
nic_name="xxx" 
local_ip=xxx 
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name
export HCCL_BUFFSIZE=512
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export VLLM_ASCEND_ENABLE_FUSED_MC2=1 
export OMP_NUM_THREADS=1
echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
sysctl -w vm.swappiness=0
sysctl -w kernel.numa_balancing=0
sysctl kernel.sched_migration_cost_ns=50000
export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOAD
export TASK_QUEUE_ENABLE=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_BALANCE_SCHEDULING=1
export VLLM_ASCEND_ENABLE_NZ

vllm serve /mnt/share/weight/MiniMax-M2.5-w8a8-QuaRot \
    --served-model-name "minimax" \
    --host 0.0.0.0 \
    --port 8004 \
    --tensor-parallel-size 8 \
    --data-parallel-size 1 \
    --enable-expert-parallel \
    --no-enable-prefix-caching \
    --async-scheduling \
    --max-num-seqs 32 \
    --max-model-len 196608 \
    --max-num-batched-tokens 16384 \
    --gpu-memory-utilization 0.85 \
    --trust-remote-code \
    --quantization ascend \
    --no-enable-prefix-caching \
    --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' \
    --additional-config '{"enable_cpu_binding":true}' \
    --speculative_config '{"method": "eagle3", "model": "/mnt/share/weight/MiniMax-M2-Eagle3-1/", "num_speculative_tokens": 3}'

典型测试用例

平均输入	平均输出	并行策略	上下文长度	总请求数	最大并发数
2048	2048	MLA：DP1+TP8	196608	512	128
2048	2048	MLA：DP1+TP8	196608	100	25
3500	1500	MLA：DP1+TP8	196608	512	128
3500	1500	MLA：DP1+TP8	196608	100	26
16384	1024	MLA：DP1+TP8	196608	120	30
16384	1024	MLA：DP1+TP8	196608	16	4
32768	512	MLA：DP1+TP8	196608	36	9
32768	512	MLA：DP1+TP8	196608	4	1

测试命令

参考aisbench官方测试指南。

aisbench测试命令

vllm-ascend社区官网

特别声明

以上配置均未开启Prefix Cache，若实际生产环境需要使用该特性，参考vLLM-Ascend社区参数指南开启–enable-prefix-caching
eagle 权重下载路径：https://www.modelscope.cn/models/Eco-Tech/MiniMax-M2.7-eagle-model-short

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

从开发者到企业量产：香橙派四款昇腾产品解决什么问题？

20T版本支持40路1080P@30FPS硬件解码，在多路摄像头场景中，这颗芯片可以独立完成“解码→AI推理→编码输出”的全链路任务，无需外挂其他芯片。通过SODIMM接口引出了PCIe X4、USB3.0×3、MIPI CSI 4-Lane×2、HDMI等全功能高速信号，工业设备、机器人、边缘计算盒子的开发者可以灵活设计自己的底板。，但做成了一块可以嵌入产品主板的模块。硬件产品开发有一个经典困境

鲲鹏昇腾开发者社区

ay 0 部署：昇腾 910B DeepSeek-V4 部署指南与压测表现

GPUStack 支持可插拔的推理引擎架构，允许自定义推理后端及其版本，用于引入 GPUStack 未内置的 vLLM / SGLang / MindIE 版本，或接入其他自定义推理引擎镜像。为了部署模型，需要添加 vLLM Ascend 最新发布的v0.13.0rc3版本。vLLM在推理后端菜单，编辑 vLLM，在版本配置中选择添加版本配置值版本0.13.0rc3镜像名称框架CANN覆盖镜像入口

鲲鹏昇腾开发者社区

信创IM安全合规架构的三个闭环

随着信创替代进入深水区，政企单位在即时通讯系统上的选型逻辑正在发生根本性转变。过去判断一款IM是否好用，标准通常集中在消息延迟、文件传输速度和群组管理能力上，但现在，当系统需要运行在飞腾、鲲鹏、龙芯等国产芯片上，部署在统信UOS、麒麟等国产操作系统上，连接达梦、人大金仓等国产数据库时，技术的复杂性已经远远超出了功能层面的考量。很多信息化负责人开始意识到，信创环境下的即时通讯，首先要解决的不是协同效