华为Atlas 300I Duo部署Qwen3-VL-8B多模态大模型

本文分享了在鲲鹏920（ARM架构）和Atlas 300I Duo NPU硬件上部署vLLM框架的经验。作者指出该硬件组合目前仍处于实验性支持阶段，性能表现不佳。文章详细介绍了软硬件配置要求（推荐使用v0.18.0rc1-310p镜像和Qwen3-VL-8B-Instruct模型），并提供了容器部署和启动的具体命令。性能测试显示，即使在最优条件下（小尺寸图片+短输出），P95延迟仍高达4.2秒。作

dyclg

558人浏览 · 2026-04-12 00:21:44

dyclg · 2026-04-12 00:21:44 发布

1. 说明

先大概说一下我部署的机器硬件：

CPU 鲲鹏920（ARM架构）
NPU 310P3（Atlas 300I Duo）

大家可以对号入座，看硬件条件是不是一致的。想使用该硬件部署vllm的朋友们，截止目前我还是不太推荐的，因为官方明确说明对该设备还处于实验性支持阶段，也就是说稳定性、性能等方面可能还存在一定的缺陷… 不过想尝试一下也没问题，一通百通😀

官方说明：https://docs.vllm.ai/projects/ascend/zh-cn/latest/index.html

2. 前期准备

硬件

硬件	内容	查询命令	截图
CPU	Kunpeng-920 或 ARM架构的CPU均可	lscpu
NPU	310P3（Atlas 300I Duo）	npu-smi info，查看具体类型： npu-smi info -t product -i {NPU ID}

软件

软件	版本	查询命令
显卡驱动	25.5.2	npu-smi info
固件版本	7.8.0.7.220	npu-smi info -t board -i {NPU-ID}
vllm镜像版本	v0.18.0rc1-310p	–
多模态大模型	Qwen3-VL-8B-Instruct	–

注意：软件版本尽量和我保持一致，这是官方推荐的。使用旧的显卡驱动（如24.x，部署可能会遇到一堆问题），而且性能可能会很差，之前尝试使用过24.x显卡驱动+0.11.0版本vllm部署Qwen3-VL，踩了很多坑，虽然部署起来了，但是会遇到很多问题，比如：推理大图崩溃、推理耗时极长等（如果真想尝试，可以参考：https://github.com/vllm-project/vllm-ascend/issues/3860）。为了节省大家的时间，我这里整理了我使用的软件版本，大家可以自行下载：

软件	下载方法
显卡驱动及固件（商业版）	网盘分享：https://pan.baidu.com/s/1Ff4cDolPhUWm0LZKxbBp-Q 提取码: qyjj
显卡驱动及固件（社区版）	华为升腾固件与驱动下载，我使用的商业版，社区版应该区别不大
vllm镜像	镜像源地址，里边包含所有可用版本，或者直接 docker pull quay.io/ascend/vllm-ascend:v0.18.0rc1-310p
多模态大模型	huggingface下载地址 / modelscope下载地址

3. 部署

环境配置好以后，部署其实就很简单了，大家可以参考官方文档进行（vllm-ascend 文档）。主要分为以下几个步骤：

3.1 创建并启动容器

# vllm-ascend是我叫的容器名字，可以自行修改
# 我这边有8张卡，所以device全都映射了，可以自行修改
# 如果需要映射宿主机路径，自行添加 -v 进行映射
docker run -it --name vllm-ascend \
--shm-size=1g \
--privileged \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-p 8000:8000 \
-it quay.io/ascend/vllm-ascend:v0.18.0rc1-310p
bash

3.2 启动vllm

# Set `max_split_size_mb` to reduce memory fragmentation and avoid out of memory
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256

# 启动命令
vllm serve <你的实际路径>/Qwen3-VL-8B-Instruct/ --served-model-name Qwen3-VL-8B-Instruct --gpu-memory-utilization 0.75 --max-model-len 8192 --tensor-parallel-size 2 --enforce-eager --dtype float16

3.3 简单测试

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d "{\"model\":\"Qwen3-VL-8B-Instruct\",\"messages\":[{\"role\":\"user\",\"content\":[{\"type\":\"image_url\",\"image_url\":{\"url\":\"http://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg\"}},{\"type\":\"text\",\"text\":\"请描述一下图片\"}]}],\"max_tokens\":256}"

一般来说，到这就没问题了，如果有问题，可以留言，或者去 issues 里边找找有没有同类问题的解决方案。

到此，部署就正式完成了🎉🎉🎉，如果测试过的小伙伴，应该就明白为什么我不推荐在该设备上部署vllm了，因为推理速度太慢了，简直不忍直视啊。官方回复：目前仅支持eager模式，不支持图推理模式。后续是我做的一些简单测试，感兴趣的小伙伴可以看看。
在这里插入图片描述

4. 性能测试

1. 测试维度

prompt：描述一下图片
图片尺寸：1920x1080、1280x720、640x480
输出长度：max_tokens=256、64、32
并发：1、8、16、32、64
每组请求数：64
统计指标
- avg latency：平均延迟（所有请求耗时加起来 ÷ 请求总数）
- p95 latency：95分位延迟（把所有请求耗时从小到大排序，取第95%位置的值）
- RPS：Requests Per Second（每秒能处理多少个请求）
- total tokens/s：每秒模型总共处理多少token
- prompt tokens：提示词token数（输入给模型的token数量）
- completion tokens：模型输出回答的长度