Qwen3.5 系列重磅升级：昇腾适配支持三款中型新模型，已上线 AtomGit AI

采用 MoE（混合专家）架构，总参数规模达 122B，但在推理阶段仅激活约 10B 参数，在效率与能力之间取得了精妙平衡。基于混合注意力机制与高稀疏 MoE 架构创新，新模型在更小总参数和激活参数规模下实现性能跃升，多项权威榜单表现显著优于 GPT-5 mini，甚至超越上代旗舰 Qwen3-235B-A22B 与 Qwen3-VL。在当下大模型竞争逐渐从“拼规模”走向“拼效率”的阶段，Qwen3

AtomGit

1847人浏览 · 2026-02-27 10:41:43

AtomGit · 2026-02-27 10:41:43 发布

继除夕开源 Qwen3.5-397B-A17B 之后，通义千问（Qwen）团队再度扩容其开源大模型家族。此次正式开源三款中型模型：

Qwen3.5-35B-A3B：http:// https://ai.atomgit.com/hf_mirrors/Qwen/Qwen3.5-35B-A3B
Qwen3.5-122B-A10B：https://ai.atomgit.com/hf_mirrors/Qwen/Qwen3.5-122B-A10B
Qwen3.5-27B： https://ai.atomgit.com/hf_mirrors/Qwen/Qwen3.5-27B

本轮升级不仅是参数规模的扩展，更是架构与训练路径上的系统性突破。基于混合注意力机制与高稀疏 MoE 架构创新，新模型在更小总参数和激活参数规模下实现性能跃升，多项权威榜单表现显著优于 GPT-5 mini，甚至超越上代旗舰 Qwen3-235B-A22B 与 Qwen3-VL。目前昇腾已适配支持该系列三款新模型，相关模型与权重已同步上线 AtomGit AI。

模型介绍

在当下大模型竞争逐渐从“拼规模”走向“拼效率”的阶段，Qwen3.5 中型系列展示了一条更具可持续性的技术路径——通过架构创新与训练协同，在更小激活参数规模下，实现性能跃升。值得注意的是，Qwen3.5 新模型甚至可直接部署于消费级显卡，对开发者极为友好。

Qwen3.5-122B-A10B：为复杂 Agent 场景而生

✅ 特征总结：大规模全能模型，小算力折中最强

该模型在复杂 Agent 任务（如多步推理、工具调用）中表现亮眼，进一步缩小了中小模型与顶尖闭源模型的性能差距。采用 MoE（混合专家）架构，总参数规模达 122B，但在推理阶段仅激活约 10B 参数，在效率与能力之间取得了精妙平衡。这种设计使模型在长上下文理解、多步推理、复杂工具调用等 Agent 场景中表现尤为突出。对于需要处理大规模文档分析、跨任务规划与链式决策的应用场景而言，这款模型提供了更具性价比的开源选择。

Qwen3.5-35B-A3B：高性能密度的代表作

✅ 特征总结：高性能、高效率、低算力门槛，是中型模型中最具爆发力的版本。

性能已全面超越前代更大参数规模的 Qwen3-235B-A22B 等模型，体现了通过优化架构、数据与强化学习协同，而非单纯增加参数来提升智能的技术路径。35B-A3B 特别适合需要兼顾推理质量与算力成本的开发团队。对于中型企业或希望进行本地部署的开发者来说，它在性能与资源占用之间提供了一个极具吸引力的平衡点。

Qwen3.5-27B：稳定可靠的 Dense 架构选择

✅ 特征总结：参数更少、部署更轻量，兼具多模态与推理能力，适合本地部署与细分场景应用。

相比前两款采用 MoE 结构的模型，Qwen3.5-27B 采用更传统的 Dense 架构。所有参数在推理过程中都会参与计算，因此结构更为直接，也更便于微调与稳定部署。在实际应用中，这类模型往往更适合快速迭代与领域定制。对显存要求相对友好，可以部署在消费级显卡环境中运行。

接下来，我们将以 Qwen3.5-122B-A10B 为例，详细拆解昇腾环境下的部署流程与推理优化等关键步骤。其他 Qwen3.5 模型的部署指南，可前往 AtomGit AI 平台，在 vLLM_Ascend 组织主页获取完整说明。

Qwen3.5-122B-A10B 昇腾部署指南

一、环境准备

01｜模型权重

Qwen3.5-122B-A10B（BF16 版本）：https://ai.atomgit.com/hf_mirrors/Qwen/Qwen3.5-122B-A10B

注：建议将模型权重下载至多节点共享目录，例如 /root/.cache/。

02｜安装

1）官方 Docker 镜像

您可以通过镜像链接下载镜像压缩包来进行部署，具体流程如下：

# 使用docker加载下载的镜像压缩包
# 根据您的环境更新要加载的vllm-ascend镜像压缩包名称,以下以A3 arm为例：
docker load -i Vllm-ascend-Qwen3_5-A3-Ubuntu-v0.tar 
# 根据您的设备更新 --device（Atlas A3：/dev/davinci[0-15]）。
# 注意：您需要提前将权重下载至 /root/.cache。
# 更新 vllm-ascend 镜像，并配置对应的Image名
export IMAGE=vllm-ascend:qwen3_5-v0-a3 
export NAME=vllm-ascend
# 使用定义的变量运行容器
# 注意：若使用 Docker 桥接网络，请提前开放可供多节点通信的端口
docker run --rm \
--name $NAME \
--net=host \
--shm-size=100g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-it $IMAGE bash

2）源码构建

如果您不希望使用上述 Docker 镜像，也可通过源码完整构建：

保证你的环境成功安装了 CANN 8.5.0
从源码安装 vllm-ascend ，请参考 安装指南。

# 升级 vllm
git clone https://github.com/vllm-project/vllm.git
cd vllm
git checkout a75a5b54c7f76bc2e15d3025d6
git fetch origin pull/34521/head:pr-34521
git merge pr-34521
VLLM_TARGET_DEVICE=empty pip install -v .
# 升级 vllm-ascend
pip uninstall vllm-ascend -y
git clone https://github.com/vllm-project/vllm-ascend.git
cd vllm-ascend
git checkout c63b7a11888e9e1caeeff8
git fetch origin pull/6742/head:pr-6742
git merge pr-6742
pip install -v .
# 重新安装 transformers
git clone https://github.com/huggingface/transformers.git
cd transformers
git reset --hard fc9137225880a9d03f130634c20f9dbe36a7b8bf
pip install .

如需部署多节点环境，您需要在每个节点上分别完成环境配置。

03｜部署

1）单节点部署

A3 系列

执行以下脚本进行在线推理。

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_BUFFSIZE=1024
export OMP_NUM_THREADS=1
export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOAD
export TASK_QUEUE_ENABLE=1
vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/Qwen3.5-122B-A10B/ \
    --served-model-name "qwen3.5" \
    --host 0.0.0.0 \
    --port 8010 \
    --data-parallel-size 1 \
    --tensor-parallel-size 8 \
    --max-model-len 5000 \
    --max-num-batched-tokens 16384 \
    --max-num-seqs 128 \
    --gpu-memory-utilization 0.94 \
    --trust-remote-code \
    --async-scheduling \
    --allowed-local-media-path / \
    --mm-processor-cache-gb 0 \
	--enforce-eager \
    --additional-config '{"enable_cpu_binding":true, "multistream_overlap_shared_expert": true}'

执行以下脚本向模型发送一条请求：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
        "prompt": "The future of AI is",
        "path": "/path/to/model/Qwen3.5-122B-A10B/",
        "max_tokens": 100,
        "temperature": 0
        }'

执行结束后，您可以看到模型回答如下：

Prompt: 'The future of AI is', Generated text: ' not just about building smarter machines, but about creating systems that can collaborate with humans in meaningful, ethical, and sustainable ways. As AI continues to evolve, it will increasingly shape how we live, work, and interact — and the decisions we make today will determine whether this future is one of shared prosperity or deepening inequality.\n\nThe rise of generative AI, for example, has already begun to transform creative industries, education, and scientific research. Tools like ChatGPT, Midjourney, and'

也可执行以下脚本向模型发送一条多模态请求：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
    -d '{
        "model": "qwen3.5",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": [
                {"type": "image_url", "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/qwen.png"}},
                {"type": "text", "text": "What is the text in the illustrate?"}
            ]}
        ]
    }'

执行结束后，您可以看到模型回答如下：

{"id":"chatcmpl-9dab99d55addd8c0","object":"chat.completion","created":1771060145,"model":"qwen3.5","choices":[{"index":0,"message":{"role":"assistant","content":"TONGYI Qwen","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":null},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":112,"total_tokens":119,"completion_tokens":7,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}

温馨提示

当前为尝鲜版本，我们还在持续优化性能，给大家带来更好的体验。

本代码仓中提到的数据集和模型仅作示例使用，仅供非商业用途学习与参考。如果您基于示例使用这些数据集和模型，请注意遵守对应的开源协议（License），避免产生相关纠纷。

如果您在使用过程中遇到任何问题（包括功能、合规等），欢迎在代码仓提交 Issue，我们会及时查看并回复～

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

昇腾MindSpore实战经验分享：从入门到工业级部署的全方位指南

本文介绍了昇腾MindSpore框架的核心优势与开发实践。作为华为全栈AI解决方案的关键组件，MindSpore具备全场景协同、性能优异和生态完善等特点。文章详细讲解了环境配置、核心特性（如动态/静态图模式、混合精度训练）、性能优化技巧（数据流水线、分布式训练）以及模型迁移经验。特别强调了在昇腾硬件上的最佳实践，包括算子开发、社区资源利用和性能监控方法。随着昇腾NPU算力持续提升，MindSpor