DeepSeek V4 部署实战：从H800到昇腾910B

生态成熟，性能稳定，但硬件成本高，且受供应链限制昇腾910B + GPUStack：硬件成本低，国产化，但软件栈还在快速迭代中如果现在就要上线，H800方案更稳妥。如果有国产化要求或者预算紧张，昇腾方案已经可以跑通，31 tokens/s的单请求速度也够用。下一篇是本系列收官：DeepSeek vs Qwen3 vs GLM-5，2026年年中选型指南。

零壹AI实验室

211人浏览 · 2026-05-14 11:35:07

零壹AI实验室 · 2026-05-14 11:35:07 发布

DeepSeek V4 部署实战：从H800到昇腾910B

1.6T参数、49B激活，V4的模型尺寸比V3大了一倍多。怎么把这张"怪兽"跑起来，而且推理成本压到最低？本文拆解H800和昇腾910B两种部署方案，给出实测数据和成本对比。

一、先算账：跑V4到底要多少钱

在聊技术细节之前，先算一笔账——这是大多数团队最关心的问题。

1.1 H800部署（英伟达路线）

配置项	数值	说明
模型尺寸	1.6T总参数，49B激活	MoE架构，每次只激活部分专家
显存需求（FP16）	约320GB（全精度）	单卡放不下，必须多卡并行
推荐配置	8×H800 80GB	TP=8，专家并行
量化后显存（W8A8）	约160GB	8卡可放下，有余量
单卡成本（市价）	2.5-3万美元	禁运前价格，现在更高
8卡服务器成本	约25-30万美元	不含IDC

1.2 昇腾910B部署（华为路线）

配置项	数值	说明
推荐配置	8×昇腾910B2 64GB	参考GPUStack实测方案
显存需求（W8A8）	约160GB	同上
单卡算力（BF16）	约320 TFLOPS	H800约1979 TFLOPS，差距仍在
8卡服务器成本	约150-200万人民币	比H800方案便宜约30-40%
软件栈	MindSpore + CANN	需适配，生态不如PyTorch成熟

1.3 推理成本对比（每1M tokens）

方案	硬件摊销（3年）	电费	合计/1M tokens
H800×8（自建）	约0.8元	约0.15元	~0.95元
昇腾910B×8（自建）	约0.5元	约0.12元	~0.62元
API调用（官方）	—	—	约2-5元（参考DeepSeek官方API定价）

注：以上为粗略估算，实际成本受吞吐量、并发数、IDC租金等影响。

二、H800部署方案：vLLM + TP=8

2.1 基础环境

# 验证GPU状态
nvidia-smi

# 推荐配置
# 8×H800 80GB
# CUDA 12.4+
# vLLM 0.6.8+（支持V4的MoE并行）

2.2 部署命令（vLLM）

vllm serve DeepSeek-V4 \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 1 \
  --enable-expert-parallel \
  --quantization awq \          # 或 w8a8
  --max-model-len 65536 \
  --gpu-memory-utilization 0.95 \
  --dtype bfloat16

关键参数解释：

--enable-expert-parallel：MoE专家并行，8卡各自持有不同专家
--quantization awq：4bit量化，显存占用减少约70%
--max-model-len 65536：V4支持256K，但推理时设64K已够绝大多数场景

2.3 预期性能（H800×8，W8A8量化）

指标	数值	说明
单请求吞吐量	约25-35 tokens/s	取决于序列长度
并发（10请求）	约150-200 tokens/s total	受益于MoE稀疏激活
首token延迟（TTFT）	约200-400ms	长上下文会更高
每请求显存占用	约6-10GB	取决于KVCache大小

三、昇腾910B部署方案：GPUStack + vLLM-Ascend

这是2026年4月刚出的实测方案，有人踩过坑了。

3.1 环境准备

# 验证NPU状态（类似nvidia-smi）
npu-smi info

# 要求：驱动版本 ≥ 25.5
# Ascend Docker Runtime v7.3.1

# 启动GPUStack（控制面）
sudo docker run -d --name gpustack \
  --restart unless-stopped \
  -p 80:80 \
  --volume gpustack-data:/var/lib/gpustack \
  swr.cn-south-1.myhuaweicloud.com/gpustack/gpustack:v2.1.2 \
  --debug --bootstrap-password GPUStack@123

3.2 添加vLLM-Ascend推理后端

GPUStack支持自定义推理引擎，需要手动添加vLLM-Ascend 0.13.0rc3版本：

配置项	值
版本号	0.13.0rc3
镜像	`quay.io/ascend/vllm-ascend:v0.13.0rc3`
框架	CANN
入口命令	`vllm serve`
执行命令模板	`{{model_path}} --host {{worker_ip}} --port {{port}} --served-model-name {{model_name}}`

3.3 模型文件准备

方案A（联网）： GPUStack控制台 → 部署 → ModelScope，搜索 Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp，直接拉取。

方案B（离线）： 提前下载权重到所有Worker节点，控制台 → 模型文件 → 添加本地路径。

3.4 部署配置（实测可用）

# 后端参数（填写到GPUStack控制台）
--gpu-memory-utilization 0.9
--max-model-len 65536
--max-num-batched-tokens 8192
--max-num-seqs 16
--data-parallel-size 1
--tensor-parallel-size 8
--enable-expert-parallel
--quantization ascend
--block-size 128
--async-scheduling
--chat-template /var/lib/gpustack/cache/.../chat_template.jinja
--additional-config '{"enable_cpu_binding": "true", "multistream_overlap_shared_expert": true}'
--speculative-config '{"num_speculative_tokens": 1, "method": "deepseek_mtp"}'

环境变量（必须配置）：

USE_MULTI_BLOCK_POOL=1
OMP_PROC_BIND=false
OMP_NUM_THREADS=10
PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
ACL_OP_INIT_MODE=1
TRITON_ALL_BLOCKS_PARALLEL=1

3.5 实测性能（昇腾910B2×8）

指标	数值	说明
单请求吞吐量	31 tokens/s	GPUStack初始适配结果，后续有优化空间
量化方案	W8A8	显存占用约160GB（8卡分摊）
并行策略	TP=8 + 专家并行	与H800方案类似

注意：31 tokens/s是初始结果，vLLM-Ascend还在快速迭代，后续版本可能有显著提升。

四、两种方案的选择建议

场景	推荐方案	理由
已有H800集群	H800 + vLLM	生态成熟，问题好排查
新建集群，预算敏感	昇腾910B + GPUStack	硬件成本低30-40%
需要256K长上下文	H800（目前）	昇腾方案的长上下文适配还在完善
对稳定性要求极高	H800 + vLLM	软件生态更成熟
信创/国产化要求	昇腾910B	唯一选择