8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G

长文本 Agent 性能综合对比测试报告

基础测试说明

  1. 测试模型:qwen3.6-27b-w8a8(W8A8 量化-华为910B4

qwen3.6-27b-awq(AWQ量化-英伟达4090)

  1. 统一输入上下文:12000 Token 超长 Agent 调度上下文(工具链 + 多轮对话历史)
  2. 两套输出负载标准:

负载 1:max_tokens=1024(对齐 4090 原始测试,公平横向对比)

负载 2:max_tokens=2048(重型超长文本 Agent 严苛负载)

  1. 单机部署架构:4 组 vLLM 推理实例(8000/8001/8002/8003)+ Nginx 负载均衡

API 鉴权统一:sk-qwen-27b-w8a8-2026

并发测试档位统一:8/16/32/64/128/256/512/768/1024/2048

  1. 业务测算基准:

重型长文本 Agent 单次推理消耗 25 tokens/s;线上用户间歇交互,推理活跃占比 10%(90% 在线空闲)

测试日期:2026.06.13

一、硬件基础规格对照表

表格

机型标识

硬件配置

单卡显存

整机总显存

算力属性

A

8×RTX4090

24GB GDDR6X

192GB

通用 CUDA 商业算力

B

8× 昇腾 910B4 32G

32GB HBM

256GB

国产信创昇腾算力

C

8× 昇腾 910B4 64G

64GB HBM

512GB

国产信创昇腾算力

  • 单 Agent 流式延迟测试

(5 轮实测,分 1024/2048 两套负载)

2.1 机型 A:8×RTX4090(仅 1024Token 负载)

  • TTFT 均值:152.81ms
  • TPOT 均值:74.96ms
  • 单会话平均吞吐:13.31 tokens/s
  • 特征:无冷热启动区分,首次响应速度最优

2.2 机型 B:8× 昇腾 910B4-32G

负载 1:max_tokens=1024(本次全新实测)

表格

轮次

生成 tokens

ttft_ms

tpot_ms

单路吞吐 (t/s)

1

1024

1225.38

86.79

11.36

2

1024

1255.83

87.24

11.30

3

1024

1245.89

86.13

11.45

4

1024

1225.61

85.51

11.53

5

1024

657.09

86.56

11.47

汇总:

冷启动 TTFT 均值 (前 4 轮):1238.18ms 

热启动 TTFT:657.09ms 

TPOT 均值:86.45ms 

单会话平均吞吐:11.42 tokens/s

负载 2:max_tokens=2048

5 轮原始指标: 

1 轮:tokens=2048, ttft=4161.12ms, tpot=87.10ms, tp=11.22 

2 轮:tokens=2048, ttft=4159.15ms, tpot=86.32ms, tp=11.32 

3 轮:tokens=2048, ttft=1250.59ms, tpot=86.46ms, tp=11.48 

4 轮:tokens=2048, ttft=630.91ms, tpot=86.94ms, tp=11.46 

5 轮:tokens=2048, ttft=620.56ms, tpot=86.99ms, tp=11.46 

汇总:

冷启动 TTFT 均值 (前 2 轮):4160.14ms 

热启动 TTFT 均值 (后 3 轮):834.02ms 

TPOT 均值:86.76ms 

单会话平均吞吐:11.39 tokens/s

2.3 机型 C:8× 昇腾 910B4-64G

负载 1:max_tokens=1024

冷启动 TTFT 预估:≈900ms 

热启动 TTFT:253.84ms 

TPOT 均值:78.49ms 单会话平均吞吐:12.66 tokens/s

负载 2:max_tokens=2048

冷启动 TTFT 均值:1382ms 
热启动 TTFT 均值:253.84ms 

TPOT 均值:78.49ms 

单会话平均吞吐:12.66 tokens/s

2.4 单会话指标横向总表(双负载合并)

表格

性能指标

A:8×RTX4090(1024Token)

B:8×910B4 32G1024 / 2048

C:8×910B4 64G1024 / 2048

整机显存

192GB GDDR6X

256GB HBM

512GB HBM

冷启动 TTFT 均值

152.81ms

1238.18ms / 4160.14ms

≈900ms / 1382ms

热启动 TTFT

152.81ms

657.09ms / 834.02ms

253.84ms / 253.84ms

TPOT 单 Token 间隔

74.96ms

86.45ms / 86.76ms

78.49ms / 78.49ms

单会话空载吞吐

13.31 t/s

11.42 t/s / 11.39 t/s

12.66 t/s / 12.66 t/s

2.5 单会话交互体验结论

  1. 输出长度对昇腾机型冷启动延迟影响极大:

2048 超长输出下 32G 机型冷启动突破 4 秒,初次交互卡顿严重;64G 机型冷启动涨幅可控,热启动不受输出长度影响。

  1. TPOT 解码速度仅由 NPU 算力决定,和单次输出 token 数量无关,同一款机型 1024/2048 负载 TPOT 几乎无变化。
  2. 吞吐差距来源:4090 解码速度最优;64G 昇腾次之;32G 昇腾受显存调度开销拖累吞吐最低。

三、集群并发吞吐压测结果(两套负载完整数据)

3.1 机型 A:4×RTX4090(1024Token 负载)

表格

并发档位

集群吞吐 (tokens/s)

运行状态

8

100.56

低并发线性爬坡

16

195.40

算力持续拉升

32

359.70

线性增长区间

64

621.39

线性增长区间

128

1194.38

持续上涨

256

2264.69

整机性能峰值,显存临界满载

>256

吞吐断崖下跌,出现任务失败

KV Cache 内存溢出故障区间

核心参数:

峰值吞吐 2264.69 tokens/s,安全稳定并发上限 256。

3.2 机型 B:8× 昇腾 910B4 32G

负载 1:max_tokens=1024

表格

并发档位

集群吞吐 (tokens/s)

运行状态

8

85.96

低并发线性爬坡

16

165.95

算力稳步拉升

32

310.62

线性增长区间

64

596.23

线性增长区间

128

896.90

增速放缓

256

1099.18

持续上行

512

1131.48

整机性能峰值

768 / 1024

吞吐小幅回落,无报错

整机显存容量受限

峰值吞吐:1131.48 tokens/s,峰值并发 512,

全档位 100% 成功率。

负载 2:max_tokens=2048

表格

并发档位

集群吞吐 (tokens/s)

运行状态

8

86.08

低并发爬坡

16

165.70

稳步拉升

32

318.75

线性增长

64

549.37

线性增长

128

864.30

增速放缓

256

1013.80

持续上行

512

1080.49

整机峰值

768 / 1024

小幅衰减

显存压力上升

峰值吞吐:1080.49 tokens/s,峰值并发 512。

3.3 机型 C:8× 昇腾 910B4 64G

负载 1:max_tokens=1024

表格

并发档位

集群吞吐 (tokens/s)

运行状态

8

99.39

低并发线性爬坡

16

192.07

算力稳步拉升

32

355.51

线性增长区间

64

667.61

线性增长区间

128

1046.86

持续上行

256

1987.78

接近算力饱和

512

1985.33

高位平稳运行

768

2042.12

整机性能峰值

1024

1896.46

极轻微衰减,显存余量充足

峰值吞吐:2042.12 tokens/s,峰值并发 768。

负载 2:max_tokens=2048(前期实测)

表格

并发档位

集群吞吐 (tokens/s)

运行状态

8

101.08

低并发爬坡

16

192.90

稳步拉升

32

347.59

线性增长

64

572.28

线性增长

128

832.79

增速放缓

256

950.16

持续上行

512

988.02

整机峰值

768 / 1024

轻微衰减

显存余量充足

峰值吞吐:988.02 tokens/s,峰值并发 512。

3.4 整机吞吐与单机承载汇总(分两套负载)

负载 1:统一输出 1024 Token(业务交互标准负载)

表格

机型

整机峰值吞吐(t/s)

峰值稳定并发

单机瞬时推理任务上限

间歇在线 Agent 承载 (10% 活跃)

A:4×RTX4090

2264.69

256

90

900

B:8×910B4 32G

1131.48

512

45

450

C:8×910B4 64G

2042.12

768

82

820

负载 2:统一输出 2048 Token(重型超长文本严苛负载)

表格

机型

整机峰值吞吐(t/s)

峰值稳定并发

单机瞬时推理任务上限

间歇在线 Agent 承载 (10% 活跃)

A:4×RTX4090

1132.35(理论折半)

256

45

450

B:8×910B4 32G

1080.49

512

43

430

C:8×910B4 64G

988.02

512

40

400

四、混合集群整体承载能力测算

集群硬件组合

5 台 84×RTX4090 + 1 台 8× 昇腾 910B4-32G + 4 台 8× 昇腾 910B4-64G

4.1 标准交互负载(1024Token)

  1. 集群全局瞬时并行推理总上限 5×90 + 1×45 + 4×82 = 823 条同时运行推理任务
  2. 业务承载规模
  • 日常平稳交互:823 ÷ 0.1 = 8230 名在线 Agent 客户端 推荐安全运营上限:7000 人
  • 极端批量突刺同步推理:极限承载 823 人

4.2 重型超长文本负载(2048Token)

  1. 集群全局瞬时并行推理总上限 5×45 + 1×43 + 4×40 = 225 + 43 + 160 = 428 条
  2. 业务承载规模
  • 日常平稳重型 Agent 在线:428 ÷ 0.1 = 4280 人
  • 全量同步批量推理极限:428 人

五、三类机型优劣势完整对比

A:8×RTX4090

优势

  1. 冷热启动延迟统一极低,交互式对话用户体验最优;
  2. CUDA 与 vLLM 原生深度适配,同等 1024Token 负载下单机峰值吞吐最高;
  3. CUDA 生态工具完善,监控、调试、运维配套工具丰富,技术落地门槛低。

劣势

  1. 整机显存容量小,256 并发为硬性安全红线,超过负载后吞吐直接断崖下跌;
  2. 2048 超长输出负载下显存瓶颈放大,承载能力直接减半;
  3. 不属于国产自主算力,不满足信创项目准入要求。

B:8× 昇腾 910B4 32G

优势

  1. 国产自主算力硬件,符合信创项目合规准入标准;
  2. 整机显存容量远高于 RTX4090,安全并发上限提升至 512,无断崖式性能崩盘风险;
  3. 两套输出负载下吞吐衰减幅度平缓,中等批量场景稳定性优于 4090;
  4. 单机算力密度高,可承接中等规模批量推理任务,适合作为集群补充算力节点。

劣势

  1. 单卡显存偏小,2048 超长上下文全新会话冷启动延迟突破 4 秒,初次交互卡顿极其明显;
  2. Token 单步解码速度弱于另外两款机型,两套负载下单会话空载吞吐均最低;
  3. 768、1024 超高并发下显存资源不足,集群吞吐出现明显回落;
  4. vLLM-Ascend 适配存在专项调优成本,运维学习门槛高于 CUDA 架构。

C:8× 昇腾 910B4 64G

优势

  1. 整机超大容量 HBM 显存,两套输出负载下高并发显存余量充足,1024 并发仅轻微性能衰减;
  2. 热启动延迟不受输出长度影响,多轮连续对话交互流畅;
  3. 可长期驻留海量超长上下文 KV Cache,适配 7×24 小时不间断批量推理业务;
  4. 国产自主算力底座,满足信创项目合规要求,是大批量推理业务核心算力节点。

劣势

  1. 全新 2048Token 超长上下文冷启动延迟仍显著高于 RTX4090,纯前台实时交互体验存在差距;
  2. vLLM-Ascend 推理框架适配需要专项技术培训,运维存在学习成本。

六、分业务场景硬件选型方案

场景 1:纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求

优先选用:8×RTX4090 服务器 

管控策略:单机 Nginx 限流 256 并发,单台服务器在线 Agent 不超过 900 个。

场景 2:信创项目、中等批量业务,输出存在 1024/2048 混合长度

优先选用:8× 昇腾 910B4 32G 机型 

优化策略:业务侧尽量统一输出 1024Token 释放算力;网关层单机限流 512 并发。

场景 3:千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座

优先选用:8× 昇腾 910B4 64G 服务器 

核心价值:超大显存兼顾长短输出负载,高并发稳定无明显衰减,作为混合集群兜底算力。

混合集群流量调度分配(5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾)

  1. 5 台 8×RTX4090:专供前台 1024 短输出实时交互客户,保障低延迟体验;
  2. 4 台 8× 昇腾 910B4 64G:集群核心算力,承接 2048 超长文本批量推理、定时离线任务;
  3. 1 台 8× 昇腾 910B4 32G:弹性补充算力,承接研发测试、临时中等批量任务。

七、综合测试总结

  1. 交互延迟维度:RTX4090 全程最优;64G 昇腾长短输出冷热启动均衡;32G 昇腾在 2048 超长全新会话下卡顿严重,不适合强实时对话场景。
  2. 吞吐负载影响:单次输出 token 数量翻倍,所有机型整机峰值吞吐接近减半;显存越小的机型,吞吐衰减与延迟涨幅越剧烈。
  3. 高并发稳定性维度:8×910B4 64G > 8×910B4 32G > 8×RTX4090;RTX4090 显存上限低,超长文本批量场景极易触发性能崩盘。
  4. 国产化合规维度:两款昇腾机型满足信创准入,RTX4090 无法用于政务、央企、国企信创项目。
  5. 集群承载结论:
    • 常规 1024Token 交互业务:整套集群稳定承载 8230 名在线 Agent;
    • 重型 2048 超长文本业务:整套集群稳定承载 4280 名在线 Agent;
  6. 落地选型建议:混合集群搭配可兼顾实时交互体验、国产化合规、长短文本批量算力兜底,适配政企私有化 Agent 全场景交付。

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐