Agent 后台 - Token工场-集群设备配置建议
8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G
长文本 Agent 性能综合对比测试报告
基础测试说明
- 测试模型:qwen3.6-27b-w8a8(W8A8 量化-华为910B4)
qwen3.6-27b-awq(AWQ量化-英伟达4090)
- 统一输入上下文:12000 Token 超长 Agent 调度上下文(工具链 + 多轮对话历史)
- 两套输出负载标准:
负载 1:max_tokens=1024(对齐 4090 原始测试,公平横向对比)
负载 2:max_tokens=2048(重型超长文本 Agent 严苛负载)
- 单机部署架构:4 组 vLLM 推理实例(8000/8001/8002/8003)+ Nginx 负载均衡
API 鉴权统一:sk-qwen-27b-w8a8-2026
并发测试档位统一:8/16/32/64/128/256/512/768/1024/2048
- 业务测算基准:
重型长文本 Agent 单次推理消耗 25 tokens/s;线上用户间歇交互,推理活跃占比 10%(90% 在线空闲)
测试日期:2026.06.13
一、硬件基础规格对照表
表格
|
机型标识 |
硬件配置 |
单卡显存 |
整机总显存 |
算力属性 |
|
A |
8×RTX4090 |
24GB GDDR6X |
192GB |
通用 CUDA 商业算力 |
|
B |
8× 昇腾 910B4 32G |
32GB HBM |
256GB |
国产信创昇腾算力 |
|
C |
8× 昇腾 910B4 64G |
64GB HBM |
512GB |
国产信创昇腾算力 |
- 单 Agent 流式延迟测试
(5 轮实测,分 1024/2048 两套负载)
2.1 机型 A:8×RTX4090(仅 1024Token 负载)
- TTFT 均值:152.81ms
- TPOT 均值:74.96ms
- 单会话平均吞吐:13.31 tokens/s
- 特征:无冷热启动区分,首次响应速度最优
2.2 机型 B:8× 昇腾 910B4-32G
负载 1:max_tokens=1024(本次全新实测)
表格
|
轮次 |
生成 tokens |
ttft_ms |
tpot_ms |
单路吞吐 (t/s) |
|
1 |
1024 |
1225.38 |
86.79 |
11.36 |
|
2 |
1024 |
1255.83 |
87.24 |
11.30 |
|
3 |
1024 |
1245.89 |
86.13 |
11.45 |
|
4 |
1024 |
1225.61 |
85.51 |
11.53 |
|
5 |
1024 |
657.09 |
86.56 |
11.47 |
汇总:
冷启动 TTFT 均值 (前 4 轮):1238.18ms
热启动 TTFT:657.09ms
TPOT 均值:86.45ms
单会话平均吞吐:11.42 tokens/s
负载 2:max_tokens=2048
5 轮原始指标:
1 轮:tokens=2048, ttft=4161.12ms, tpot=87.10ms, tp=11.22
2 轮:tokens=2048, ttft=4159.15ms, tpot=86.32ms, tp=11.32
3 轮:tokens=2048, ttft=1250.59ms, tpot=86.46ms, tp=11.48
4 轮:tokens=2048, ttft=630.91ms, tpot=86.94ms, tp=11.46
5 轮:tokens=2048, ttft=620.56ms, tpot=86.99ms, tp=11.46
汇总:
冷启动 TTFT 均值 (前 2 轮):4160.14ms
热启动 TTFT 均值 (后 3 轮):834.02ms
TPOT 均值:86.76ms
单会话平均吞吐:11.39 tokens/s
2.3 机型 C:8× 昇腾 910B4-64G
负载 1:max_tokens=1024
冷启动 TTFT 预估:≈900ms
热启动 TTFT:253.84ms
TPOT 均值:78.49ms 单会话平均吞吐:12.66 tokens/s
负载 2:max_tokens=2048
冷启动 TTFT 均值:1382ms
热启动 TTFT 均值:253.84ms
TPOT 均值:78.49ms
单会话平均吞吐:12.66 tokens/s
2.4 单会话指标横向总表(双负载合并)
表格
|
性能指标 |
A:8×RTX4090(1024Token) |
B:8×910B4 32G1024 / 2048 |
C:8×910B4 64G1024 / 2048 |
|
整机显存 |
192GB GDDR6X |
256GB HBM |
512GB HBM |
|
冷启动 TTFT 均值 |
152.81ms |
1238.18ms / 4160.14ms |
≈900ms / 1382ms |
|
热启动 TTFT |
152.81ms |
657.09ms / 834.02ms |
253.84ms / 253.84ms |
|
TPOT 单 Token 间隔 |
74.96ms |
86.45ms / 86.76ms |
78.49ms / 78.49ms |
|
单会话空载吞吐 |
13.31 t/s |
11.42 t/s / 11.39 t/s |
12.66 t/s / 12.66 t/s |
2.5 单会话交互体验结论
- 输出长度对昇腾机型冷启动延迟影响极大:
2048 超长输出下 32G 机型冷启动突破 4 秒,初次交互卡顿严重;64G 机型冷启动涨幅可控,热启动不受输出长度影响。
- TPOT 解码速度仅由 NPU 算力决定,和单次输出 token 数量无关,同一款机型 1024/2048 负载 TPOT 几乎无变化。
- 吞吐差距来源:4090 解码速度最优;64G 昇腾次之;32G 昇腾受显存调度开销拖累吞吐最低。
三、集群并发吞吐压测结果(两套负载完整数据)
3.1 机型 A:4×RTX4090(1024Token 负载)
表格
|
并发档位 |
集群吞吐 (tokens/s) |
运行状态 |
|
8 |
100.56 |
低并发线性爬坡 |
|
16 |
195.40 |
算力持续拉升 |
|
32 |
359.70 |
线性增长区间 |
|
64 |
621.39 |
线性增长区间 |
|
128 |
1194.38 |
持续上涨 |
|
256 |
2264.69 |
整机性能峰值,显存临界满载 |
|
>256 |
吞吐断崖下跌,出现任务失败 |
KV Cache 内存溢出故障区间 |
核心参数:
峰值吞吐 2264.69 tokens/s,安全稳定并发上限 256。
3.2 机型 B:8× 昇腾 910B4 32G
负载 1:max_tokens=1024
表格
|
并发档位 |
集群吞吐 (tokens/s) |
运行状态 |
|
8 |
85.96 |
低并发线性爬坡 |
|
16 |
165.95 |
算力稳步拉升 |
|
32 |
310.62 |
线性增长区间 |
|
64 |
596.23 |
线性增长区间 |
|
128 |
896.90 |
增速放缓 |
|
256 |
1099.18 |
持续上行 |
|
512 |
1131.48 |
整机性能峰值 |
|
768 / 1024 |
吞吐小幅回落,无报错 |
整机显存容量受限 |
峰值吞吐:1131.48 tokens/s,峰值并发 512,
全档位 100% 成功率。
负载 2:max_tokens=2048
表格
|
并发档位 |
集群吞吐 (tokens/s) |
运行状态 |
|
8 |
86.08 |
低并发爬坡 |
|
16 |
165.70 |
稳步拉升 |
|
32 |
318.75 |
线性增长 |
|
64 |
549.37 |
线性增长 |
|
128 |
864.30 |
增速放缓 |
|
256 |
1013.80 |
持续上行 |
|
512 |
1080.49 |
整机峰值 |
|
768 / 1024 |
小幅衰减 |
显存压力上升 |
峰值吞吐:1080.49 tokens/s,峰值并发 512。
3.3 机型 C:8× 昇腾 910B4 64G
负载 1:max_tokens=1024
表格
|
并发档位 |
集群吞吐 (tokens/s) |
运行状态 |
|
8 |
99.39 |
低并发线性爬坡 |
|
16 |
192.07 |
算力稳步拉升 |
|
32 |
355.51 |
线性增长区间 |
|
64 |
667.61 |
线性增长区间 |
|
128 |
1046.86 |
持续上行 |
|
256 |
1987.78 |
接近算力饱和 |
|
512 |
1985.33 |
高位平稳运行 |
|
768 |
2042.12 |
整机性能峰值 |
|
1024 |
1896.46 |
极轻微衰减,显存余量充足 |
峰值吞吐:2042.12 tokens/s,峰值并发 768。
负载 2:max_tokens=2048(前期实测)
表格
|
并发档位 |
集群吞吐 (tokens/s) |
运行状态 |
|
8 |
101.08 |
低并发爬坡 |
|
16 |
192.90 |
稳步拉升 |
|
32 |
347.59 |
线性增长 |
|
64 |
572.28 |
线性增长 |
|
128 |
832.79 |
增速放缓 |
|
256 |
950.16 |
持续上行 |
|
512 |
988.02 |
整机峰值 |
|
768 / 1024 |
轻微衰减 |
显存余量充足 |
峰值吞吐:988.02 tokens/s,峰值并发 512。
3.4 整机吞吐与单机承载汇总(分两套负载)
负载 1:统一输出 1024 Token(业务交互标准负载)
表格
|
机型 |
整机峰值吞吐(t/s) |
峰值稳定并发 |
单机瞬时推理任务上限 |
间歇在线 Agent 承载 (10% 活跃) |
|
A:4×RTX4090 |
2264.69 |
256 |
90 |
900 |
|
B:8×910B4 32G |
1131.48 |
512 |
45 |
450 |
|
C:8×910B4 64G |
2042.12 |
768 |
82 |
820 |
负载 2:统一输出 2048 Token(重型超长文本严苛负载)
表格
|
机型 |
整机峰值吞吐(t/s) |
峰值稳定并发 |
单机瞬时推理任务上限 |
间歇在线 Agent 承载 (10% 活跃) |
|
A:4×RTX4090 |
1132.35(理论折半) |
256 |
45 |
450 |
|
B:8×910B4 32G |
1080.49 |
512 |
43 |
430 |
|
C:8×910B4 64G |
988.02 |
512 |
40 |
400 |
四、混合集群整体承载能力测算
集群硬件组合
5 台 84×RTX4090 + 1 台 8× 昇腾 910B4-32G + 4 台 8× 昇腾 910B4-64G
4.1 标准交互负载(1024Token)
- 集群全局瞬时并行推理总上限 5×90 + 1×45 + 4×82 = 823 条同时运行推理任务
- 业务承载规模
- 日常平稳交互:823 ÷ 0.1 = 8230 名在线 Agent 客户端 推荐安全运营上限:7000 人
- 极端批量突刺同步推理:极限承载 823 人
4.2 重型超长文本负载(2048Token)
- 集群全局瞬时并行推理总上限 5×45 + 1×43 + 4×40 = 225 + 43 + 160 = 428 条
- 业务承载规模
- 日常平稳重型 Agent 在线:428 ÷ 0.1 = 4280 人
- 全量同步批量推理极限:428 人
五、三类机型优劣势完整对比
A:8×RTX4090
优势
- 冷热启动延迟统一极低,交互式对话用户体验最优;
- CUDA 与 vLLM 原生深度适配,同等 1024Token 负载下单机峰值吞吐最高;
- CUDA 生态工具完善,监控、调试、运维配套工具丰富,技术落地门槛低。
劣势
- 整机显存容量小,256 并发为硬性安全红线,超过负载后吞吐直接断崖下跌;
- 2048 超长输出负载下显存瓶颈放大,承载能力直接减半;
- 不属于国产自主算力,不满足信创项目准入要求。
B:8× 昇腾 910B4 32G
优势
- 国产自主算力硬件,符合信创项目合规准入标准;
- 整机显存容量远高于 RTX4090,安全并发上限提升至 512,无断崖式性能崩盘风险;
- 两套输出负载下吞吐衰减幅度平缓,中等批量场景稳定性优于 4090;
- 单机算力密度高,可承接中等规模批量推理任务,适合作为集群补充算力节点。
劣势
- 单卡显存偏小,2048 超长上下文全新会话冷启动延迟突破 4 秒,初次交互卡顿极其明显;
- Token 单步解码速度弱于另外两款机型,两套负载下单会话空载吞吐均最低;
- 768、1024 超高并发下显存资源不足,集群吞吐出现明显回落;
- vLLM-Ascend 适配存在专项调优成本,运维学习门槛高于 CUDA 架构。
C:8× 昇腾 910B4 64G
优势
- 整机超大容量 HBM 显存,两套输出负载下高并发显存余量充足,1024 并发仅轻微性能衰减;
- 热启动延迟不受输出长度影响,多轮连续对话交互流畅;
- 可长期驻留海量超长上下文 KV Cache,适配 7×24 小时不间断批量推理业务;
- 国产自主算力底座,满足信创项目合规要求,是大批量推理业务核心算力节点。
劣势
- 全新 2048Token 超长上下文冷启动延迟仍显著高于 RTX4090,纯前台实时交互体验存在差距;
- vLLM-Ascend 推理框架适配需要专项技术培训,运维存在学习成本。
六、分业务场景硬件选型方案
场景 1:纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求
优先选用:8×RTX4090 服务器
管控策略:单机 Nginx 限流 256 并发,单台服务器在线 Agent 不超过 900 个。
场景 2:信创项目、中等批量业务,输出存在 1024/2048 混合长度
优先选用:8× 昇腾 910B4 32G 机型
优化策略:业务侧尽量统一输出 1024Token 释放算力;网关层单机限流 512 并发。
场景 3:千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座
优先选用:8× 昇腾 910B4 64G 服务器
核心价值:超大显存兼顾长短输出负载,高并发稳定无明显衰减,作为混合集群兜底算力。
混合集群流量调度分配(5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾)
- 5 台 8×RTX4090:专供前台 1024 短输出实时交互客户,保障低延迟体验;
- 4 台 8× 昇腾 910B4 64G:集群核心算力,承接 2048 超长文本批量推理、定时离线任务;
- 1 台 8× 昇腾 910B4 32G:弹性补充算力,承接研发测试、临时中等批量任务。
七、综合测试总结
- 交互延迟维度:RTX4090 全程最优;64G 昇腾长短输出冷热启动均衡;32G 昇腾在 2048 超长全新会话下卡顿严重,不适合强实时对话场景。
- 吞吐负载影响:单次输出 token 数量翻倍,所有机型整机峰值吞吐接近减半;显存越小的机型,吞吐衰减与延迟涨幅越剧烈。
- 高并发稳定性维度:8×910B4 64G > 8×910B4 32G > 8×RTX4090;RTX4090 显存上限低,超长文本批量场景极易触发性能崩盘。
- 国产化合规维度:两款昇腾机型满足信创准入,RTX4090 无法用于政务、央企、国企信创项目。
- 集群承载结论:
- 常规 1024Token 交互业务:整套集群稳定承载 8230 名在线 Agent;
- 重型 2048 超长文本业务:整套集群稳定承载 4280 名在线 Agent;
- 落地选型建议:混合集群搭配可兼顾实时交互体验、国产化合规、长短文本批量算力兜底,适配政企私有化 Agent 全场景交付。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐


所有评论(0)