Agent 后台 - Token工场-集群设备配置建议

永远的菜鸟

181人浏览 · 2026-06-14 13:03:08

永远的菜鸟 · 2026-06-14 13:03:08 发布

8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G

长文本 Agent 性能综合对比测试报告

基础测试说明

测试模型：qwen3.6-27b-w8a8（W8A8 量化-华为910B4）

qwen3.6-27b-awq（AWQ量化-英伟达4090）

统一输入上下文：12000 Token 超长 Agent 调度上下文（工具链 + 多轮对话历史）
两套输出负载标准：

负载 1：max_tokens=1024（对齐 4090 原始测试，公平横向对比）

负载 2：max_tokens=2048（重型超长文本 Agent 严苛负载）

单机部署架构：4 组 vLLM 推理实例（8000/8001/8002/8003）+ Nginx 负载均衡

API 鉴权统一：sk-qwen-27b-w8a8-2026

并发测试档位统一：8/16/32/64/128/256/512/768/1024/2048

业务测算基准：

重型长文本 Agent 单次推理消耗 25 tokens/s；线上用户间歇交互，推理活跃占比 10%（90% 在线空闲）

测试日期：2026.06.13

一、硬件基础规格对照表

表格

机型标识	硬件配置	单卡显存	整机总显存	算力属性
A	8×RTX4090	24GB GDDR6X	192GB	通用 CUDA 商业算力
B	8× 昇腾 910B4 32G	32GB HBM	256GB	国产信创昇腾算力
C	8× 昇腾 910B4 64G	64GB HBM	512GB	国产信创昇腾算力

单 Agent 流式延迟测试

（5 轮实测，分 1024/2048 两套负载）

2.1 机型 A：8×RTX4090（仅 1024Token 负载）

TTFT 均值：152.81ms
TPOT 均值：74.96ms
单会话平均吞吐：13.31 tokens/s
特征：无冷热启动区分，首次响应速度最优

2.2 机型 B：8× 昇腾 910B4-32G

负载 1：max_tokens=1024（本次全新实测）

表格

轮次	生成 tokens	ttft_ms	tpot_ms	单路吞吐 (t/s)
1	1024	1225.38	86.79	11.36
2	1024	1255.83	87.24	11.30
3	1024	1245.89	86.13	11.45
4	1024	1225.61	85.51	11.53
5	1024	657.09	86.56	11.47

汇总：

冷启动 TTFT 均值 (前 4 轮)：1238.18ms

热启动 TTFT：657.09ms

TPOT 均值：86.45ms

单会话平均吞吐：11.42 tokens/s

负载 2：max_tokens=2048

5 轮原始指标：

1 轮：tokens=2048, ttft=4161.12ms, tpot=87.10ms, tp=11.22

2 轮：tokens=2048, ttft=4159.15ms, tpot=86.32ms, tp=11.32

3 轮：tokens=2048, ttft=1250.59ms, tpot=86.46ms, tp=11.48

4 轮：tokens=2048, ttft=630.91ms, tpot=86.94ms, tp=11.46

5 轮：tokens=2048, ttft=620.56ms, tpot=86.99ms, tp=11.46

汇总：

冷启动 TTFT 均值 (前 2 轮)：4160.14ms

热启动 TTFT 均值 (后 3 轮)：834.02ms

TPOT 均值：86.76ms

单会话平均吞吐：11.39 tokens/s

2.3 机型 C：8× 昇腾 910B4-64G

负载 1：max_tokens=1024

冷启动 TTFT 预估：≈900ms

热启动 TTFT：253.84ms

TPOT 均值：78.49ms 单会话平均吞吐：12.66 tokens/s

负载 2：max_tokens=2048

冷启动 TTFT 均值：1382ms
热启动 TTFT 均值：253.84ms

TPOT 均值：78.49ms

单会话平均吞吐：12.66 tokens/s

2.4 单会话指标横向总表（双负载合并）

表格

性能指标	A：8×RTX4090(1024Token)	B：8×910B4 32G1024 / 2048	C：8×910B4 64G1024 / 2048
整机显存	192GB GDDR6X	256GB HBM	512GB HBM
冷启动 TTFT 均值	152.81ms	1238.18ms / 4160.14ms	≈900ms / 1382ms
热启动 TTFT	152.81ms	657.09ms / 834.02ms	253.84ms / 253.84ms
TPOT 单 Token 间隔	74.96ms	86.45ms / 86.76ms	78.49ms / 78.49ms
单会话空载吞吐	13.31 t/s	11.42 t/s / 11.39 t/s	12.66 t/s / 12.66 t/s

2.5 单会话交互体验结论

输出长度对昇腾机型冷启动延迟影响极大：

2048 超长输出下 32G 机型冷启动突破 4 秒，初次交互卡顿严重；64G 机型冷启动涨幅可控，热启动不受输出长度影响。

TPOT 解码速度仅由 NPU 算力决定，和单次输出 token 数量无关，同一款机型 1024/2048 负载 TPOT 几乎无变化。
吞吐差距来源：4090 解码速度最优；64G 昇腾次之；32G 昇腾受显存调度开销拖累吞吐最低。

三、集群并发吞吐压测结果（两套负载完整数据）

3.1 机型 A：4×RTX4090（1024Token 负载）

表格

并发档位	集群吞吐 (tokens/s)	运行状态
8	100.56	低并发线性爬坡
16	195.40	算力持续拉升
32	359.70	线性增长区间
64	621.39	线性增长区间
128	1194.38	持续上涨
256	2264.69	整机性能峰值，显存临界满载
＞256	吞吐断崖下跌，出现任务失败	KV Cache 内存溢出故障区间

核心参数：

峰值吞吐 2264.69 tokens/s，安全稳定并发上限 256。

3.2 机型 B：8× 昇腾 910B4 32G

负载 1：max_tokens=1024

表格

并发档位	集群吞吐 (tokens/s)	运行状态
8	85.96	低并发线性爬坡
16	165.95	算力稳步拉升
32	310.62	线性增长区间
64	596.23	线性增长区间
128	896.90	增速放缓
256	1099.18	持续上行
512	1131.48	整机性能峰值
768 / 1024	吞吐小幅回落，无报错	整机显存容量受限

峰值吞吐：1131.48 tokens/s，峰值并发 512，

全档位 100% 成功率。

负载 2：max_tokens=2048

表格

并发档位	集群吞吐 (tokens/s)	运行状态
8	86.08	低并发爬坡
16	165.70	稳步拉升
32	318.75	线性增长
64	549.37	线性增长
128	864.30	增速放缓
256	1013.80	持续上行
512	1080.49	整机峰值
768 / 1024	小幅衰减	显存压力上升

峰值吞吐：1080.49 tokens/s，峰值并发 512。

3.3 机型 C：8× 昇腾 910B4 64G

负载 1：max_tokens=1024

表格

并发档位	集群吞吐 (tokens/s)	运行状态
8	99.39	低并发线性爬坡
16	192.07	算力稳步拉升
32	355.51	线性增长区间
64	667.61	线性增长区间
128	1046.86	持续上行
256	1987.78	接近算力饱和
512	1985.33	高位平稳运行
768	2042.12	整机性能峰值
1024	1896.46	极轻微衰减，显存余量充足

峰值吞吐：2042.12 tokens/s，峰值并发 768。

负载 2：max_tokens=2048（前期实测）

表格

并发档位	集群吞吐 (tokens/s)	运行状态
8	101.08	低并发爬坡
16	192.90	稳步拉升
32	347.59	线性增长
64	572.28	线性增长
128	832.79	增速放缓
256	950.16	持续上行
512	988.02	整机峰值
768 / 1024	轻微衰减	显存余量充足

峰值吞吐：988.02 tokens/s，峰值并发 512。

3.4 整机吞吐与单机承载汇总（分两套负载）

负载 1：统一输出 1024 Token（业务交互标准负载）

表格

机型	整机峰值吞吐(t/s)	峰值稳定并发	单机瞬时推理任务上限	间歇在线 Agent 承载 (10% 活跃)
A：4×RTX4090	2264.69	256	90	900
B：8×910B4 32G	1131.48	512	45	450
C：8×910B4 64G	2042.12	768	82	820

负载 2：统一输出 2048 Token（重型超长文本严苛负载）

表格

机型	整机峰值吞吐(t/s)	峰值稳定并发	单机瞬时推理任务上限	间歇在线 Agent 承载 (10% 活跃)
A：4×RTX4090	1132.35（理论折半）	256	45	450
B：8×910B4 32G	1080.49	512	43	430
C：8×910B4 64G	988.02	512	40	400

四、混合集群整体承载能力测算

集群硬件组合

5 台 84×RTX4090 + 1 台 8× 昇腾 910B4-32G + 4 台 8× 昇腾 910B4-64G

4.1 标准交互负载（1024Token）

集群全局瞬时并行推理总上限 5×90 + 1×45 + 4×82 = 823 条同时运行推理任务
业务承载规模

日常平稳交互：823 ÷ 0.1 = 8230 名在线 Agent 客户端推荐安全运营上限：7000 人
极端批量突刺同步推理：极限承载 823 人

4.2 重型超长文本负载（2048Token）

集群全局瞬时并行推理总上限 5×45 + 1×43 + 4×40 = 225 + 43 + 160 = 428 条
业务承载规模

日常平稳重型 Agent 在线：428 ÷ 0.1 = 4280 人
全量同步批量推理极限：428 人

五、三类机型优劣势完整对比

A：8×RTX4090

优势

冷热启动延迟统一极低，交互式对话用户体验最优；
CUDA 与 vLLM 原生深度适配，同等 1024Token 负载下单机峰值吞吐最高；
CUDA 生态工具完善，监控、调试、运维配套工具丰富，技术落地门槛低。

劣势

整机显存容量小，256 并发为硬性安全红线，超过负载后吞吐直接断崖下跌；
2048 超长输出负载下显存瓶颈放大，承载能力直接减半；
不属于国产自主算力，不满足信创项目准入要求。

B：8× 昇腾 910B4 32G

优势

国产自主算力硬件，符合信创项目合规准入标准；
整机显存容量远高于 RTX4090，安全并发上限提升至 512，无断崖式性能崩盘风险；
两套输出负载下吞吐衰减幅度平缓，中等批量场景稳定性优于 4090；
单机算力密度高，可承接中等规模批量推理任务，适合作为集群补充算力节点。

劣势

单卡显存偏小，2048 超长上下文全新会话冷启动延迟突破 4 秒，初次交互卡顿极其明显；
Token 单步解码速度弱于另外两款机型，两套负载下单会话空载吞吐均最低；
768、1024 超高并发下显存资源不足，集群吞吐出现明显回落；
vLLM-Ascend 适配存在专项调优成本，运维学习门槛高于 CUDA 架构。

C：8× 昇腾 910B4 64G

优势

整机超大容量 HBM 显存，两套输出负载下高并发显存余量充足，1024 并发仅轻微性能衰减；
热启动延迟不受输出长度影响，多轮连续对话交互流畅；
可长期驻留海量超长上下文 KV Cache，适配 7×24 小时不间断批量推理业务；
国产自主算力底座，满足信创项目合规要求，是大批量推理业务核心算力节点。

劣势

全新 2048Token 超长上下文冷启动延迟仍显著高于 RTX4090，纯前台实时交互体验存在差距；
vLLM-Ascend 推理框架适配需要专项技术培训，运维存在学习成本。

六、分业务场景硬件选型方案

场景 1：纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求

优先选用：8×RTX4090 服务器

管控策略：单机 Nginx 限流 256 并发，单台服务器在线 Agent 不超过 900 个。

场景 2：信创项目、中等批量业务，输出存在 1024/2048 混合长度

优先选用：8× 昇腾 910B4 32G 机型

优化策略：业务侧尽量统一输出 1024Token 释放算力；网关层单机限流 512 并发。

场景 3：千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座

优先选用：8× 昇腾 910B4 64G 服务器

核心价值：超大显存兼顾长短输出负载，高并发稳定无明显衰减，作为混合集群兜底算力。

混合集群流量调度分配（5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾）

5 台 8×RTX4090：专供前台 1024 短输出实时交互客户，保障低延迟体验；
4 台 8× 昇腾 910B4 64G：集群核心算力，承接 2048 超长文本批量推理、定时离线任务；
1 台 8× 昇腾 910B4 32G：弹性补充算力，承接研发测试、临时中等批量任务。

七、综合测试总结

交互延迟维度：RTX4090 全程最优；64G 昇腾长短输出冷热启动均衡；32G 昇腾在 2048 超长全新会话下卡顿严重，不适合强实时对话场景。
吞吐负载影响：单次输出 token 数量翻倍，所有机型整机峰值吞吐接近减半；显存越小的机型，吞吐衰减与延迟涨幅越剧烈。
高并发稳定性维度：8×910B4 64G ＞ 8×910B4 32G ＞ 8×RTX4090；RTX4090 显存上限低，超长文本批量场景极易触发性能崩盘。
国产化合规维度：两款昇腾机型满足信创准入，RTX4090 无法用于政务、央企、国企信创项目。
集群承载结论：
- 常规 1024Token 交互业务：整套集群稳定承载 8230 名在线 Agent；
- 重型 2048 超长文本业务：整套集群稳定承载 4280 名在线 Agent；
落地选型建议：混合集群搭配可兼顾实时交互体验、国产化合规、长短文本批量算力兜底，适配政企私有化 Agent 全场景交付。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

【vLLM-Ascend】Qwen3-30B-A3B 模型在异步训练场景下的性能优化实践

鲲鹏昇腾开发者社区

AI算力设备怎么选：Intel、AMD、海光、鲲鹏、飞腾、昇腾各适合什么场景？

鲲鹏昇腾开发者社区

从生成算子到性能评测：FlagOS 三件套完整使用流程，KernelGen（算子自动生成工具，大语言模型）、FlagRelease、FlagPerf 三大工具

FlagOS三大工具速览与快速调用指南核心工具： KernelGen：AI自动生成多芯片兼容的高性能算子（支持英伟达/昇腾等）快速调用：网页版输入算子描述自动生成代码，或通过CLI触发生成 FlagRelease：大模型跨芯片一键迁移部署平台（适配70+主流模型）三步骤：下载预适配模型 → 拉取优化镜像 → 启动兼容API服务 FlagPerf：异构芯片统一评测工具（支持32款芯片横向对比）

鲲鹏昇腾开发者社区

所有评论(0)

查看更多评论

永远的菜鸟

@m0_57112626

已为社区贡献2条内容

Agent 后台 - Token工场-集群设备配置建议

永远的菜鸟

8×RTX4090 / 8× 昇腾 910B4-32G / 8× 昇腾 910B4-64G

长文本 Agent 性能综合对比测试报告

基础测试说明

一、硬件基础规格对照表

（5 轮实测，分 1024/2048 两套负载）

2.1 机型 A：8×RTX4090（仅 1024Token 负载）

2.2 机型 B：8× 昇腾 910B4-32G

负载 1：max_tokens=1024（本次全新实测）

负载 2：max_tokens=2048

2.3 机型 C：8× 昇腾 910B4-64G

负载 1：max_tokens=1024

负载 2：max_tokens=2048

2.4 单会话指标横向总表（双负载合并）

2.5 单会话交互体验结论

三、集群并发吞吐压测结果（两套负载完整数据）

3.1 机型 A：4×RTX4090（1024Token 负载）

3.2 机型 B：8× 昇腾 910B4 32G

负载 1：max_tokens=1024

负载 2：max_tokens=2048

3.3 机型 C：8× 昇腾 910B4 64G

负载 1：max_tokens=1024

负载 2：max_tokens=2048（前期实测）

3.4 整机吞吐与单机承载汇总（分两套负载）

负载 1：统一输出 1024 Token（业务交互标准负载）

负载 2：统一输出 2048 Token（重型超长文本严苛负载）

四、混合集群整体承载能力测算

集群硬件组合

4.1 标准交互负载（1024Token）

4.2 重型超长文本负载（2048Token）

五、三类机型优劣势完整对比

A：8×RTX4090

优势

劣势

B：8× 昇腾 910B4 32G

优势

劣势

C：8× 昇腾 910B4 64G

优势

劣势

六、分业务场景硬件选型方案

场景 1：纯前台交互式 Agent、中小并发、输出长度固定 1024Token、无信创需求

场景 2：信创项目、中等批量业务，输出存在 1024/2048 混合长度

场景 3：千级超高并发、7×24 小时离线批量文档、大量 2048 超长输出、信创核心底座

混合集群流量调度分配（5 台 4090+1 台 32G 昇腾 + 4 台 64G 昇腾）

七、综合测试总结

所有评论(0)

温馨提示：您尚未绑定手机号

永远的菜鸟