GPU 选型指南:A100 / H100 / 4090 / 910B 性价比分析
GPU 选型指南:A100 / H100 / 4090 / 910B 性价比分析
《大模型知识与部署》系列 · No.21 / 35(工程实践篇开篇)
适合人群:AI 工程师、技术决策者、采购
阅读时间:约 28 分钟

写在前面
前 20 篇我们走完了认知 → 训练 → 推理优化 → 部署服务化的完整软件链路。从这一篇开始进入工程实践篇(第 21-25 篇),把视角从"软件"转向"硬件、运维、成本"。
第一站:GPU 选型。
这个话题对大模型团队特别敏感。原因很简单:
GPU 是大模型团队最大的单笔开支,占总成本的 70-90%。
对一家 AI 创业公司来说:
- 服务器折旧:占成本 60-80%
- 工程师工资:占成本 10-30%
- 其他:剩下的零头
GPU 买错、租错、用错——损失动辄百万级。这就是为什么这一篇虽然不写代码,但极其重要。
如果你做过相关工作,下面这些问题应该不陌生:
- A100 现在停产了,怎么选替代?
- 8 张 4090 能不能替代 1 张 H100?
- 国产 910C 性能怎么样?什么场景能用?
- 自购 vs 云租赁 vs 包年,怎么算账?
- 二手 H100 能买吗?水货坑大不大?
- H200 / B200 / B300 怎么选?
读完本文你将能:
- 看懂主流 GPU 的关键参数(算力、带宽、显存、互联)
- 算清「单位算力价格」与「TCO」
- 按业务场景(训练 / 推理 / 微调)选对硬件
- 决策自购 vs 租赁
- 评估国产 GPU 的真实可用性
我们开始。
一、GPU 选型决策对工程师的真实影响
1.1 几个真实的反面案例
案例 1:盲目追新
某创业公司 2024 年初等 H200 等了半年,错过了第一批客户。其实 8 卡 H100 完全够用。
案例 2:选错精度
某团队为了省钱买了 8 张 4090,结果发现训练 70B 微调跑不起来(不支持 NVLink 互联,TP 通信慢得离谱)。
案例 3:忽视带宽
某公司用 PCIe 互联的 H100 服务器,部署 70B 模型时性能只有官方报告的 40%。
案例 4:低估推理需求
某公司只买了训练用 GPU,没规划推理集群,上线时被迫紧急买 A10 卡,价格涨了 30%。
这些坑加起来,每个都是几十万到几百万的损失。
1.2 选型的核心维度
GPU 选型要看 5 个维度:
┌────────────────────────────────────────┐
│ 1. 算力 (TFLOPS) │
│ FP32 / FP16 / BF16 / FP8 / INT8 │
├────────────────────────────────────────┤
│ 2. 显存 (GB) │
│ 容量 + 带宽 + 类型 (HBM3 / GDDR) │
├────────────────────────────────────────┤
│ 3. 互联 (NVLink / PCIe / IB) │
│ 带宽决定能否做 TP │
├────────────────────────────────────────┤
│ 4. 功耗 (W) │
│ 决定机房和供电要求 │
├────────────────────────────────────────┤
│ 5. 价格 + 可获得性 │
│ 单价 + 渠道 + 周期 │
└────────────────────────────────────────┘
下面我们用这 5 个维度看主流卡。
二、NVIDIA 主流 GPU 全景
2.1 数据中心卡
A100 系列(Ampere,2020)
- A100 40GB / 80GB:经典之作,2020-2023 训练主力
- 算力:312 TFLOPS(FP16),624 TFLOPS(稀疏 BF16)
- 带宽:1.55 / 2.0 TB/s
- 互联:NVLink 3,600 GB/s
- 功耗:400W
- 价格(2026 中):80G 二手约 ¥80K,新机已停产
- 当下地位:仍然主力——大量企业在用,性价比稳定
H100 系列(Hopper,2022)
- H100 80GB SXM / PCIe:当下推理主力
- 算力:989 TFLOPS(FP16),1979 TFLOPS(FP8)
- 带宽:3.35 TB/s
- 互联:NVLink 4,900 GB/s
- 功耗:700W (SXM) / 350W (PCIe)
- 价格(2026 中):单卡 SXM 约 ¥250K,PCIe 约 ¥220K
- 当下地位:性价比最优——综合能力强,供货稳定
H200(Hopper Refresh,2024)
- 算力:与 H100 相同(989 TFLOPS FP16)
- 显存:141 GB HBM3e(比 H100 多 76%)
- 带宽:4.8 TB/s(提升 43%)
- 功耗:700W
- 价格:约 ¥320K
- 甜蜜场景:长上下文部署,1 张 H200 = 接近 2 张 H100(KV Cache 维度)
B200(Blackwell,2024 末发布,2025 量产)
- 算力:2.25 PFLOPS(FP16),9 PFLOPS(FP4)
- 显存:192 GB HBM3e
- 带宽:8 TB/s
- 互联:NVLink 5,1.8 TB/s
- 功耗:1000W
- 价格(2026 中):单卡约 ¥450K,整机 HGX B200 约 ¥4M+
- 甜蜜场景:训练 + 推理双优,FP4 推理性能爆表
B300(Blackwell Ultra,2025 末)
- 算力比 B200 提升 50%(1.5×)
- 显存:288 GB
- 价格:约 ¥600K
- 当下地位:2026 中刚开始出货,大部分团队还买不到
GB200 NVL72(整机柜方案)
- 72 张 B200 + 36 颗 Grace CPU
- 整机柜统一编程模型
- 单柜价格:约 ¥30M
- 甜蜜场景:超大规模训练、671B+ MoE 模型
2.2 消费级卡(数据中心二线选项)
RTX 4090(Ada,2022)
- 算力:83 TFLOPS(FP16),165 TFLOPS(FP8)
- 显存:24 GB GDDR6X
- 带宽:1 TB/s
- 没有 NVLink——这是关键限制
- 功耗:450W
- 价格(2026 中):¥13K(涨过又跌过)
- 甜蜜场景:个人开发、小模型微调、本地推理、DP 多副本
- 死亡场景:TP 大模型(无 NVLink)
RTX 5090(Blackwell,2025)
- 算力:125 TFLOPS(FP16),250 TFLOPS(FP8)
- 显存:32 GB GDDR7
- 带宽:1.79 TB/s
- 仍然没有 NVLink
- 功耗:575W
- 价格(2026 中):¥18K
- 比 4090 强 50%,但仍是消费卡定位
RTX 6000 Ada(专业卡)
- 显存:48 GB
- 算力接近 4090
- 有 NVLink Bridge(仅 2 卡)
- 价格:¥45K
- 甜蜜场景:工作站微调、小团队部署
2.3 主流卡参数总览
| 型号 | 显存 | FP16 算力 | 带宽 | 互联 | 功耗 | 单价(2026.05) |
|---|---|---|---|---|---|---|
| A100 80G | 80 GB | 312 T | 2.0 TB/s | NVLink 3 | 400W | ¥80K(二手) |
| H100 SXM | 80 GB | 989 T | 3.35 TB/s | NVLink 4 | 700W | ¥250K |
| H200 | 141 GB | 989 T | 4.8 TB/s | NVLink 4 | 700W | ¥320K |
| B200 | 192 GB | 2250 T | 8.0 TB/s | NVLink 5 | 1000W | ¥450K |
| B300 | 288 GB | 3375 T | 9.6 TB/s | NVLink 5 | 1200W | ¥600K |
| RTX 4090 | 24 GB | 83 T | 1.0 TB/s | ❌ | 450W | ¥13K |
| RTX 5090 | 32 GB | 125 T | 1.79 TB/s | ❌ | 575W | ¥18K |
| RTX 6000 Ada | 48 GB | 91 T | 0.96 TB/s | 双卡 NVLink | 300W | ¥45K |
三、国产 GPU:从能用到好用
国产 GPU 在 2024-2026 经历了快速发展,2026 年已经是真正可生产的状态。
3.1 华为昇腾 Ascend 系列
910B(2023)
- 算力:FP16 约 320 TFLOPS(稀疏后)
- 显存:64 GB HBM2e
- 带宽:1.6 TB/s
- 互联:HCCS 392 GB/s(类 NVLink)
- 价格:约 ¥120K
- 生态:MindIE、CANN 软件栈
- 当下地位:央国企首选,互联网公司补充
910C(2024-2025)
- 算力:FP16 约 700 TFLOPS(性能翻倍)
- 显存:128 GB
- 带宽:3.0 TB/s
- HCCS 升级到 600 GB/s
- 价格:约 ¥220K
- 甜蜜场景:替代 H100 的国产首选
910D(2026 中预计)
- 进一步对标 H200 / B200 部分指标
- 量产中
3.2 其他国产卡
| 厂商 | 型号 | 显存 | 状态 |
|---|---|---|---|
| 海光 | 深算 DCU K100 AI | 64 GB | 量产,价格 ~¥80K |
| 摩尔线程 | MTT S5000 | 64 GB | 兼容 CUDA 生态 |
| 燧原 | 邃思 T20 | 64 GB | 商用 |
| 寒武纪 | 思元 590 / 690 | 48 / 80 GB | 训练推理两用 |
| 沐曦 | 曦云 C500 | 64 GB | 量产 |
3.3 国产卡的真实可用性
软件生态:
| 软件栈 | 国产卡支持 |
|---|---|
| PyTorch | 多家通过移植层支持 |
| vLLM | 部分支持(如 vLLM-Ascend 分支) |
| Transformers | 多数支持 |
| Triton | 部分支持 |
| 国产 SOTA 模型(Qwen、DeepSeek、GLM) | 全面支持 |
真实性能差距(同等内存级别 vs H100):
| 指标 | 910C / H100 |
|---|---|
| FP16 算力 | 70% |
| 显存带宽 | 90% |
| 互联带宽 | 67% |
| 实际推理吞吐 | 60-80% |
| 生态成熟度 | 60% |
坦诚的判断:
- 910C 能用,但生态仍在追赶
- 国产模型(Qwen、DeepSeek)在 910C 上跑得最稳
- 海外模型(Llama 4)适配可能有坑
- 央国企、政企、金融场景:910C 是合理选择
- 互联网创业公司:仍以 H100 / H200 为主
四、性能横评:相同任务不同卡
4.1 推理吞吐对比
测试:Llama-3-70B INT8,prompt 2K,生成 512,batch=16:
| 配置 | 总吞吐 (tokens/s) | 单卡显存利用 |
|---|---|---|
| 1 × H100 80G | 不够装 | OOM |
| 2 × A100 80G | 1450 | 75% |
| 2 × H100 80G | 2800 | 80% |
| 2 × H200 141G | 3100 | 50% |
| 1 × B200 192G | 3800 | 65% |
| 2 × 910C 128G | 2300 | 60% |
| 4 × RTX 4090(无 NVLink) | 880 | 95% |
| 4 × RTX 5090(无 NVLink) | 1400 | 90% |
关键观察:
- H100 是 A100 的 ~2× 吞吐
- B200 单卡 ≈ 2.5 × H100
- 910C 约 H100 的 80%
- 4090 多卡因没 NVLink 几乎不能 TP
4.2 训练吞吐对比
70B 模型预训练(千 token / GPU / 秒):
| 卡 | tokens/s/GPU |
|---|---|
| A100 80G | 1200 |
| H100 SXM | 2800 |
| H200 | 2900(IO 受益) |
| B200 | 6500 |
| 910C | 2200 |
4.3 单位算力价格(“每 TFLOPS 元”)
| 卡 | 单价 | FP16 TFLOPS | 元/TFLOPS |
|---|---|---|---|
| A100 80G(二手) | 80K | 312 | 256 |
| H100 SXM | 250K | 989 | 253 ⭐ |
| H200 | 320K | 989 | 323 |
| B200 | 450K | 2250 | 200 ⭐ |
| RTX 4090 | 13K | 83 | 157 ⭐⭐ |
| RTX 5090 | 18K | 125 | 144 ⭐⭐ |
| 910C | 220K | 700 | 314 |
结论:
- 消费卡单位算力最便宜——但你买不到 NVLink
- B200 在数据中心卡里最优——算力翻倍价格不到 2 倍
- H100 仍是综合最稳的选择——价格、生态、可获得性平衡
4.4 TCO(总拥有成本)三年视角
按 3 年折旧 + 电费 + 运维:
| 配置 | 采购 | 3 年电费 | 运维 | TCO |
|---|---|---|---|---|
| 8 × H100 SXM | ¥2M | ¥250K | ¥150K | ¥2.4M |
| 8 × H200 | ¥2.56M | ¥250K | ¥150K | ¥2.96M |
| 8 × B200 | ¥3.6M | ¥360K | ¥150K | ¥4.11M(但能力 ≈ 2× H100) |
| 8 × 910C | ¥1.76M | ¥250K | ¥200K | ¥2.21M |
| 8 × RTX 4090 工作站 | ¥104K + ¥200K(主机) | ¥160K | ¥80K | ¥544K |
结论:
- 大规模商用:H100 / H200 综合最优
- 政企合规:910C 性价比有竞争力
- 个人 / 研究:消费卡 + 妥协 TP
五、按场景选型
5.1 训练场景
| 模型规模 | 推荐配置 |
|---|---|
| < 13B 微调 | 1-2 × H100 或 4 × RTX 4090 |
| 30B 微调 | 4-8 × H100 |
| 70B 微调(QLoRA) | 1 × H100 |
| 70B 微调(全参) | 8 × H100 起 |
| 70B 预训练 | 64+ × H100 集群 |
| 405B / 671B 预训练 | 千卡 H100/B200 集群 |
5.2 推理场景(生产级)
按业务规模:
| 业务规模 | 推荐 |
|---|---|
| 小流量 ToC(QPS < 10) | 2 × H100 PCIe 即可 |
| 中流量 ToB | 4-8 × H100 SXM |
| 大流量 ToC(QPS 1000+) | H100 × N 多副本 / 加 B200 |
| 超大流量(QPS 10000+) | B200 + TensorRT-LLM |
| 长上下文专用 | H200 / B200(显存优势) |
| 国企 / 政企 | 910C |
5.3 微调场景
按团队预算:
| 预算 | 推荐方案 |
|---|---|
| < 10 万 | 云租赁 H100(按小时) |
| 10-50 万 | 1 × H100 工作站 / 2 × RTX 6000 Ada |
| 50-200 万 | 4-8 × H100 服务器 |
| 200 万+ | 16 卡 H100 自有集群 |
5.4 端侧 / 个人
| 场景 | 推荐 |
|---|---|
| Mac 用户 | M3 Max / M4 Max 64GB |
| Windows 个人 | RTX 4090 / 5090 |
| 移动 / 嵌入式 | 端侧 SoC(高通 8 Gen 4 / 苹果 A18 Pro) |
| 笔记本 | 高性能游戏本 RTX 4090 mobile |
六、租 vs 买:决策框架
6.1 自购 GPU 适合什么场景
✓ 长期稳定业务(> 2 年)
✓ 数据合规要求高
✓ 团队有运维能力
✓ 一次性预算充足
6.2 云租赁适合什么场景
✓ 业务波动大(活动期暴增)
✓ 短期试错(< 6 个月)
✓ 跨地域 / 跨可用区
✓ 不想自建机房
6.3 主流云 GPU 价格(按小时)
国际:
| 厂商 | H100 SXM | H100 PCIe | A100 |
|---|---|---|---|
| AWS p5.48xlarge | $98.32(8 卡) | - | - |
| Azure ND H100 v5 | $98.32(8 卡) | - | - |
| GCP a3-highgpu | $88.50(8 卡) | - | - |
国内:
| 厂商 | H100 (¥/卡/小时) | A100 (¥/卡/小时) |
|---|---|---|
| 阿里云 | ~¥45 | ~¥25 |
| 腾讯云 | ~¥42 | ~¥23 |
| 火山引擎 | ~¥40 | ~¥22 |
| 华为云(910C) | ~¥30 | - |
第三方租赁平台(更便宜):
| 平台 | H100 价格 | 备注 |
|---|---|---|
| Lambda Labs | $2.49/小时 | 美国,长期合约 |
| Vast.ai | $1.50-3/小时 | 全球,质量参差 |
| RunPod | $2.69/小时 | 美国,社区点评好 |
| 国内 AutoDL | ~¥10/小时(A100) | 易用,按秒计费 |
6.4 决策公式
自购回本周期:
回本月数 = 采购单价 / (月租费用 - 月电费 - 月维护)
举例:1 张 H100,单价 ¥250K
云租 ¥45/小时 × 24 × 30 = ¥32.4K/月
自购电费 + 折旧 + 维护 ≈ ¥5K/月
回本:250K / (32.4K - 5K) ≈ 9 个月
结论:
- 使用率 > 50% 且周期 > 1 年:自购更划算
- 使用率 < 30% 或周期 < 6 月:租云更划算
- 混合模式:基线自购 + 高峰云租,最常见的工业实践
6.5 二手 GPU 市场
2026 年 H100 二手市场已经很活跃:
| 来源 | 风险 | 价格 |
|---|---|---|
| 大厂淘汰 | 中(有保修但可能水卡) | 8 折 |
| 矿卡转售 | 高(功耗损耗) | 6-7 折 |
| 库存 | 低 | 9.5 折 |
| 渠道 / 灰色 | 极高(可能锁卡) | 6 折 |
建议:
- 二手只在「成本极限敏感 + 风险可控」场景考虑
- 必须有压力测试 + 退换条款
- 大型集群尽量买全新带保修
七、采购建议 + 下一篇预告
7.1 2026 年中最实用的采购组合
给不同团队的推荐:
创业团队(< 100 人)
开发:2-4 × RTX 5090 工作站
微调 / 内测:租云 H100 按需
生产:1-2 套 8 卡 H100 服务器
中型公司(100-500 人)
研究 / 训练:32-64 张 H100 自有集群
生产推理:H100 / H200 多副本
端侧验证:M3 Max Mac
大厂
训练大集群:万卡 H100/B200 + IB
推理:H100 / H200 / B200 混部
长期:B200 / B300 替换 + GB200 NVL72
央国企 / 政府
合规优先:910C / 海光 DCU
混合:910C + 部分 H100(重要场景)
7.2 选型决策清单
下单前必问的 8 个问题:
- 模型规模和精度?(决定显存)
- 是单卡推理还是多卡 TP?(决定 NVLink 需求)
- 上下文长度多少?(决定 KV Cache,可能要 H200)
- 训练还是推理为主?(决定带宽 vs 算力权重)
- 团队有运维能力吗?(决定自购 vs 云)
- 周期多长?(决定回本判断)
- 数据合规要求?(决定能否上云)
- 国产化要求?(决定 NVIDIA vs 910C)
7.3 不要踩的 6 个坑
坑 1:忽视互联
症状:买了 8 张 GPU 跑 TP,性能只有官方报告 40%。
对策:买 SXM / NVLink 版本,不要买 PCIe 强行 TP。
坑 2:显存不够选错代
症状:H100 80G 跑不动 1M 上下文 70B。
对策:长上下文优先 H200(141G)/ B200(192G)。
坑 3:忘了功耗
症状:8 张 H100 SXM = 5.6kW,机房供电 / 散热 / UPS 都要升级。
对策:提前算总功耗,配套机房改造。
坑 4:消费卡跑生产
症状:4090 集群上线 ToC 业务,三天烧坏 2 张。
对策:消费卡不适合 7×24 高负载,生产环境用专业卡。
坑 5:低估软件成本
症状:910C 买回来发现 vLLM 不能直接跑。
对策:选型时把"软件适配工时"算入成本。
坑 6:忽视折旧节奏
症状:刚买的 H100,半年后 H200 + B200 上市,价格腰斩。
对策:评估代际更替节奏,重要场景用最新代。
7.4 下一篇预告
- 第 22 篇:集群运维 - 监控、调度、容灾全攻略 —— 你买了 / 租了 GPU 集群,怎么把它稳定运转起来?我们会讲清楚 GPU 监控、故障检测、训练 checkpoint 容错、推理服务高可用全套实践。
- 之后是模型权重管理(23 篇)、显存优化(24 篇)、TCO 测算(25 篇)。
结语:硬件选型是大模型工程的「定盘星」
读完本文你应该明白:
- H100 / H200 是 2026 年的主力卡——B200 在追赶
- 国产 910C 已经可用——尤其在政企场景
- 消费卡不能做大规模 TP——4090 / 5090 无 NVLink 是硬伤
- 使用率 > 50% 自购划算,否则租云
- B200 单位算力性价比最优——但供货是问题
- 选型决策 8 大问题 + 6 大坑要逐一排查
下一篇我们继续:
- 第 22 篇:集群运维 - 监控、调度、容灾全攻略 —— 硬件买来只是开始,让它 7×24 稳定服务才是真本事。
我们下篇见。
📮 关于「码海寻道」
这里是一个聚焦 AI 工程化、大模型部署、后端架构实战的技术专栏。
写最一线的踩坑经验,做最务实的技术拆解。如果这篇文章对你有启发,欢迎点赞、转发、关注。我们下篇见。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐


所有评论(0)