HBM = High Bandwidth Memory(高带宽显存)

  • 一种用于 GPU、AI 加速器和高性能计算(HPC)的高速堆叠内存技术。
  • 比传统 GDDR 内存带宽更高、功耗更低。
  • 通过 TSV(硅通孔)实现多层 DRAM 堆叠。
  • 版本:HBM → HBM2 → HBM2E → HBM3 → HBM3E。
  • 常见于:NVIDIA H100、AMD MI300、TPU、AI ASIC 等。

使用 TSV(硅通孔)将多层 DRAM 垂直堆叠,并通过 超宽总线 与处理器(GPU/ASIC)相连,从而获得极高带宽、极低功耗的存储技术。

横向扩宽不如纵向堆叠更快。

与 GPU/AI 芯片的关系

HBM 通常通过 硅中介层 (Interposer) 与核心芯片绑定,一个 AI 芯片周围会放 4~12 颗 HBM 堆叠。

➡ 带宽由数据线数量决定,而不是频率
➡ HBM = 极宽的数据通道

为什么 HBM 对 AI 关键?

AI 的大模型训练/推理主要瓶颈是:

算力不是最紧缺的,
内存带宽才是最大瓶颈(Memory Wall)

⚠ GPU 有成千上万 ALU
如果数据喂不够快 → ALU 空转 → 浪费功耗和硬件

HBM 解决两大问题:
✅ 高带宽喂数据
✅ 低功耗减少发热

所以 AI GPU = 算力(Tensor Core) + HBM(数据血液)

HBM 技术代际进化

世代 带宽/堆叠(单颗) 容量(单颗) 上市时间 应用
HBM (Gen1) ~128 GB/s 1–4GB 2015 Fury X
HBM2 ~256 GB/s 4–8GB 2017 数据中心 GPU
HBM2E ~450 GB/s 8–16GB 2020 AI/HPC 主流
HBM3 ~819 GB/s 16–24GB 2023 H100
HBM3E ~1.2 TB/s 24–36GB 2024+ B200, MI300
➡ 每一代几乎都在 带宽翻倍

目前顶级 GPU 可支持 8~12 颗 HBM
→ 单卡带宽达到 6~10TB/s


🔋 对比 GDDR6X

项目 GDDR6X HBM3
架构 横向布局 TSV 堆叠
带宽 ~1 TB/s(整卡) >5 TB/s(整卡)
功耗 ✅更低
成本 ✅便宜 🔺超贵
PCB 难度 需要硅中介层(复杂)
应用 游戏显卡 AI/HPC/数据中心

游戏不如 AI 需要极端带宽,所以消费卡仍主要用 GDDR。


💰 为什么 HBM 很贵?

主要原因 3 个:

成本来源 为什么贵
TSV 堆叠工艺 良率低,难制造
硅中介层 占芯片面积大,扩展难
供应链垄断 SK hynix、三星、镁光三家主导

目前高端 AI 服务器总成本中
HBM 占到 > 50%

因此 HBM 已成全球 AI 产业的关键战略资源


📍 谁最依赖 HBM?

公司 产品 HBM 用量
NVIDIA H100, B200 AI核心
AMD MI300 HBM巨量堆叠
Google TPU v4/v5 训练加速
华为 昇腾910B 国产AI核心
特斯拉 Dojo D1 大规模训练

没 HBM = 没高性能 AI

(也就是:谁掌握 HBM,谁掌握 AI 供血能力


📌 总结一句话

特性 HBM 价值
带宽 ✅超高(AI 的生命线)
功耗 ✅低(HPC 效率关键)
成本 ❌高(贵到离谱)
制造难度 ❌极难(供应卡脖子)

HBM = AI 战争中的“石油”和“血液”

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐