TPU(张量处理器)深度分析报告
TPU(张量处理器)深度分析报告
撰写时间:2026年6月2日
作者:taohuaracing
数据来源:中新社上海、IT之家、电子发烧友、CSDN、雷锋网等
一、TPU 是什么
TPU(Tensor Processing Unit,张量处理器) 是谷歌于 2015 年首次推出的、专为人工智能张量运算打造的专用集成电路(ASIC) 芯片。
TPU vs GPU 核心差异
| 维度 | GPU | TPU |
|---|---|---|
| 设计初衷 | 图形图像渲染 | AI 张量运算 |
| 架构 | SM 多线程并行 | 脉动阵列(Systolic Array) |
| 算力利用率 | 较低,存在冗余 | 高度贴合 AI 计算,利用率高 |
| 功耗 | 随算力需求指数增长(“功耗墙”) | 同算力下功耗远低于 GPU |
| 生态 | CUDA 生态,成熟但封闭 | TensorFlow/PyTorch,生态在成长 |
| 灵活性 | 通用计算,灵活度高 | 专为 AI 设计,灵活性受限 |
| 适用场景 | 通用计算 + AI 训推 | AI 训练与推理(尤其大模型) |
为什么 TPU 现在火了?
- GPU "功耗墙"问题凸显 —— 大模型算力需求爆增,GPU 功耗指数级增长,数据中心电费成为瓶颈
- AI 模型走向专用化 —— 大模型进入产业落地阶段,需要定制化的算力方案
- Meta × Google 数十亿美元合作 —— Meta 弃用纯 GPU 方案,与谷歌达成 TPU 架构芯片合作,成为行业标志性事件
- 国产替代需求 —— 国产 GPU 差距大,TPU 路线被认为是弯道超车的最佳机会
二、国际篇:Google TPU 路线
2.1 TPU 演进史
| 代际 | 发布年份 | 关键特性 | 制程 | 代表应用 |
|---|---|---|---|---|
| TPU v1 | 2015 | INT8 精度,仅推理 | 28nm | AlphaGo、RankBrain |
| TPU v2 | 2017 | 支持训练 + 浮点运算 | — | Google Cloud |
| TPU v3 | 2018 | 更大内存 + 更宽互联带宽 | — | PaLM 早期训练 |
| TPU v4 | 2021 | 算力 v3 的 2.7 倍,液冷,4096 芯片互联 | 7nm | PaLM |
| TPU v5 | 2023 | 性能/能效大幅提升 | — | Gemini |
| TPU v5e | 2023 | 性价比优化版本 | — | 中小规模部署 |
| TPU Trillium (v6) | 2024 | 台积电 3~4nm,博通设计 | 3~4nm | — |
| TPU Ironwood (v7) | 2026 | 专为推理设计,FP8 支持 | — | 生成式 AI 推理 |
2.2 Google TPU Ironwood —— 新一代旗舰
发布时间: 2026年 Google Cloud Next 大会
定位: 谷歌首款专门为 AI 推理设计的 TPU,面向"大规模思考与推理"AI 模型
🔧 核心参数
| 指标 | Ironwood | 相比 Trillium (v6) |
|---|---|---|
| 每瓦性能 | — | 2倍 |
| 能效(vs 首代云 TPU) | — | 近 30倍 |
| HBM 内存 | 192GB | 6倍 |
| HBM 带宽 | 7.2 TB/s | 4.5倍 |
| 芯片间互联 ICI 带宽 | 1.2 TB/s | 1.5倍 |
| 最大集群规模 | 9,216 芯片(液冷) | — |
| Pod 总算力 | 42.5 Exaflops | — |
| 单 Pod 功耗 | 约 10 MW | — |
🆕 关键技术创新
- FP8 浮点格式支持 —— TPU 首次支持 FP8,AI 训练吞吐量翻倍,性能比 BF16 提升 10 倍
- 增强版 SparseCore —— 专用加速器,处理超大嵌入任务,应用扩展至金融、科学领域
- 液冷方案 —— 确保 9,216 芯片集群在高负载下持续高性能
- 系统架构升级 —— 256 芯片 + 9,216 芯片两种 Pod 配置
🎯 战略意义
谷歌表示:AI 正从"响应式"向**"主动式"范式转变**。未来的 AI 代理将能主动检索数据、生成深度见解,而非仅仅输出原始结果。Ironwood 就是为这个时代打造的计算基石。
2.3 Meta × Google 数十亿美元合作
根据华尔街消息,Meta 已与谷歌达成 TPU 架构 AI 芯片合作协议,总金额达数十亿美元。Meta 计划在未来数年全面拥抱 TPU 架构,在智算中心角力和多模态大模型训推方面抢占先机。
合作背景:
- 英伟达 GPU 的"功耗墙"已影响到 AI 芯片的进一步发展
- Meta 需要摆脱对单一供应商(NVIDIA)的依赖
- TPU 的高能效意味着更低的总拥有成本(TCO)
2.4 国际竞争格局
| 玩家 | 方案 | 优势 | 劣势 |
|---|---|---|---|
| TPU(自研) | 与 TensorFlow 深度集成,云原生 | 仅限 Google Cloud 使用 | |
| NVIDIA | GPU(通用) | CUDA 生态最强,通用性好 | 功耗高,"功耗墙"问题 |
| AMD | GPU(通用) | ROCm 生态追赶 | 生态成熟度不及 NVIDIA |
| Intel | GPU/ASIC | Habana Labs Gaudi | 市场份额小 |
| Amazon | Trainium/Inferentia | 深度集成 AWS | 仅限 AWS |
| Microsoft | Maia 100(自研) | Azure 集成 | 刚起步 |
| Meta | MTIA(自研)+ TPU合作 | 开源生态 | 自研进度慢,转向合作 |
三、国内篇:国产 TPU 崛起
3.1 整体格局:三条路线并行
中国 AI 芯片市场呈现 GPU、ASIC、TPU 三条路线并行 的格局:
🔴 GPU 路线(通用计算 + 图形渲染)
| 公司 | 代表产品 | 进展 |
|---|---|---|
| 摩尔线程 | MTT 系列 | 产品持续迭代 |
| 沐曦 | MetaX 系列 | 面向云端推理 |
| 壁仞科技 | BR 系列 | 高性能通用 GPU |
特点: 对标 NVIDIA,主攻通用计算 + 图形渲染,但生态差距大。
🟢 ASIC 路线(已规模化落地)
| 公司 | 代表产品 | 进展 |
|---|---|---|
| 华为昇腾 | 昇腾 910、910C、950、990(规划) | 从硬件到框架完整生态 |
| 寒武纪 | 思元系列 | 云端智能计算落地经验丰富 |
| 百度昆仑芯 | 昆仑芯 1/2/3 | 搜索等自有业务大规模部署 |
特点: 专用化程度高,已形成规模效应,华为昇腾最为完整。
🟡 TPU 路线(新兴赛道)
| 公司 | 定位 | 进展 |
|---|---|---|
| 中昊芯英 | TPU 全栈自研 | 已量产,适配 DeepSeek 等主流模型 |
| 万协通 | 可重构 TPU | 获"中国芯"优秀技术创新产品奖 |
特点: 新兴赛道,聚焦大模型训推优化,被寄予厚望。
3.2 中昊芯英 —— 国产 TPU 全栈自研先行者
公司背景: 国内较早专注 TPU 全栈自研赛道的企业,创始人杨龚轶凡。
技术路线:
- 完全自主:指令架构、片上与片间网络、所有数字逻辑 IP 都是从 0 到 1 自主构建
- 零外部依赖:没有使用任何外部 IP 授权
关键进展:
- 已完成从架构设计 → 流片量产 → 软件生态 的全链条突破
- TPU 芯片已实现规模化量产
- 在相同功耗、制程与面积条件下,主流大模型训推场景具备显著性能优势
软件生态适配:
- 已稳定支持:DeepSeek、智谱、通义千问 等国内主流大模型
- 兼容主流深度学习框架
- 核心理念:GPU 生态需支持上万种算子,TPU 仅需 三百余个核心算子,适配难度大幅降低
创始人杨龚轶凡的核心判断:
“传统 GPU 架构对大模型高并发场景支持存在冗余,芯片实际利用率不理想。我们需要面向大模型做定制化的 DSA 架构,而 TPU 正是业界公认的主流方向之一。”
战略规划(“芯模联动”):
- 与大模型厂商、算法团队深度协同
- 打造从芯片到模型的端到端优化方案
- 目标:把大模型落地成本降下来,让 AI 真正成为各行业核心生产力
3.3 万协通 —— 可重构 TPU 芯片
公司背景: 广州万协通信息技术股份有限公司,定位国产可重构 TPU 先行者。
💡 核心技术:可重构 TPU 架构
万协通自主研发了可重构原子级运算单元动态配置技术,在 TPU 底层架构层面实现了:
- 动态重构:以"搭积木"方式满足不同 AI 模型的多样化计算需求
- 算力随需而变:张量运算微秒级重构
- 突破硬件固化约束:从根本上解决传统 ASIC 芯片灵活性低的痛点
技术演进路径:
标量运算 → 域运算 → 伽罗瓦群运算 → 空间维度运算 → 张量运算
架构特色:
- 脉动流水线式并行计算框架
- 特别适合 AI 大模型数据张量运算特征
- 计算资源可实时重组配置
🏆 成就
- 获 第二十届"中国芯"优秀技术创新产品奖
- 填补了国产可重构 TPU 技术空白
- 既是高效能(TPU 基线优势),又是高灵活(可重构突破)
未来规划
总经理王礼宇表示:
- 深度融入国家"十五五"人工智能发展战略
- 以可重构 TPU 技术打造 AI 硬件底座
- 以行业垂直应用推动 AI 产业化落地
- 聚焦破解"内存墙""功耗墙"等行业关键瓶颈
3.4 华为昇腾 —— 国产 AI 芯片的"大象"
虽然华为昇腾走的是 ASIC 路线而非纯 TPU,但却是国产 AI 芯片最重要的力量。
产品矩阵:
- 昇腾 910C(2025)—— 当前主力
- 昇腾 950(2026)—— 即将推出
- 昇腾 990(~2030)—— 规划中,将引入 LogicFolding(逻辑折叠)技术
韬定律 × AI 芯片:
华为何庭波提出的"韬(τ)定律"虽主要面向手机 SoC(麒麟系列),但也为昇腾系列指明了方向:
- 昇腾 990 预计在 2030 年左右引入 LogicFolding
- 硬件集成预计到 2035 年提升 100 倍以上
- 不依赖新光刻工艺,通过3D 封装 + 逻辑折叠实现持续性能提升
华为徐直军的判断:
“感谢美国制裁,使得我们国家半导体产业链能够真正地成长起来,现在势头好得很。”
3.5 国产算力生态全景图
┌─────────────────────────────┐
│ AI 大模型推理/训练 │
└──────┬──────────────────────┘
│
┌───────────┼────────────┐
▼ ▼ ▼
┌──────┐ ┌─────────┐ ┌────────┐
│ GPU │ │ ASIC │ │ TPU │
│路线 │ │ 路线 │ │ 路线 │
├──────┤ ├─────────┤ ├────────┤
│摩尔线程│ │华为昇腾 │ │中昊芯英│
│沐曦 │ │寒武纪 │ │万协通 │
│壁仞 │ │百度昆仑芯│ │ │
└──────┘ └─────────┘ └────────┘
│
▼
┌──────────────┐
│ 存储芯片底座 │
├──────────────┤
│长江存储(3D NAND)│
│长鑫存储(DRAM) │
└──────────────┘
存储芯片进展(重要基础):
- 长江存储:国内唯一 NAND 闪存原厂,已实现 294 层 3D NAND 量产,核心指标跻身全球第一梯队
- 长鑫存储:DRAM 领域持续攻关,已量产 DDR4/LPDDR4X/DDR5 多款产品,逐步缩小国际差距
四、趋势与展望
4.1 为什么说 TPU 是未来方向?
- 算力需求结构变了 —— 从通用计算转向 AI 专用计算
- "功耗墙"不可回避 —— GPU 的指数级功耗增长不可持续
- 大模型需要定制化 —— 每个大厂的模型都在走差异化路线
- 供应链安全 —— 各国都在寻找 NVIDIA 的替代方案
4.2 国际趋势
- Google 一骑绝尘 —— Ironwood 将 TPU 推向新高度,9,216 芯片集群 + 42.5 Exaflops 堪称恐怖
- Meta 倒向 TPU —— 数十亿美元合作是重要信号
- NVIDIA 面临挑战 —— Blackwell 虽强,但功耗问题日益突出
- 超大规模云厂商全面自研 —— AWS Trainium、Azure Maia、Google TPU,全在造自己的芯片
4.3 国内挑战
| 挑战 | 说明 |
|---|---|
| 🏭 制程受限 | 先进制程被卡,需靠架构创新弥补 |
| 🔗 生态差距 | CUDA 生态的壁垒短期内难以逾越 |
| 🏗️ 规模化验证 | 国产 TPU 刚起步,缺乏大规模部署验证 |
| 🔬 人才缺口 | 专用芯片设计人才稀缺 |
| 💰 资本压力 | AI 芯片烧钱,需要持续资金支持 |
4.4 国内机遇
- "韬定律"打开新思路 —— 华为证明不靠先进制程也能实现性能跃升
- 市场足够大 —— 中国大模型市场正在爆发,算力需求旺盛
- 政策支持 —— "十五五"规划明确支持 AI 芯片自主可控
- 差异化竞争 —— 中昊芯英的全栈自研、万协通的可重构,都是独特路径
- 时间段窗口 —— 3-5 年黄金期,有机会建立技术壁垒
4.5 关键时间线
| 时间 | 事件 |
|---|---|
| 2025 年 | 华为昇腾 910C |
| 2026 年 | Google Ironwood 上市;华为昇腾 950;国产 TPU 步入产业化落地期 |
| 2027 年 | 华为麒麟 2027(Silicon 状态,已有实质进展) |
| 2028-2029 | 麒麟 2028/2029(Pre-silicon) |
| ~2030 年 | 昇腾 990 引入 LogicFolding;麒麟密度达 1.4nm 同等水平 |
| ~2035 年 | 麒麟密度 400 MTr/mm²+,CPU 频率 4GHz+;AI 加速器性能提升 100 倍+ |
五、总结
TPU 正处于从"谷歌的独门武器"向"行业主流选择"转变的关键节点。
国际层面,Google Ironwood 的性能跃升和 Meta 的倒戈标志着一个转折点——TPU 路线正在从 GPU 垄断中撕开一道口子。
国内层面,中昊芯英的全栈自研和万协通的可重构技术,分别在"高性能"和"高灵活"两个维度验证了国产 TPU 路线的可行性。搭配华为昇腾的 ASIC 路线和麒麟的韬定律探索,中国 AI 芯片正在形成一个多路线并行、差异化竞争的健康格局。
“当行业进入规模化落地期,大家关心的不再只是芯片好不好用,而是业务的经济效率能不能得到保障。”——杨龚轶凡(中昊芯英创始人)
“GPU 生态需要支持上万种算子,而面向大模型优化的 TPU 仅需适配三百余个核心算子。”——杨龚轶凡
国产 TPU 的未来 3-5 年,是决定能否从"追赶者"变为"并行参与者"的关键窗口期。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐



所有评论(0)