TPU（张量处理器）深度分析报告

taohuaracing

369人浏览 · 2026-06-02 20:55:12

taohuaracing · 2026-06-02 20:55:12 发布

TPU（张量处理器）深度分析报告

撰写时间：2026年6月2日
作者：taohuaracing
数据来源：中新社上海、IT之家、电子发烧友、CSDN、雷锋网等

一、TPU 是什么

TPU（Tensor Processing Unit，张量处理器） 是谷歌于 2015 年首次推出的、专为人工智能张量运算打造的专用集成电路（ASIC） 芯片。

TPU vs GPU 核心差异

维度	GPU	TPU
设计初衷	图形图像渲染	AI 张量运算
架构	SM 多线程并行	脉动阵列（Systolic Array）
算力利用率	较低，存在冗余	高度贴合 AI 计算，利用率高
功耗	随算力需求指数增长（“功耗墙”）	同算力下功耗远低于 GPU
生态	CUDA 生态，成熟但封闭	TensorFlow/PyTorch，生态在成长
灵活性	通用计算，灵活度高	专为 AI 设计，灵活性受限
适用场景	通用计算 + AI 训推	AI 训练与推理（尤其大模型）

为什么 TPU 现在火了？

GPU "功耗墙"问题凸显 —— 大模型算力需求爆增，GPU 功耗指数级增长，数据中心电费成为瓶颈
AI 模型走向专用化 —— 大模型进入产业落地阶段，需要定制化的算力方案
Meta × Google 数十亿美元合作 —— Meta 弃用纯 GPU 方案，与谷歌达成 TPU 架构芯片合作，成为行业标志性事件
国产替代需求 —— 国产 GPU 差距大，TPU 路线被认为是弯道超车的最佳机会

二、国际篇：Google TPU 路线

2.1 TPU 演进史

代际	发布年份	关键特性	制程	代表应用
TPU v1	2015	INT8 精度，仅推理	28nm	AlphaGo、RankBrain
TPU v2	2017	支持训练 + 浮点运算	—	Google Cloud
TPU v3	2018	更大内存 + 更宽互联带宽	—	PaLM 早期训练
TPU v4	2021	算力 v3 的 2.7 倍，液冷，4096 芯片互联	7nm	PaLM
TPU v5	2023	性能/能效大幅提升	—	Gemini
TPU v5e	2023	性价比优化版本	—	中小规模部署
TPU Trillium (v6)	2024	台积电 3~4nm，博通设计	3~4nm	—
TPU Ironwood (v7)	2026	专为推理设计，FP8 支持	—	生成式 AI 推理

2.2 Google TPU Ironwood —— 新一代旗舰

发布时间： 2026年 Google Cloud Next 大会

定位： 谷歌首款专门为 AI 推理设计的 TPU，面向"大规模思考与推理"AI 模型

🔧 核心参数

指标	Ironwood	相比 Trillium (v6)
每瓦性能	—	2倍
能效（vs 首代云 TPU）	—	近 30倍
HBM 内存	192GB	6倍
HBM 带宽	7.2 TB/s	4.5倍
芯片间互联 ICI 带宽	1.2 TB/s	1.5倍
最大集群规模	9,216 芯片（液冷）	—
Pod 总算力	42.5 Exaflops	—
单 Pod 功耗	约 10 MW	—

🆕 关键技术创新

FP8 浮点格式支持 —— TPU 首次支持 FP8，AI 训练吞吐量翻倍，性能比 BF16 提升 10 倍
增强版 SparseCore —— 专用加速器，处理超大嵌入任务，应用扩展至金融、科学领域
液冷方案 —— 确保 9,216 芯片集群在高负载下持续高性能
系统架构升级 —— 256 芯片 + 9,216 芯片两种 Pod 配置

🎯 战略意义

谷歌表示：AI 正从"响应式"向**"主动式"范式转变**。未来的 AI 代理将能主动检索数据、生成深度见解，而非仅仅输出原始结果。Ironwood 就是为这个时代打造的计算基石。

2.3 Meta × Google 数十亿美元合作

根据华尔街消息，Meta 已与谷歌达成 TPU 架构 AI 芯片合作协议，总金额达数十亿美元。Meta 计划在未来数年全面拥抱 TPU 架构，在智算中心角力和多模态大模型训推方面抢占先机。

合作背景：

英伟达 GPU 的"功耗墙"已影响到 AI 芯片的进一步发展
Meta 需要摆脱对单一供应商（NVIDIA）的依赖
TPU 的高能效意味着更低的总拥有成本（TCO）

2.4 国际竞争格局

玩家	方案	优势	劣势
Google	TPU（自研）	与 TensorFlow 深度集成，云原生	仅限 Google Cloud 使用
NVIDIA	GPU（通用）	CUDA 生态最强，通用性好	功耗高，"功耗墙"问题
AMD	GPU（通用）	ROCm 生态追赶	生态成熟度不及 NVIDIA
Intel	GPU/ASIC	Habana Labs Gaudi	市场份额小
Amazon	Trainium/Inferentia	深度集成 AWS	仅限 AWS
Microsoft	Maia 100（自研）	Azure 集成	刚起步
Meta	MTIA（自研）+ TPU合作	开源生态	自研进度慢，转向合作

三、国内篇：国产 TPU 崛起

3.1 整体格局：三条路线并行

中国 AI 芯片市场呈现 GPU、ASIC、TPU 三条路线并行 的格局：

🔴 GPU 路线（通用计算 + 图形渲染）

公司	代表产品	进展
摩尔线程	MTT 系列	产品持续迭代
沐曦	MetaX 系列	面向云端推理
壁仞科技	BR 系列	高性能通用 GPU

特点： 对标 NVIDIA，主攻通用计算 + 图形渲染，但生态差距大。

🟢 ASIC 路线（已规模化落地）

公司	代表产品	进展
华为昇腾	昇腾 910、910C、950、990（规划）	从硬件到框架完整生态
寒武纪	思元系列	云端智能计算落地经验丰富
百度昆仑芯	昆仑芯 1/2/3	搜索等自有业务大规模部署

特点： 专用化程度高，已形成规模效应，华为昇腾最为完整。

🟡 TPU 路线（新兴赛道）

公司	定位	进展
中昊芯英	TPU 全栈自研	已量产，适配 DeepSeek 等主流模型
万协通	可重构 TPU	获"中国芯"优秀技术创新产品奖

特点： 新兴赛道，聚焦大模型训推优化，被寄予厚望。

3.2 中昊芯英 —— 国产 TPU 全栈自研先行者

公司背景： 国内较早专注 TPU 全栈自研赛道的企业，创始人杨龚轶凡。

技术路线：

完全自主：指令架构、片上与片间网络、所有数字逻辑 IP 都是从 0 到 1 自主构建
零外部依赖：没有使用任何外部 IP 授权

关键进展：

已完成从架构设计 → 流片量产 → 软件生态 的全链条突破
TPU 芯片已实现规模化量产
在相同功耗、制程与面积条件下，主流大模型训推场景具备显著性能优势

软件生态适配：

已稳定支持：DeepSeek、智谱、通义千问 等国内主流大模型
兼容主流深度学习框架
核心理念：GPU 生态需支持上万种算子，TPU 仅需 三百余个核心算子，适配难度大幅降低

创始人杨龚轶凡的核心判断：

“传统 GPU 架构对大模型高并发场景支持存在冗余，芯片实际利用率不理想。我们需要面向大模型做定制化的 DSA 架构，而 TPU 正是业界公认的主流方向之一。”

战略规划（“芯模联动”）：

与大模型厂商、算法团队深度协同
打造从芯片到模型的端到端优化方案
目标：把大模型落地成本降下来，让 AI 真正成为各行业核心生产力

3.3 万协通 —— 可重构 TPU 芯片

公司背景： 广州万协通信息技术股份有限公司，定位国产可重构 TPU 先行者。

💡 核心技术：可重构 TPU 架构

万协通自主研发了可重构原子级运算单元动态配置技术，在 TPU 底层架构层面实现了：

动态重构：以"搭积木"方式满足不同 AI 模型的多样化计算需求
算力随需而变：张量运算微秒级重构
突破硬件固化约束：从根本上解决传统 ASIC 芯片灵活性低的痛点

技术演进路径：
标量运算 → 域运算 → 伽罗瓦群运算 → 空间维度运算 → 张量运算

架构特色：

脉动流水线式并行计算框架
特别适合 AI 大模型数据张量运算特征
计算资源可实时重组配置

🏆 成就

获 第二十届"中国芯"优秀技术创新产品奖
填补了国产可重构 TPU 技术空白
既是高效能（TPU 基线优势），又是高灵活（可重构突破）

未来规划

总经理王礼宇表示：

深度融入国家"十五五"人工智能发展战略
以可重构 TPU 技术打造 AI 硬件底座
以行业垂直应用推动 AI 产业化落地
聚焦破解"内存墙""功耗墙"等行业关键瓶颈

3.4 华为昇腾 —— 国产 AI 芯片的"大象"

虽然华为昇腾走的是 ASIC 路线而非纯 TPU，但却是国产 AI 芯片最重要的力量。

产品矩阵：

昇腾 910C（2025）—— 当前主力
昇腾 950（2026）—— 即将推出
昇腾 990（~2030）—— 规划中，将引入 LogicFolding（逻辑折叠）技术

韬定律 × AI 芯片：
华为何庭波提出的"韬（τ）定律"虽主要面向手机 SoC（麒麟系列），但也为昇腾系列指明了方向：

昇腾 990 预计在 2030 年左右引入 LogicFolding
硬件集成预计到 2035 年提升 100 倍以上
不依赖新光刻工艺，通过3D 封装 + 逻辑折叠实现持续性能提升

华为徐直军的判断：

“感谢美国制裁，使得我们国家半导体产业链能够真正地成长起来，现在势头好得很。”

3.5 国产算力生态全景图

             ┌─────────────────────────────┐
             │     AI 大模型推理/训练          │
             └──────┬──────────────────────┘
                    │
        ┌───────────┼────────────┐
        ▼           ▼            ▼
    ┌──────┐  ┌─────────┐  ┌────────┐
    │ GPU  │  │  ASIC   │  │  TPU   │
    │路线  │  │ 路线    │  │ 路线   │
    ├──────┤  ├─────────┤  ├────────┤
    │摩尔线程│  │华为昇腾  │  │中昊芯英│
    │沐曦   │  │寒武纪    │  │万协通  │
    │壁仞   │  │百度昆仑芯│  │       │
    └──────┘  └─────────┘  └────────┘
                    │
                    ▼
            ┌──────────────┐
            │ 存储芯片底座   │
            ├──────────────┤
            │长江存储(3D NAND)│
            │长鑫存储(DRAM)  │
            └──────────────┘

存储芯片进展（重要基础）：

长江存储：国内唯一 NAND 闪存原厂，已实现 294 层 3D NAND 量产，核心指标跻身全球第一梯队
长鑫存储：DRAM 领域持续攻关，已量产 DDR4/LPDDR4X/DDR5 多款产品，逐步缩小国际差距

四、趋势与展望

4.1 为什么说 TPU 是未来方向？

算力需求结构变了 —— 从通用计算转向 AI 专用计算
"功耗墙"不可回避 —— GPU 的指数级功耗增长不可持续
大模型需要定制化 —— 每个大厂的模型都在走差异化路线
供应链安全 —— 各国都在寻找 NVIDIA 的替代方案

4.2 国际趋势

Google 一骑绝尘 —— Ironwood 将 TPU 推向新高度，9,216 芯片集群 + 42.5 Exaflops 堪称恐怖
Meta 倒向 TPU —— 数十亿美元合作是重要信号
NVIDIA 面临挑战 —— Blackwell 虽强，但功耗问题日益突出
超大规模云厂商全面自研 —— AWS Trainium、Azure Maia、Google TPU，全在造自己的芯片

4.3 国内挑战

挑战	说明
🏭 制程受限	先进制程被卡，需靠架构创新弥补
🔗 生态差距	CUDA 生态的壁垒短期内难以逾越
🏗️ 规模化验证	国产 TPU 刚起步，缺乏大规模部署验证
🔬 人才缺口	专用芯片设计人才稀缺
💰 资本压力	AI 芯片烧钱，需要持续资金支持

4.4 国内机遇

"韬定律"打开新思路 —— 华为证明不靠先进制程也能实现性能跃升
市场足够大 —— 中国大模型市场正在爆发，算力需求旺盛
政策支持 —— "十五五"规划明确支持 AI 芯片自主可控
差异化竞争 —— 中昊芯英的全栈自研、万协通的可重构，都是独特路径
时间段窗口 —— 3-5 年黄金期，有机会建立技术壁垒

4.5 关键时间线

时间	事件
2025 年	华为昇腾 910C
2026 年	Google Ironwood 上市；华为昇腾 950；国产 TPU 步入产业化落地期
2027 年	华为麒麟 2027（Silicon 状态，已有实质进展）
2028-2029	麒麟 2028/2029（Pre-silicon）
~2030 年	昇腾 990 引入 LogicFolding；麒麟密度达 1.4nm 同等水平
~2035 年	麒麟密度 400 MTr/mm²+，CPU 频率 4GHz+；AI 加速器性能提升 100 倍+