🇨🇳 国产大模型生态:DeepSeek、Qwen与智谱的技术图谱

一句话速览:从DeepSeek R1震惊全球到V4全面转向华为昇腾,从Qwen 3.5登顶开源榜单到GLM-5开源上亿融资——2024-2026年,国产大模型经历了从"追赶者"到"并跑者"的关键转变。本文深入拆解八家主流国产大模型的技术架构与演进路线。


📑 目录


🏛️ 国产大模型全景:2026年八雄格局

2026年的国产大模型市场,形成了"四大互联网巨头 + 四大技术专精黑马"的稳定格局:

派系 公司 模型 定位 开源
🐋 量化基金系 深度求索 DeepSeek V4 极致技术、性价比之王
☁️ 阿里系 阿里巴巴 Qwen 3.5 最强开源生态
🎓 清华系 智谱AI GLM-5.1 逻辑推理、Agent
🐻 百度系 百度 ERNIE 5.0 合规最强、中文理解
🎵 字节系 字节跳动 豆包Seed 2.0 Pro 多模态、C端体验
📱 月之暗面 Moonshot Kimi K2.5 长上下文、文档
🎯 MiniMax MiniMax MiniMax 语音多模态
🐧 腾讯系 腾讯 混元 企业级、社交集成

🚀 DeepSeek:穷人的武器打赢富人的游戏

公司背景

DeepSeek(深度求索)由量化私募巨头幻方科技孵化,核心团队来自幻方量化。其最具传奇色彩的是——在资源远少于OpenAI和Google的情况下,通过架构创新和训练策略优化,达到了世界级水平。

技术演进路线

DeepSeek V2 (2024.05)
  └── 236B MoE + MLA(Multi-head Latent Attention)
      ↓
DeepSeek V3 (2024.12) ★ 里程碑
  └── 671B MoE + 无辅助损失负载均衡
      ↓
DeepSeek R1 (2025.01) ★ 震惊世界
  └── 671B + GRPO强化学习 + 推理能力涌现
      ↓
DeepSeek V3.1 → V3.2 (2025)
  └── 追平GPT-5 + 完全开源
      ↓
DeepSeek V4 (2026.04) ★ 全面超越
  └── 1.6T MoE + 384专家 + 全栈昇腾适配

DeepSeek V2(2024.05):MLA的诞生

核心创新:Multi-head Latent Attention(MLA)

MLA是DeepSeek对注意力机制的颠覆性改进

传统MHA的KV Cache:
  每个token需要存储 2 × n_heads × d_head 个值
  → 推理时KV Cache巨大,显存爆炸

MLA的核心思想:
  将Key和Value压缩到低维"潜在空间"
  推理时只缓存压缩后的潜在向量
  使用时再解压缩回完整维度

效果:
  KV Cache减少约87.5%
  推理吞吐量提升5倍+
  质量没有损失!
传统MHA注意力:
Q, K, V = [n_heads × d_head]
KV Cache: 存储全尺寸K和V → 大

MLA注意力:
Q, K, V = 从低维潜在向量 c 投影得到
c = W_down × [原始K, 原始V]  # 压缩
KV Cache: 只存储低维向量 c → 小得多
使用时: K' = W_up_k × c, V' = W_up_v × c

V2架构:236B总参数,21B激活参数,MoE架构。

DeepSeek V3(2024.12):开源界的核弹

671B总参数的MoE模型,以极低的训练成本达到了超越LLaMA 3 405B的性能:

维度 DeepSeek V3 LLaMA 3.1 405B GPT-4
总参数 671B 405B ~1.8T
激活参数 37B 405B ~280B
架构 MoE (256专家) 密集 MoE (8专家)
训练成本 $5.6M ~$50M+ ~$63M
上下文 128K 128K 128K

技术突破

  1. 无辅助损失负载均衡:MoE训练中不再需要额外的负载均衡loss,让模型自主学习专家分配
  2. Multi-Token Prediction:一次预测多个未来token,提升训练效率
  3. FP8混合精度训练:首次在超大规模MoE上成功使用FP8

DeepSeek R1(2025.01):推理Scaling Law的开源实现

R1是DeepSeek在推理能力上的突破,是与OpenAI o1对标的开源推理模型:

核心创新:GRPO(Group Relative Policy Optimization)

传统PPO:
  需要训练一个价值函数(Critic)模型
  训练过程复杂,资源消耗大

GRPO(Group Relative Policy Optimization):
  不需要Critic模型!
  对一个问题生成多个回答
  通过群体内的相对表现来估计优势
  实现更轻量级的强化学习

R1的训练流程

冷启动 → 推理导向RL → 拒绝采样 + SFT → 全场景RL
  ↓          ↓                ↓               ↓
收集少量    GRPO强化       用R1输出       对齐有用性
高质量     学习,提升      训练通用       和安全性
推理数据    推理能力        SFT模型

R1的成绩

  • AIME数学竞赛:79.8%(o1≈83%,GPT-4o≈12%)
  • MATH-500:97.3%(超越o1)
  • 训练成本:仅**$6M**(o1估计>100M)

DeepSeek V3.1 → V3.2(2025)

进一步优化,性能追平GPT-5和Gemini 3.0 Pro,并且全部开源。

DeepSeek V4(2026.04):全面超越

2026年4月24日发布的DeepSeek V4是一次重大的架构升级:

维度 V3 V4
总参数 671B 1.6T
专家数 256 384 + 2共享专家
激活参数 37B ~50B
路由策略 Top-K 动态Top-K
上下文 128K 1M
训练芯片 A100/H100 全栈昇腾910C
推理引擎 自研 FlashMLA

V4的三大突破

  1. 昇腾全参数训练:1000颗华为昇腾910C完成全参数训练,完全不依赖英伟达
  2. FlashMLA推理引擎:专为MLA优化的推理引擎,推理速度提升35倍
  3. 384+2专家架构:2个共享专家处理通用知识,384个路由专家处理专业任务

☁️ Qwen(通义千问):阿里开源生态的旗手

演进路线

Qwen 1.0 (2023.08) → Qwen 1.5 (2024.02) → Qwen 2.0 (2024.06)
  → Qwen 2.5 (2024.09) → Qwen 3.0 (2025) → Qwen 3.5 (2026)

Qwen 2.5

阿里最成功的版本之一,在开源社区广受欢迎:

规格 参数量 架构 特点
Qwen 2.5 0.5B 0.5B Dense 端侧
Qwen 2.5 1.5B 1.5B Dense 轻量级
Qwen 2.5 7B 7B Dense 对标LLaMA 3 8B
Qwen 2.5 14B 14B Dense 性能均衡
Qwen 2.5 32B 32B Dense 推理能力强
Qwen 2.5 72B 72B Dense 旗舰密集模型
Qwen 2.5 Max ~1T MoE 最强性能

Qwen 2.5的关键改进

  • 支持29种以上语言
  • 19万亿tokens训练
  • 128K上下文(通过YaRN扩展)
  • 代码、数学、多语言能力全面提升

Qwen 3.5(2026)

2026年最新的旗舰版本:

  • MoE架构延续,性能大幅提升
  • 在LMSYS榜单等基准测试中名列前茅
  • 继续开源策略,生态持续扩大
  • 与阿里云深度整合,通过百炼平台提供服务

🎓 GLM(智谱):清华系技术派的坚持

独特技术路线:GLM架构

智谱AI源于清华大学,是中国最早从事大模型研究的团队之一。与其他模型不同,GLM采用自研的通用语言模型(GLM)架构,而非直接移植LLaMA架构。

GLM架构的特点

GPT (Decoder-only): 从左到右生成
BERT (Encoder-only): 双向理解
T5 (Encoder-Decoder): 编码-解码

GLM (自回归填空):
  将文本中的一部分随机空白
  模型需要生成填充这些空白的内容
  同时实现了理解和生成能力

演进路线

GLM-130B (2022) → ChatGLM 6B (2023) → GLM-4 (2024.01)
  → GLM-4-Plus (2024) → GLM-5 (2026.02) → GLM-5.1 (2026)

GLM-5(2026.02)

2026年2月12日发布,智谱的旗舰开源模型:

维度 GLM-4 GLM-5
架构 GLM(自回归填空) GLM(自回归填空)
参数量 未公开 未公开
定位 通用对话 复杂系统工程 + 长程Agent
编程能力 基础 提升超20%
开源 ✅ 部分 完全开源
国产芯片适配 部分 昇腾、摩尔线程、寒武纪
上下文 128K 1M+

GLM-5的亮点

  • Agent能力突出:面向长周期智能体任务设计
  • 国产芯片全适配:华为昇腾、摩尔线程、寒武纪全部支持
  • 开源 + 商用:开源后股价一度大涨40%
  • GLM-5.1升级:在逻辑/推理/代码上进一步优化

智谱的技术特点

  1. 清华血脉:核心团队来自清华大学,学术研究驱动
  2. GLM自研架构:不走LLaMA路线,自主研发
  3. 开源最早:GLM-130B是亚洲首个千亿级开源模型
  4. Agent原生化:从架构层面支持Agent任务

🐻 文心ERNIE 5.0:百度的合规利器

公司背景

百度文心(ERNIE)是中国最早的大模型之一,最初以知识增强为核心特色。

演进路线

ERNIE 3.0 (2021) → ERNIE 4.0 (2023.10) → ERNIE 4.5 (2024) → ERNIE 5.0 (2025-2026)

ERNIE 5.0架构

维度 规格
参数量 ~1.8T MoE(旗舰版)
轻量版 ERNIE 5.1(小参数版)
训练芯片 A100/H100 + 昆仑芯3代 + 昇腾910B
核心优势 中文理解 + 合规最强
定位 企业级、政务级应用

独特优势

  1. 知识增强:利用百度搜索积累的知识图谱
  2. 合规最强:在内容安全、价值观对齐上投入最大
  3. 百度生态:深度整合搜索、文库、地图、Apollo等
  4. 开源态度:不开放(闭源),走商业化路线

🎵 豆包Seed 2.0:字节跳动的多模态王牌

公司背景

字节跳动的豆包(Doubao)凭借C端产品体验最佳脱颖而出,是国内用户量最大的AI助手之一。

架构演进

版本 亮点
豆包 1.0 (2023) 初始版本
豆包 2.0 (2024) 多模态升级
Seed 2.0 Pro (2025-2026) 多模态最强

Seed 2.0 Pro的技术特点

  1. 多模态最强:在图像、视频理解上表现突出
  2. C端体验最佳:产品化能力是字节的核心优势
  3. 训练芯片:A800/H20为主,国产昇腾910B为辅
  4. 火山引擎:通过火山引擎提供API服务

📱 Kimi & MiniMax & 腾讯混元

Kimi K2.5(月之暗面)

维度 特点
定位 长上下文、文档处理
核心能力 200万字阅读、PDF智能解析
技术特色 强调长文档理解能力
用户群 学生、研究人员、法律从业者

MiniMax

  • 专注于语音多模态
  • 在语音合成和交互上技术领先
  • 海外市场表现亮眼(Hailuo AI)

腾讯混元

维度 特点
参数量 389B MoE
定位 企业级、社交集成
生态 微信、QQ、企业微信场景
训练芯片 H100 + 昇腾910C + 紫霄(自研推理)

📊 架构对比:一张表看懂国产大模型

模型 公司 架构 总参数 激活参数 上下文 开源 芯片
DeepSeek V4 深度求索 MoE+MLA 1.6T ~50B 1M 昇腾910C
DeepSeek V3 深度求索 MoE 671B 37B 128K A100/H100
Qwen 3.5 阿里 MoE ~1T MoE 未公开 128K+ A100+昇腾
Qwen 2.5 72B 阿里 Dense 72B 72B 128K A100
GLM-5 智谱 GLM 未公开 未公开 1M 全国产
ERNIE 5.0 百度 MoE ~1.8T MoE 未公开 128K 昆仑芯+昇腾
Seed 2.0 Pro 字节 Dense/MoE ~65B-MoE 未公开 128K A800+昇腾
Kimi K2.5 月之暗面 未公开 未公开 未公开 200万 未公开
MiniMax MiniMax MoE 未公开 未公开 256K 未公开
混元 腾讯 MoE 389B 未公开 128K H100+昇腾

🔧 国产芯片适配与算力格局

2026年芯片分配现状

70B+大模型的训练芯片格局:

英伟达存量 (H100/A100/A800)
  ├── DeepSeek V3 (早期)、Qwen 3 部分
  ├── 文心ERNIE 5.0 部分 (昆仑芯并行)
  └── 腾讯混元 部分 (H100)

华为昇腾 910C/950PR ★ 国产主力
  ├── DeepSeek V4 ← 1000颗昇腾910C全参数训练!
  ├── GLM-5 ← 全栈适配:昇腾、摩尔线程、寒武纪
  ├── 文心ERNIE 5.0 (与昆仑芯并行)
  ├── Qwen 3.5 增量训练
  ├── 华为盘古 ← 全栈昇腾(100%无英伟达)
  └── 腾讯混元 (与H100并行)

其他国产芯片
  ├── 昆仑芯2代/3代 → 百度自研训练
  ├── 平头哥真武810E → 阿里自研
  ├── 寒武纪思元590 → 字节、智谱
  ├── 海光DCU → 多家兼容
  └── 紫霄 → 腾讯自研推理

DeepSeek V4的"去英伟达"意义

DeepSeek V4最大的战略意义不在于性能提升,而在于:

首次在超大规模模型上成功实现全栈国产芯片训练

  • 基于1000颗华为昇腾910C
  • 不依赖任何英伟达芯片
  • 全参数训练1.6T MoE模型
  • FlashMLA推理引擎提升35倍

这标志着中国AI产业在算力自主可控上迈出了关键一步。


📝 总结与展望

国产大模型的三大阵营

阵营 代表 策略 优势
技术驱动型 DeepSeek、智谱、阿里Qwen 开源 + 技术领先 全球影响力、社区生态
场景驱动型 百度、字节、腾讯 闭源 + 生态绑定 产品化、商业闭环
垂直专精型 Kimi、MiniMax 聚焦特定场景 差异化、用户体验

2026年国产大模型趋势

  1. 全面MoE化:从DeepSeek到ERNIE都转向了MoE架构
  2. 推理能力成为标配:R1风格的推理模型是必备能力
  3. 国产芯片适配加速:昇腾已成为主流训练选择
  4. Agent化:模型从回答问题转向执行任务
  5. 价格战加剧:DeepSeek的超低价策略倒逼全行业降价
  6. 开源 vs 闭源分化:DeepSeek/Qwen/GLM坚定开源,百度/字节/腾讯闭源

国产大模型的世界竞争力

截至2026年6月,国产大模型已在以下方面达到世界一流水平:

  • DeepSeek:MoE架构创新、训练效率、性价比
  • Qwen:开源生态、多语言能力
  • GLM:自研架构、Agent能力
  • 豆包:多模态、C端产品体验

💡 面试加分点:国产大模型的核心竞争优势已经从"追赶"变为"并跑"。DeepSeek在MoE架构(MLA、GRPO)和训练效率上的创新已经被全球学术界和工业界广泛认可。面试时如果能深入对比DeepSeek V4的MLA架构与标准MHA的差异,以及对昇腾芯片适配的技术挑战,将是极佳的加分项。


如果你觉得这篇文章有帮助,欢迎点赞、收藏、转发!


📌 系列文章导航:

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐