GLM-5 与 CogViewX:智谱第五代架构全解析

745B总参数,每次只激活44B,上下文窗口200K——GLM-5的尺寸比Qwen3和DeepSeek V4都大,而且全程在华为昇腾芯片上训练,不依赖CUDA。本文基于智谱官方技术资料,拆解GLM-5的架构设计和CogViewX多模态能力。


一、GLM-5 是什么来头

智谱2026年1月在香港IPO,募资约43.5亿港元,招股书里明确说要拿这笔钱做GLM-5研发。2月中旬,GLM-5通过Z.ai平台和WaveSpeed API开放使用。

几个关键数字先摆出来:

指标 数值
总参数 7450亿
激活参数 440亿
专家数 256个
每token激活专家数 8个(稀疏率5.9%)
上下文窗口 200K tokens
最大输出 128K tokens

稀疏率5.9%的意思是:256个专家,每次推理只用8个,计算量只有全连接的约6%。这是MoE架构的核心优势——模型总参很大,但推理时只激活很小一部分。


二、架构亮点:全程昇腾训练意味着什么

GLM-5最值得关注的一点:训练和推理都可以在昇腾910B上完成,不需要英伟达GPU。

这件事有几个实际影响:

  1. 昇腾910B的算力特性和英伟达A100/H100不同,训练框架必须针对性优化,MindSpore做了大量适配工作
  2. 不依赖CUDA:整个训练栈可以在昇腾上跑,供应链被卡脖子时仍有算力可用
  3. MindSpore框架:华为自研的深度学习框架,类似PyTorch的地位,但算子实现和内存管理针对昇腾硬件做了深度优化

对比来看:

  • DeepSeek V3/V4:训练用英伟达GPU(H800等)
  • Qwen3:训练用英伟达GPU
  • GLM-5:全程昇腾 + MindSpore,软件栈完全自主

三、核心技术:DSA稀疏注意力 + Slime RL

3.1 DeepSeek Sparse Attention(DSA)

GLM-5没有用标准的Full Attention,而是采用了稀疏注意力机制(DSA),核心思路:不是每个token都要和所有历史token做注意力计算,只选最相关的。

好处:

  • 长上下文(200K)下的推理成本大幅降低
  • 性能损失很小(智谱的测试数据显示"无损")
  • 对长文档理解任务效果明显

3.2 Slime 异步强化学习框架

后训练阶段,GLM-5用了自研的Slime框架做RL训练:

  • 异步更新:不像标准RLHF那样同步等待一批数据跑完,Slime允许不同批次的数据异步更新,吞吐量更高
  • 支持复杂RL任务:多轮对话、工具调用、长程推理这些任务,标准RLHF处理起来很麻烦,Slime针对性做了优化
  • 异步智能体RL算法:支持智能体在长程交互中持续学习,这对Agent类应用很重要

四、CogViewX 多模态能力

智谱的图像生成模型已演进到 CogView-4,几个关键能力:

4.1 支持生成汉字

这是CogView-4的一个差异化功能。大多数文生图模型(包括Midjourney、DALL-E)对中文支持不好,生成的图像里汉字往往是乱码。CogView-4可以生成正确的汉字,这对国内应用场景很实用。

4.2 任意分辨率

不像DALL-E-3那样固定分辨率,CogView-4支持任意分辨率输出,用户可以根据需求指定宽高比。

4.3 双语输入

支持中文和英文输入,不需要翻译。描中文直接出图。

4.4 性能对标

CogView-3-Plus的性能接近Midjourney V6和FLUX,已经集成到智谱清言APP里,普通用户可以直接用。


五、Benchmark 表现

GLM-5的Benchmark成绩(开源SOTA级别):

Benchmark 成绩 说明
SWE-bench-Verified 77.8 开源最高
Terminal-Bench 2.0 56.2 开源最高
vs Gemini 3.0 Pro 超越 实际编程任务
vs Claude Opus 4.5 接近 实际编程任务

SWE-bench-Verified是评估模型自动修复GitHub Issue能力的基准,77.8分意味着GLM-5可以独立解决约78%的软件工程问题。


六、商用与开源进展

时间 事件
2026年1月 香港IPO,募资43.5亿港元
2026年2月 GLM-5通过Z.ai平台开放
2026年Q1(预计) 开源权重发布(MIT许可)
2025年全年 营收7.24亿元,同比增131.9%

目前GLM-5还没有完全开源(预期Q1发布MIT许可的权重),但可以通过API使用(open.bigmodel.cn / Z.ai平台)。

对比Qwen3(已完全Apache 2.0开源)和DeepSeek V3(已MIT开源),GLM-5在开源节奏上慢了一些,但IPO之后资金到位,后续开源应该是大概率事件。


七、与Qwen3、DeepSeek V3 的选型对比

维度 GLM-5 Qwen3-235B-A22B DeepSeek V3
激活参数 44B 22B 37B
上下文 200K 32K 128K
训练硬件 昇腾910B 英伟达GPU 英伟达GPU
开源状态 预期MIT(Q1) Apache 2.0(已开源) MIT(已开源)
汉字图像生成 ✅ CogView-4 ❌ 无 ❌ 无
SWE-bench 77.8 未公开 未公开

核心差异:GLM-5的上下文最长(200K),有图像生成能力;Qwen3激活参数最小(推理最快);DeepSeek V3在两者之间。


八、总结

GLM-5有几个点值得认真看:

  1. 全程昇腾训练是真正的差异化,不只是营销话术
  2. 200K上下文在目前的开源模型里是最长的
  3. CogView-4支持汉字生成,多模态能力有独特价值
  4. SWE-bench 77.8,编程能力在开源模型里目前最高

如果应用场景需要长文档理解、图像生成、或者你有昇腾硬件想要完全自主的推理方案,GLM-5值得认真评估。否则Qwen3的部署生态更成熟,开源也更完整。


参考资料:智谱GLM-5官方技术文档、glm-5.org、Z.ai平台文档,2026年2月

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐