GLM-5 与 CogViewX：智谱第五代架构全解析

全程昇腾训练是真正的差异化，不只是营销话术200K上下文在目前的开源模型里是最长的CogView-4支持汉字生成，多模态能力有独特价值，编程能力在开源模型里目前最高如果应用场景需要长文档理解、图像生成、或者你有昇腾硬件想要完全自主的推理方案，GLM-5值得认真评估。否则Qwen3的部署生态更成熟，开源也更完整。参考资料：智谱GLM-5官方技术文档、glm-5.org、Z.ai平台文档，2026年2

零壹AI实验室

326人浏览 · 2026-05-15 11:35:23

零壹AI实验室 · 2026-05-15 11:35:23 发布

GLM-5 与 CogViewX：智谱第五代架构全解析

745B总参数，每次只激活44B，上下文窗口200K——GLM-5的尺寸比Qwen3和DeepSeek V4都大，而且全程在华为昇腾芯片上训练，不依赖CUDA。本文基于智谱官方技术资料，拆解GLM-5的架构设计和CogViewX多模态能力。

一、GLM-5 是什么来头

智谱2026年1月在香港IPO，募资约43.5亿港元，招股书里明确说要拿这笔钱做GLM-5研发。2月中旬，GLM-5通过Z.ai平台和WaveSpeed API开放使用。

几个关键数字先摆出来：

指标	数值
总参数	7450亿
激活参数	440亿
专家数	256个
每token激活专家数	8个（稀疏率5.9%）
上下文窗口	200K tokens
最大输出	128K tokens

稀疏率5.9%的意思是：256个专家，每次推理只用8个，计算量只有全连接的约6%。这是MoE架构的核心优势——模型总参很大，但推理时只激活很小一部分。

二、架构亮点：全程昇腾训练意味着什么

GLM-5最值得关注的一点：训练和推理都可以在昇腾910B上完成，不需要英伟达GPU。

这件事有几个实际影响：

昇腾910B的算力特性和英伟达A100/H100不同，训练框架必须针对性优化，MindSpore做了大量适配工作
不依赖CUDA：整个训练栈可以在昇腾上跑，供应链被卡脖子时仍有算力可用
MindSpore框架：华为自研的深度学习框架，类似PyTorch的地位，但算子实现和内存管理针对昇腾硬件做了深度优化

对比来看：

DeepSeek V3/V4：训练用英伟达GPU（H800等）
Qwen3：训练用英伟达GPU
GLM-5：全程昇腾 + MindSpore，软件栈完全自主

三、核心技术：DSA稀疏注意力 + Slime RL

3.1 DeepSeek Sparse Attention（DSA）

GLM-5没有用标准的Full Attention，而是采用了稀疏注意力机制（DSA），核心思路：不是每个token都要和所有历史token做注意力计算，只选最相关的。

好处：

长上下文（200K）下的推理成本大幅降低
性能损失很小（智谱的测试数据显示"无损"）
对长文档理解任务效果明显

3.2 Slime 异步强化学习框架

后训练阶段，GLM-5用了自研的Slime框架做RL训练：

异步更新：不像标准RLHF那样同步等待一批数据跑完，Slime允许不同批次的数据异步更新，吞吐量更高
支持复杂RL任务：多轮对话、工具调用、长程推理这些任务，标准RLHF处理起来很麻烦，Slime针对性做了优化
异步智能体RL算法：支持智能体在长程交互中持续学习，这对Agent类应用很重要

四、CogViewX 多模态能力

智谱的图像生成模型已演进到 CogView-4，几个关键能力：

4.1 支持生成汉字

这是CogView-4的一个差异化功能。大多数文生图模型（包括Midjourney、DALL-E）对中文支持不好，生成的图像里汉字往往是乱码。CogView-4可以生成正确的汉字，这对国内应用场景很实用。

4.2 任意分辨率

不像DALL-E-3那样固定分辨率，CogView-4支持任意分辨率输出，用户可以根据需求指定宽高比。

4.3 双语输入

支持中文和英文输入，不需要翻译。描中文直接出图。

4.4 性能对标

CogView-3-Plus的性能接近Midjourney V6和FLUX，已经集成到智谱清言APP里，普通用户可以直接用。

五、Benchmark 表现

GLM-5的Benchmark成绩（开源SOTA级别）：

Benchmark	成绩	说明
SWE-bench-Verified	77.8	开源最高
Terminal-Bench 2.0	56.2	开源最高
vs Gemini 3.0 Pro	超越	实际编程任务
vs Claude Opus 4.5	接近	实际编程任务

SWE-bench-Verified是评估模型自动修复GitHub Issue能力的基准，77.8分意味着GLM-5可以独立解决约78%的软件工程问题。

六、商用与开源进展

时间	事件
2026年1月	香港IPO，募资43.5亿港元
2026年2月	GLM-5通过Z.ai平台开放
2026年Q1（预计）	开源权重发布（MIT许可）
2025年全年	营收7.24亿元，同比增131.9%

目前GLM-5还没有完全开源（预期Q1发布MIT许可的权重），但可以通过API使用（open.bigmodel.cn / Z.ai平台）。

对比Qwen3（已完全Apache 2.0开源）和DeepSeek V3（已MIT开源），GLM-5在开源节奏上慢了一些，但IPO之后资金到位，后续开源应该是大概率事件。

七、与Qwen3、DeepSeek V3 的选型对比

维度	GLM-5	Qwen3-235B-A22B	DeepSeek V3
激活参数	44B	22B	37B
上下文	200K	32K	128K
训练硬件	昇腾910B	英伟达GPU	英伟达GPU
开源状态	预期MIT（Q1）	Apache 2.0（已开源）	MIT（已开源）
汉字图像生成	✅ CogView-4	❌ 无	❌ 无
SWE-bench	77.8	未公开	未公开

核心差异：GLM-5的上下文最长（200K），有图像生成能力；Qwen3激活参数最小（推理最快）；DeepSeek V3在两者之间。

八、总结

GLM-5有几个点值得认真看：

全程昇腾训练是真正的差异化，不只是营销话术
200K上下文在目前的开源模型里是最长的
CogView-4支持汉字生成，多模态能力有独特价值
SWE-bench 77.8，编程能力在开源模型里目前最高

如果应用场景需要长文档理解、图像生成、或者你有昇腾硬件想要完全自主的推理方案，GLM-5值得认真评估。否则Qwen3的部署生态更成熟，开源也更完整。

参考资料：智谱GLM-5官方技术文档、glm-5.org、Z.ai平台文档，2026年2月

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

Verl Full Async架构昇腾实践

在大规模语言模型的强化学习（RL）训练中，高效利用计算资源是提升训练效率的核心挑战。传统RL框架普遍采用共卡共进程方案，即每张NPU在训练中仅执行单一任务，导致训练流程严格串行执行（Rollout→Train→Sync）。这种设计在实际开发中面临显著瓶颈：当处理长尾序列时，部分NPU的推理延迟会引发其他NPU的空闲等待，无法通过增加资源缓解，造成整体训练效率下降。为解决这一问题，我们设计了Full