GLM-5.1发布：华为昇腾训练的编程怪兽，编程能力达Claude Opus 94.6%

2026年3月27日，智谱AI（Z.ai）正式发布GLM-5.1，这是继GLM-5.0发布仅六周后的快速迭代。GLM-5.1采用744B参数MoE架构，每次推理仅激活40-44B参数，全程在10万块华为昇腾910B芯片上基于MindSpore框架训练完成，完全未使用英伟达GPU。编程能力从GLM-5的35.4分跃升至45.3分，提升28%，达到Claude Opus 4.6编程分数的94.6%。价

xyghehehehe

1512人浏览 · 2026-04-09 10:01:16

xyghehehehe · 2026-04-09 10:01:16 发布

上一篇 Cursor 3发布：AI编程进入“智能体集群“第三纪元
下一篇 2026智能体爆发年：从CoPilot到Agent的范式跃迁与全域自动化

摘要

核心结论：GLM-5.1是首个在Artificial Analysis智能指数上突破50分的开放权重模型，也是全球首个完全基于国产芯片训练的700B+级别模型。编程能力达到Claude Opus 4.6的94.6%，价格仅为其1/5，以MIT协议开放权重，标志着国产大模型在编程领域实现了从"跟跑"到"逼近"的关键跨越（来源：WaveSpeedAI，2026-03-30；智谱AI官方，2026-03-27）。

一、什么是GLM-5.1？

GLM-5.1是智谱AI于2026年3月27日发布的最新旗舰大模型，面向GLM Coding Plan全部用户（Lite/Pro/Max三档）开放调用（来源：智谱AI官方，2026-03-27）。智谱AI于2026年1月在香港交易所上市，募资约43.5亿港元（约5.58亿美元），IPO估值达313亿美元。

核心技术参数

参数	GLM-5.1	GLM-5.0	变化
总参数量	744B	745B	基本不变
活跃参数量	40-44B/token	约40B/token	基本不变
专家数量	256个	256个	不变
激活专家数	8个/token	8个/token	不变
上下文窗口	200K tokens	200K tokens	不变
最大输出长度	131,072 tokens	131,072 tokens	不变
训练数据量	28.5万亿tokens	约25万亿tokens	+14%
训练硬件	10万块昇腾910B	10万块昇腾910B	不变
训练框架	MindSpore	MindSpore	不变
许可证	MIT	MIT	不变

关键发现：GLM-5.1的参数架构与GLM-5.0基本一致，性能提升主要来自后训练优化（Post-training）和训练数据增量。智谱AI采用了"渐进式对齐方法"，在不改变模型架构的前提下实现了28%的编程能力提升（来源：腾讯云开发者社区，2026-03-30）。

昇腾910B训练的意义

GLM-5.1全程在华为昇腾910B芯片上训练，完全脱离英伟达CUDA生态。这意味着：

地缘政治安全：不受美国芯片出口管制影响
成本优势：昇腾910B的采购成本低于同级别英伟达芯片
技术自主：MindSpore框架+昇腾芯片形成了完整的国产训练栈

10万块昇腾910B的集群规模也创下了国产芯片训练大模型的新纪录（来源：finance.sina.com.cn，2026-03-27）。

二、性能评测：编程能力逼近Claude Opus

2.1 编程能力对比

GLM-5.1的编程能力是本次发布的最大亮点：

模型	SWE-bench Verified	LiveCodeBench	编程综合分	相对Claude Opus 4.6
Claude Opus 4.6	80.8%	N/A	47.9	100%
GPT-5.2	80.0%	N/A	N/A	≈99%
GLM-5.1	77.8%	52.0%	45.3	94.6%
Qwen 3.5	76.4%	83.6%	N/A	N/A
DeepSeek V3.2	73.1%	74.1%	N/A	N/A
Gemini 2.5 Pro	63.8%	70.4%	N/A	N/A

GLM-5.1编程分数从GLM-5的35.4跃升至45.3，提升幅度达28%（来源：WaveSpeedAI，2026-03-30）。

2.2 推理与知识能力

模型	GPQA Diamond	AIME 2025	MMLU	HLE
GPT-5.2	92.4%	100%	~90%	N/A
Claude Opus 4.6	91.3%	99.8%	91.1%	53.1%
Qwen 3.5	88.4%	N/A	88.5%	N/A
GLM-5	86.0%	92.7%	88-92%	30.5%
DeepSeek V3.2	N/A	89.3%	~88.5%	N/A
Gemini 2.5 Pro	84.0%	86.7%	89.8%	18.8%
Llama 4 Maverick	84.0%	83.0%	85.5%	N/A

注：GLM-5.1的GPQA/AIME数据尚未独立验证，预计与GLM-5接近或略优。

2.3 幻觉率改善

GLM-5.1在AA-Omniscience幻觉指数上相比GLM-4.7提升了35分，低幻觉特性使其在企业级应用中更可靠（来源：腾讯云开发者社区，2026-03-30）。

三、价格对比：性价比之王

GLM-5.1的定价策略极具攻击性：

模型	输入价格（$/百万token）	输出价格（$/百万token）	价格倍率（vs GLM-5.1输出）
GLM-5.1	1.00	3.20	1x
DeepSeek V3.2	0.27	1.10	0.34x
Claude Sonnet 4.6	3.00	15.00	4.7x
GPT-5.2	3.00	12.00	3.75x
Claude Opus 4.6	15.00	75.00	23.4x
Gemini 2.5 Pro	1.25	10.00	3.1x

关键对比：GLM-5.1的编程能力达到Claude Opus 4.6的94.6%，但输出价格仅为后者的1/23。即使与同级别的Claude Sonnet 4.6相比，价格也仅为1/5左右（来源：WaveSpeedAI，2026-03-30）。

订阅方案

方案	月费	提问次数	适合人群
Lite	$3/月（约¥26）	120次	个人开发者试用
Pro	$15/月（约¥108）	600次	日常开发
Max	$30/月（约¥216）	2000次+	重度用户/团队

注：Lite版按26元/月计算，是当前市场上最具性价比的AI编程助手订阅之一（来源：baijiahao.baidu.com，2026-03-27）。

四、MoE架构深度解析

4.1 256专家 × 8激活的稀疏设计

GLM-5.1采用混合专家（MoE）架构：

总参数量744B：256个专家网络
每token激活40-44B：仅激活8个专家
激活比例约5.7%：极高的参数效率

# 使用vLLM部署GLM-5.1示例（需适配MindSpore格式）
from vllm import LLM, SamplingParams

llm = LLM(
    model="THUDM/glm-5.1",
    tensor_parallel_size=8,   # 744B模型需要多卡
    max_model_len=131072,
    gpu_memory_utilization=0.92,
    trust_remote_code=True
)

params = SamplingParams(
    temperature=0.7,
    max_tokens=16384,
    top_p=0.9
)

output = llm.generate(["用Python实现一个LRU缓存，要求O(1)的get和put"], params)
print(output[0].outputs[0].text)

4.2 存储与部署需求

精度	模型大小	显存需求（推理）	最低GPU配置
BF16	~1.49TB	~1.6TB	20× H100 80GB
INT8	~745GB	~800GB	10× H100 80GB
INT4	~372GB	~400GB	5× H100 80GB

完整BF16模型需要约1.49TB存储空间，这意味着个人开发者几乎不可能在本地完整部署。智谱AI主要通过API提供服务，GLM-5（非5.1）权重已通过MIT协议开放（来源：wavespeed.ai，2026-03-30）。

五、与其他国产模型的定位对比

2026年4月，国产编程大模型已形成"四强争霸"格局：

维度	GLM-5.1	Qwen 3.5	DeepSeek V3.2	Kimi K2.5
编程定位	专注编程优化	通用+编程强	通用+编程强	长文本+编程
SWE-bench	77.8%	76.4%	73.1%	N/A
LiveCodeBench	52.0%	83.6%	74.1%	N/A
上下文窗口	200K	256K	128K	1M+
训练硬件	昇腾910B	未公开	海光+寒武纪	未公开
开源协议	MIT	Apache 2.0	MIT	Apache 2.0
输入价格	$1.00/M	~$0.50/M	$0.27/M	~$0.80/M
独特优势	编程专精、国产芯片	开源最强、生态完善	成本最低	超长上下文