上一篇 Cursor 3发布:AI编程进入“智能体集群“第三纪元
下一篇 2026智能体爆发年:从CoPilot到Agent的范式跃迁与全域自动化


摘要

2026年3月27日,智谱AI(Z.ai)正式发布GLM-5.1,这是继GLM-5.0发布仅六周后的快速迭代。GLM-5.1采用744B参数MoE架构,每次推理仅激活40-44B参数,全程在10万块华为昇腾910B芯片上基于MindSpore框架训练完成,完全未使用英伟达GPU。编程能力从GLM-5的35.4分跃升至45.3分,提升28%,达到Claude Opus 4.6编程分数的94.6%。价格方面,GLM-5.1输入$1.00/百万token、输出$3.20/百万token,仅为Claude Opus 4.6的1/5左右。

核心结论:GLM-5.1是首个在Artificial Analysis智能指数上突破50分的开放权重模型,也是全球首个完全基于国产芯片训练的700B+级别模型。编程能力达到Claude Opus 4.6的94.6%,价格仅为其1/5,以MIT协议开放权重,标志着国产大模型在编程领域实现了从"跟跑"到"逼近"的关键跨越(来源:WaveSpeedAI,2026-03-30;智谱AI官方,2026-03-27)。


一、什么是GLM-5.1?

GLM-5.1是智谱AI于2026年3月27日发布的最新旗舰大模型,面向GLM Coding Plan全部用户(Lite/Pro/Max三档)开放调用(来源:智谱AI官方,2026-03-27)。智谱AI于2026年1月在香港交易所上市,募资约43.5亿港元(约5.58亿美元),IPO估值达313亿美元。

核心技术参数

参数 GLM-5.1 GLM-5.0 变化
总参数量 744B 745B 基本不变
活跃参数量 40-44B/token 约40B/token 基本不变
专家数量 256个 256个 不变
激活专家数 8个/token 8个/token 不变
上下文窗口 200K tokens 200K tokens 不变
最大输出长度 131,072 tokens 131,072 tokens 不变
训练数据量 28.5万亿tokens 约25万亿tokens +14%
训练硬件 10万块昇腾910B 10万块昇腾910B 不变
训练框架 MindSpore MindSpore 不变
许可证 MIT MIT 不变

关键发现:GLM-5.1的参数架构与GLM-5.0基本一致,性能提升主要来自后训练优化(Post-training)训练数据增量。智谱AI采用了"渐进式对齐方法",在不改变模型架构的前提下实现了28%的编程能力提升(来源:腾讯云开发者社区,2026-03-30)。

昇腾910B训练的意义

GLM-5.1全程在华为昇腾910B芯片上训练,完全脱离英伟达CUDA生态。这意味着:

  • 地缘政治安全:不受美国芯片出口管制影响
  • 成本优势:昇腾910B的采购成本低于同级别英伟达芯片
  • 技术自主:MindSpore框架+昇腾芯片形成了完整的国产训练栈

10万块昇腾910B的集群规模也创下了国产芯片训练大模型的新纪录(来源:finance.sina.com.cn,2026-03-27)。


二、性能评测:编程能力逼近Claude Opus

2.1 编程能力对比

GLM-5.1的编程能力是本次发布的最大亮点:

模型 SWE-bench Verified LiveCodeBench 编程综合分 相对Claude Opus 4.6
Claude Opus 4.6 80.8% N/A 47.9 100%
GPT-5.2 80.0% N/A N/A ≈99%
GLM-5.1 77.8% 52.0% 45.3 94.6%
Qwen 3.5 76.4% 83.6% N/A N/A
DeepSeek V3.2 73.1% 74.1% N/A N/A
Gemini 2.5 Pro 63.8% 70.4% N/A N/A

GLM-5.1编程分数从GLM-5的35.4跃升至45.3,提升幅度达28%(来源:WaveSpeedAI,2026-03-30)。

2.2 推理与知识能力

模型 GPQA Diamond AIME 2025 MMLU HLE
GPT-5.2 92.4% 100% ~90% N/A
Claude Opus 4.6 91.3% 99.8% 91.1% 53.1%
Qwen 3.5 88.4% N/A 88.5% N/A
GLM-5 86.0% 92.7% 88-92% 30.5%
DeepSeek V3.2 N/A 89.3% ~88.5% N/A
Gemini 2.5 Pro 84.0% 86.7% 89.8% 18.8%
Llama 4 Maverick 84.0% 83.0% 85.5% N/A

注:GLM-5.1的GPQA/AIME数据尚未独立验证,预计与GLM-5接近或略优。

2.3 幻觉率改善

GLM-5.1在AA-Omniscience幻觉指数上相比GLM-4.7提升了35分,低幻觉特性使其在企业级应用中更可靠(来源:腾讯云开发者社区,2026-03-30)。


三、价格对比:性价比之王

GLM-5.1的定价策略极具攻击性:

模型 输入价格($/百万token) 输出价格($/百万token) 价格倍率(vs GLM-5.1输出)
GLM-5.1 1.00 3.20 1x
DeepSeek V3.2 0.27 1.10 0.34x
Claude Sonnet 4.6 3.00 15.00 4.7x
GPT-5.2 3.00 12.00 3.75x
Claude Opus 4.6 15.00 75.00 23.4x
Gemini 2.5 Pro 1.25 10.00 3.1x

关键对比:GLM-5.1的编程能力达到Claude Opus 4.6的94.6%,但输出价格仅为后者的1/23。即使与同级别的Claude Sonnet 4.6相比,价格也仅为1/5左右(来源:WaveSpeedAI,2026-03-30)。

订阅方案

方案 月费 提问次数 适合人群
Lite $3/月(约¥26) 120次 个人开发者试用
Pro $15/月(约¥108) 600次 日常开发
Max $30/月(约¥216) 2000次+ 重度用户/团队

注:Lite版按26元/月计算,是当前市场上最具性价比的AI编程助手订阅之一(来源:baijiahao.baidu.com,2026-03-27)。


四、MoE架构深度解析

4.1 256专家 × 8激活的稀疏设计

GLM-5.1采用混合专家(MoE)架构:

  • 总参数量744B:256个专家网络
  • 每token激活40-44B:仅激活8个专家
  • 激活比例约5.7%:极高的参数效率
# 使用vLLM部署GLM-5.1示例(需适配MindSpore格式)
from vllm import LLM, SamplingParams

llm = LLM(
    model="THUDM/glm-5.1",
    tensor_parallel_size=8,   # 744B模型需要多卡
    max_model_len=131072,
    gpu_memory_utilization=0.92,
    trust_remote_code=True
)

params = SamplingParams(
    temperature=0.7,
    max_tokens=16384,
    top_p=0.9
)

output = llm.generate(["用Python实现一个LRU缓存,要求O(1)的get和put"], params)
print(output[0].outputs[0].text)

4.2 存储与部署需求

精度 模型大小 显存需求(推理) 最低GPU配置
BF16 ~1.49TB ~1.6TB 20× H100 80GB
INT8 ~745GB ~800GB 10× H100 80GB
INT4 ~372GB ~400GB 5× H100 80GB

完整BF16模型需要约1.49TB存储空间,这意味着个人开发者几乎不可能在本地完整部署。智谱AI主要通过API提供服务,GLM-5(非5.1)权重已通过MIT协议开放(来源:wavespeed.ai,2026-03-30)。


五、与其他国产模型的定位对比

2026年4月,国产编程大模型已形成"四强争霸"格局:

维度 GLM-5.1 Qwen 3.5 DeepSeek V3.2 Kimi K2.5
编程定位 专注编程优化 通用+编程强 通用+编程强 长文本+编程
SWE-bench 77.8% 76.4% 73.1% N/A
LiveCodeBench 52.0% 83.6% 74.1% N/A
上下文窗口 200K 256K 128K 1M+
训练硬件 昇腾910B 未公开 海光+寒武纪 未公开
开源协议 MIT Apache 2.0 MIT Apache 2.0
输入价格 $1.00/M ~$0.50/M $0.27/M ~$0.80/M
独特优势 编程专精、国产芯片 开源最强、生态完善 成本最低 超长上下文

GLM-5.1的独特定位在于:以编程专精能力+国产全栈+MIT开放权重+极低价格,成为企业级AI编程的高性价比选择。


六、局限性与不足

尽管GLM-5.1表现出色,但仍有几项明显局限:

  1. 纯文本模型:不支持多模态输入(图像、视频、音频),在需要理解设计稿/UI截图的编程场景中不如Claude Opus 4.6
  2. 权重尚未完全开放:目前仅GLM-5权重已开放,GLM-5.1权重尚未发布,开发者无法自行微调
  3. 编程分数为自报数据:94.6%的数据来自智谱AI官方报告,独立第三方验证尚未完成
  4. 存储需求极高:完整模型约1.49TB,私有化部署成本高昂
  5. 非编程场景差距较大:在GPQA、AIME等通用推理基准上与GPT-5.2和Claude Opus 4.6仍有明显差距

FAQ

Q1:GLM-5.1的编程能力真的能达到Claude Opus 4.6的94.6%吗?

A1:94.6%的数据来自智谱AI官方评测报告,基于SWE-bench Verified(77.8% vs 80.8%)和自研编程综合分(45.3 vs 47.9)。实际表现可能在简单任务上接近,但在复杂多文件重构、长程任务规划等场景中仍有差距。建议开发者自行试用后判断。

Q2:GLM-5.1完全不用英伟达GPU是真的吗?

A2:是的。GLM-5全程使用10万块华为昇腾910B芯片和MindSpore框架训练。但需要注意,这指的是训练阶段。API推理阶段是否也完全使用昇腾芯片,智谱AI未明确披露。

Q3:GLM-5.1和GLM-5V-Turbo是什么关系?

A3:GLM-5.1是纯文本编程模型,GLM-5V-Turbo是多模态变体,融合了视觉理解能力,可直接理解设计稿和UI截图并生成前端代码。两者是同一系列的不同型号,面向不同场景。

Q4:个人开发者如何开始使用GLM-5.1?

A4:可通过智谱AI官网注册GLM Coding Plan,Lite版$3/月(约¥26)即可获得120次/月的调用额度。API接入可通过开放平台文档获取SDK和示例代码。


上一篇 Cursor 3发布:AI编程进入“智能体集群“第三纪元
下一篇 2026智能体爆发年:从CoPilot到Agent的范式跃迁与全域自动化


参考资料

  1. GLM-5.1 vs Claude、GPT、Gemini、DeepSeek:智谱AI最新模型综合评测,WaveSpeedAI,2026-03-30
  2. 太强了!GLM-5.1第一手实测,平替Claude Opus 4.6?,腾讯云开发者社区,2026-03-30
  3. 智谱GLM-5.1正式发布,新浪科技,2026-03-27
  4. 智谱GLM-5.1全面开放!每月26元硬刚Claude,百度百家号,2026-03-27
  5. 智谱GLM-5.1:编程AI性价比之王,AI Product Hub,2026-04
  6. 智谱GLM-5.1正式发布:华为芯片训练的开源模型,技术栈,2026-04-02
Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐