推理模型性能比肩世界先进水平！智谱GLM-4-0414系列模型昇腾MindIE部署实战

智谱AI于4月15日开源GLM-4-0414系列模型，包含32B/9B两种尺寸的基座、推理和沉思模型，均采用MIT许可。其中32B推理模型性能媲美DeepSeek-R1等顶尖模型，推理速度达200Tokens/秒。该系列模型在数学推理、代码生成等任务表现优异，部分指标接近GPT-4o水平。昇腾MindIE提供开箱即用的部署支持。开发者可通过魔乐社区获取模型权重和详细部署指南，包含容器配置、环境设置

魔乐社区

1240人浏览 · 2025-05-29 10:34:30

魔乐社区 · 2025-05-29 10:34:30 发布

4月15日，智谱全新开源GLM-4-0414 系列模型，拥有32B/9B两个尺寸，涵盖基座、推理、沉思模型，均遵循 MIT 许可协议。其中，推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型，实测推理速度可达 200 Tokens/秒。

魔乐社区同步首发，昇腾MindIE支持GLM-4-0414 系列模型开箱部署。

🔗模型链接如下，欢迎广大开发者下载体验！

•https://modelers.cn/models/MindIE/GLM-4-32B-Base-0414

•https://modelers.cn/models/MindIE/GLM-Z1-Rumination-32B-0414

•https://modelers.cn/models/MindIE/GLM-Z1-32B-0414

•https://modelers.cn/models/MindIE/GLM-Z1-9B-0414

•https://modelers.cn/models/MindIE/GLM-4-32B-0414

•https://modelers.cn/models/MindIE/GLM-4-9B-0414

01 模型介绍

基座模型 GLM-4-32B-0414 拥有 320 亿参数，其性能可与国内、外参数量更大的主流模型相媲美。该模型利用 15T 高质量数据进行预训练，特别纳入了丰富的推理类合成数据，为后续的强化学习扩展奠定了基础。GLM-4-32B-0414 在工程代码、Artifacts生成、函数调用、搜索问答及报告撰写等任务上均表现出色，部分 Benchmark 指标已接近甚至超越GPT-4o、DeepSeek-V3-0324（671B）等更大模型的水平。

GLM-Z1-32B-0414 是一款具备深度思考能力的推理模型。该模型在 GLM-4-32B-0414 的基础上，采用了冷启动与扩展强化学习策略，并针对数学、代码、逻辑等关键任务进行了深度优化训练。在部分任务上，GLM-Z1-32B-0414 凭借 32B 参数，其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。

GLM-Z1-9B-0414是沿用了上述一系列技术，训练出的一个 9B 的小尺寸模型。虽然参数量更少，但 GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色，整体性能已跻身同尺寸开源模型的领先水平。特别是在资源受限的场景下，该模型可以很好地在效率与效果之间取得平衡，为需要轻量化部署的用户提供强有力的选择。

沉思模型GLM-Z1-Rumination-32B-0414代表了智谱对 AGI 未来形态的下一步探索。与一般推理模型不同，沉思模型通过更多步骤的深度思考来解决高度开放与复杂的问题。该模型支持“自主提出问题—搜索信息—构建分析—完成任务”的完整研究闭环，从而在研究型写作和复杂检索任务上的能力得到了显著提升。

以下为手把手教程：（以GLM-Z1-9B-0414+MindIE推理为例）

02 准备运行环境

1. 下载权重

从魔乐社区下载模型权重：https://modelers.cn/models/zhipuai/GLM-Z1-9B-0414 （或点击文末阅读原文直达）

下载权重后更改权重路径下的config.json，修改"model_type": "chatglm"；并增加键值对："_name_or_path": "THUDM/glm-4-9b-chat"，更改后样例：

{
  "_name_or_path": "THUDM/glm-4-9b-chat", // 增加键值对，不管是什么模型都是这个 key
  "architectures": ["Glm4ForCausalLM"],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "eos_token_id": [151329, 151336, 151338],
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 6144,
  "initializer_range": 0.02,
  "intermediate_size": 23040,
  "max_position_embeddings": 131072,
  "model_type": "chatglm", // 从 glm4 改为 chatglm
  "num_attention_heads": 48,
  "num_hidden_layers": 61,
  "num_key_value_heads": 8,
  "pad_token_id": 151329,
  "partial_rotary_factor": 0.5,
  "rms_norm_eps": 1e-5,
  "rope_theta": 10000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.52.0.dev0",
  "use_cache": true,
  "vocab_size": 151552
}

2. 加载镜像

下载镜像并加载：

wget https://mindx.sdk.obs.cn-north-4.myhuaweicloud.com/MindIE/docker/mindie_2.0.T3-20250417-800I-A2-py311-openeuler24.03-lts-aarch64.tar.gz --no-check-certificatedocker load -i ./mindie_2.0.T3-20250417-800I-A2-py311-openeuler24.03-lts-aarch64.tar.gz

3. 硬件要求

1）部署 GLM-4-0414 系列模型至少需要1台Atlas 800I A2服务器

2）支持 TP =1/2/4/8 推理

4. 新建容器

目前提供的 MindIE 镜像预置了 GLM-Z1-9B-0414 系列模型推理脚本，无需再额外下载模型适配代码，直接新建容器即可。

如果您使用的是 root 用户镜像（例如从 Ascend Hub 上取得），并且可以使用特权容器，请使用以下命令启动容器：

docker run -it -d --net=host --shm-size=1g \    --privileged \    --name <container-name> \    --device=/dev/davinci_manager \    --device=/dev/hisi_hdc \    --device=/dev/devmm_svm \    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \    -v /usr/local/sbin:/usr/local/sbin:ro \    -v /path-to-weights:/path-to-weights:ro \    <IMAGE ID> bash

如果您希望使用自行构建的普通用户镜像，并且规避容器相关权限风险，可以使用以下命令指定用户与设备：

docker run -it -d --net=host --shm-size=1g \    --name <container-name> \    --device=/dev/davinci_manager \    --device=/dev/hisi_hdc \    --device=/dev/devmm_svm \    --device=/dev/davinci0 \    --device=/dev/davinci1 \    --device=/dev/davinci2 \    --device=/dev/davinci3 \    --device=/dev/davinci4 \    --device=/dev/davinci5 \    --device=/dev/davinci6 \    --device=/dev/davinci7 \    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \    -v /usr/local/sbin:/usr/local/sbin:ro \    -v /path-to-weights:/path-to-weights:ro \    <IMAGE ID> bash

更多镜像使用信息请参考官方镜像仓库文档：

https://gitee.com/ascend/ascend-docker-image/tree/dev/mindie

03 容器内环境配置

由于 GLM-4-0414 系列模型依赖最新版本 transformers，因此需要更改容器内 transformers 版本并使其兼容 PyTorch 2.1.0。

1. 首先进入容器：

docker exec -it ${容器名称} bash

2. 下载源码：

git clone https://github.com/huggingface/transformers.git

3. 修改 transformers/utils/generic.py 中 355 行左右 from torch.utils._pytree import register_pytree_node 为 from torch.utils._pytree import _register_pytree_node，使高版本 transformers 兼容 PyTorch 2.1.0：

def __init_subclass__(cls) -> None:        """Register subclasses as pytree nodes.         This is necessary to synchronize gradients when using `torch.nn.parallel.DistributedDataParallel` with        `static_graph=True` with modules that output `ModelOutput` subclasses.        """        if is_torch_available():            if version.parse(get_torch_version()) >= version.parse("2.2"):                from torch.utils._pytree import register_pytree_node                 register_pytree_node(                    cls,                    _model_output_flatten,                    partial(_model_output_unflatten, output_type=cls),                    serialized_type_name=f"{cls.__module__}.{cls.__name__}",                )            else:                # 修改这里                from torch.utils._pytree import _register_pytree_node                 # 修改这里                _register_pytree_node(                    cls,                    _model_output_flatten,                    partial(_model_output_unflatten, output_type=cls),                )

4. 从源码安装 transformers：

pip install ./transformers

另外若后续服务化出现错误，可能是读取 chat_template 时 ASCII 编码错误导致，需要修改 transformers/tokenization_utils_base.py 约 2160 行左右，从：

with open(chat_template_file) as chat_template_handle:

修改为：

with open(chat_template_file, encoding="utf-8") as chat_template_handle:

确保 transforemrs>=4.51.3。

可能需要安装 einops：

pip3 install einops

04 模型性能及特点

纯模型推理

对话测试

进入 llm_model 路径

cd $ATB_SPEED_HOME_PATH

执行对话测试

torchrun --nproc_per_node 2 \         --master_port 20037 \         -m examples.run_pa \         --model_path ${权重路径} \         --input_texts 'What is deep learning?' \         --max_output_length 20

服务化推理

打开配置文件

vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json

更改配置文件

{..."ServerConfig" :{..."port" : 1025, #自定义"managementPort" : 1026, #自定义"metricsPort" : 1027, #自定义..."httpsEnabled" : false,...}, "BackendConfig": {..."npuDeviceIds" : [[0,1,2,3]],..."ModelDeployConfig":{"ModelConfig" : [{..."modelName" : "chatglm","modelWeightPath" : "/data/datasets/GLM-Z1-9B-0414","worldSize" : 4,...}]},...}}

拉起服务化

cd /usr/local/Ascend/mindie/latest/mindie-service/bin./mindieservice_daemon

新建窗口测试(VLLM 接口)

curl 127.0.0.1:1025/generate -d '{  "prompt": "What is deep learning?",  "max_tokens": 32,  "stream": false,  "do_sample":true,  "temperature": 0.6,  "top_p": 0.95,  "model": "chatglm"}'
服务化推理的更多信息请参考MindIE Service 用户指南：

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0001.html

欢迎体验

欢迎大家下载体验昇腾MindIE版GLM-4-0414 系列模型，也欢迎广大开发者在模型评论区留言交流！

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D