推理模型性能比肩世界先进水平!智谱GLM-4-0414系列模型昇腾MindIE部署实战
智谱AI于4月15日开源GLM-4-0414系列模型,包含32B/9B两种尺寸的基座、推理和沉思模型,均采用MIT许可。其中32B推理模型性能媲美DeepSeek-R1等顶尖模型,推理速度达200Tokens/秒。该系列模型在数学推理、代码生成等任务表现优异,部分指标接近GPT-4o水平。昇腾MindIE提供开箱即用的部署支持。开发者可通过魔乐社区获取模型权重和详细部署指南,包含容器配置、环境设置
4月15日,智谱全新开源GLM-4-0414 系列模型,拥有32B/9B两个尺寸,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。其中,推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度可达 200 Tokens/秒。
魔乐社区同步首发,昇腾MindIE支持GLM-4-0414 系列模型开箱部署。
🔗模型链接如下,欢迎广大开发者下载体验!
•https://modelers.cn/models/MindIE/GLM-4-32B-Base-0414
•https://modelers.cn/models/MindIE/GLM-Z1-Rumination-32B-0414
•https://modelers.cn/models/MindIE/GLM-Z1-32B-0414
•https://modelers.cn/models/MindIE/GLM-Z1-9B-0414
•https://modelers.cn/models/MindIE/GLM-4-32B-0414
•https://modelers.cn/models/MindIE/GLM-4-9B-0414
01 模型介绍
基座模型 GLM-4-32B-0414 拥有 320 亿参数,其性能可与国内、外参数量更大的主流模型相媲美。该模型利用 15T 高质量数据进行预训练,特别纳入了丰富的推理类合成数据,为后续的强化学习扩展奠定了基础。GLM-4-32B-0414 在工程代码、Artifacts生成、函数调用、搜索问答及报告撰写等任务上均表现出色,部分 Benchmark 指标已接近甚至超越GPT-4o、DeepSeek-V3-0324(671B)等更大模型的水平。
GLM-Z1-32B-0414 是一款具备深度思考能力的推理模型。该模型在 GLM-4-32B-0414 的基础上,采用了冷启动与扩展强化学习策略,并针对数学、代码、逻辑等关键任务进行了深度优化训练。在部分任务上,GLM-Z1-32B-0414 凭借 32B 参数,其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。
GLM-Z1-9B-0414是沿用了上述一系列技术,训练出的一个 9B 的小尺寸模型。虽然参数量更少,但 GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色,整体性能已跻身同尺寸开源模型的领先水平。特别是在资源受限的场景下,该模型可以很好地在效率与效果之间取得平衡,为需要轻量化部署的用户提供强有力的选择。
沉思模型GLM-Z1-Rumination-32B-0414代表了智谱对 AGI 未来形态的下一步探索。与一般推理模型不同,沉思模型通过更多步骤的深度思考来解决高度开放与复杂的问题。该模型支持“自主提出问题—搜索信息—构建分析—完成任务”的完整研究闭环,从而在研究型写作和复杂检索任务上的能力得到了显著提升。
以下为手把手教程:(以GLM-Z1-9B-0414+MindIE推理为例)
02 准备运行环境
1. 下载权重
从魔乐社区下载模型权重:https://modelers.cn/models/zhipuai/GLM-Z1-9B-0414 (或点击文末阅读原文直达)
下载权重后更改权重路径下的config.json,修改"model_type": "chatglm";并增加键值对:"_name_or_path": "THUDM/glm-4-9b-chat",更改后样例:
{
"_name_or_path": "THUDM/glm-4-9b-chat", // 增加键值对,不管是什么模型都是这个 key
"architectures": ["Glm4ForCausalLM"],
"attention_bias": false,
"attention_dropout": 0.0,
"eos_token_id": [151329, 151336, 151338],
"head_dim": 128,
"hidden_act": "silu",
"hidden_size": 6144,
"initializer_range": 0.02,
"intermediate_size": 23040,
"max_position_embeddings": 131072,
"model_type": "chatglm", // 从 glm4 改为 chatglm
"num_attention_heads": 48,
"num_hidden_layers": 61,
"num_key_value_heads": 8,
"pad_token_id": 151329,
"partial_rotary_factor": 0.5,
"rms_norm_eps": 1e-5,
"rope_theta": 10000.0,
"tie_word_embeddings": false,
"torch_dtype": "bfloat16",
"transformers_version": "4.52.0.dev0",
"use_cache": true,
"vocab_size": 151552
}
2. 加载镜像
下载镜像并加载:
wget https://mindx.sdk.obs.cn-north-4.myhuaweicloud.com/MindIE/docker/mindie_2.0.T3-20250417-800I-A2-py311-openeuler24.03-lts-aarch64.tar.gz --no-check-certificatedocker load -i ./mindie_2.0.T3-20250417-800I-A2-py311-openeuler24.03-lts-aarch64.tar.gz
3. 硬件要求
1)部署 GLM-4-0414 系列模型至少需要1台Atlas 800I A2服务器
2)支持 TP =1/2/4/8 推理
4. 新建容器
目前提供的 MindIE 镜像预置了 GLM-Z1-9B-0414 系列模型推理脚本,无需再额外下载模型适配代码,直接新建容器即可。
如果您使用的是 root 用户镜像(例如从 Ascend Hub 上取得),并且可以使用特权容器,请使用以下命令启动容器:
docker run -it -d --net=host --shm-size=1g \--privileged \--name <container-name> \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \-v /usr/local/sbin:/usr/local/sbin:ro \-v /path-to-weights:/path-to-weights:ro \<IMAGE ID> bash
如果您希望使用自行构建的普通用户镜像,并且规避容器相关权限风险,可以使用以下命令指定用户与设备:
docker run -it -d --net=host --shm-size=1g \--name <container-name> \--device=/dev/davinci_manager \--device=/dev/hisi_hdc \--device=/dev/devmm_svm \--device=/dev/davinci0 \--device=/dev/davinci1 \--device=/dev/davinci2 \--device=/dev/davinci3 \--device=/dev/davinci4 \--device=/dev/davinci5 \--device=/dev/davinci6 \--device=/dev/davinci7 \-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \-v /usr/local/sbin:/usr/local/sbin:ro \-v /path-to-weights:/path-to-weights:ro \<IMAGE ID> bash
更多镜像使用信息请参考官方镜像仓库文档:
https://gitee.com/ascend/ascend-docker-image/tree/dev/mindie
03 容器内环境配置
由于 GLM-4-0414 系列模型依赖最新版本 transformers,因此需要更改容器内 transformers 版本并使其兼容 PyTorch 2.1.0。
1. 首先进入容器:
docker exec -it ${容器名称} bash
2. 下载源码:
git clone https://github.com/huggingface/transformers.git
3. 修改 transformers/utils/generic.py 中 355 行左右 from torch.utils._pytree import register_pytree_node 为 from torch.utils._pytree import _register_pytree_node,使高版本 transformers 兼容 PyTorch 2.1.0:
def __init_subclass__(cls) -> None:"""Register subclasses as pytree nodes.This is necessary to synchronize gradients when using `torch.nn.parallel.DistributedDataParallel` with`static_graph=True` with modules that output `ModelOutput` subclasses."""if is_torch_available():if version.parse(get_torch_version()) >= version.parse("2.2"):from torch.utils._pytree import register_pytree_noderegister_pytree_node(cls,_model_output_flatten,partial(_model_output_unflatten, output_type=cls),serialized_type_name=f"{cls.__module__}.{cls.__name__}",)else:# 修改这里from torch.utils._pytree import _register_pytree_node# 修改这里_register_pytree_node(cls,_model_output_flatten,partial(_model_output_unflatten, output_type=cls),)
4. 从源码安装 transformers:
pip install ./transformers
另外若后续服务化出现错误,可能是读取 chat_template 时 ASCII 编码错误导致,需要修改 transformers/tokenization_utils_base.py 约 2160 行左右,从:
with open(chat_template_file) as chat_template_handle:
修改为:
with open(chat_template_file, encoding="utf-8") as chat_template_handle:
确保 transforemrs>=4.51.3。
可能需要安装 einops:
pip3 install einops
04 模型性能及特点
纯模型推理
对话测试
进入 llm_model 路径
cd $ATB_SPEED_HOME_PATH
执行对话测试
torchrun --nproc_per_node 2 \--master_port 20037 \-m examples.run_pa \--model_path ${权重路径} \--input_texts 'What is deep learning?' \--max_output_length 20
服务化推理
打开配置文件
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
更改配置文件
{..."ServerConfig" :{..."port" : 1025, #自定义"managementPort" : 1026, #自定义"metricsPort" : 1027, #自定义..."httpsEnabled" : false,...},"BackendConfig": {..."npuDeviceIds" : [[0,1,2,3]],..."ModelDeployConfig":{"ModelConfig" : [{..."modelName" : "chatglm","modelWeightPath" : "/data/datasets/GLM-Z1-9B-0414","worldSize" : 4,...}]},...}}
拉起服务化
cd /usr/local/Ascend/mindie/latest/mindie-service/bin./mindieservice_daemon
新建窗口测试(VLLM 接口)
curl 127.0.0.1:1025/generate -d '{"prompt": "What is deep learning?","max_tokens": 32,"stream": false,"do_sample":true,"temperature": 0.6,"top_p": 0.95,"model": "chatglm"}'服务化推理的更多信息请参考MindIE Service 用户指南:
https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0001.html
欢迎体验
欢迎大家下载体验昇腾MindIE版GLM-4-0414 系列模型,也欢迎广大开发者在模型评论区留言交流!
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐



所有评论(0)