4月15日,智谱全新开源GLM-4-0414 系列模型,拥有32B/9B两个尺寸,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。其中,推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度可达 200 Tokens/秒。

魔乐社区同步首发,昇腾MindIE支持GLM-4-0414 系列模型开箱部署。

🔗模型链接如下,欢迎广大开发者下载体验!

•https://modelers.cn/models/MindIE/GLM-4-32B-Base-0414

•https://modelers.cn/models/MindIE/GLM-Z1-Rumination-32B-0414

•https://modelers.cn/models/MindIE/GLM-Z1-32B-0414

•https://modelers.cn/models/MindIE/GLM-Z1-9B-0414

•https://modelers.cn/models/MindIE/GLM-4-32B-0414 

•https://modelers.cn/models/MindIE/GLM-4-9B-0414

01 模型介绍

基座模型 GLM-4-32B-0414 拥有 320 亿参数,其性能可与国内、外参数量更大的主流模型相媲美。该模型利用 15T 高质量数据进行预训练,特别纳入了丰富的推理类合成数据,为后续的强化学习扩展奠定了基础。GLM-4-32B-0414 在工程代码、Artifacts生成、函数调用、搜索问答及报告撰写等任务上均表现出色,部分 Benchmark 指标已接近甚至超越GPT-4o、DeepSeek-V3-0324(671B)等更大模型的水平。

GLM-Z1-32B-0414 是一款具备深度思考能力的推理模型。该模型在 GLM-4-32B-0414 的基础上,采用了冷启动与扩展强化学习策略,并针对数学、代码、逻辑等关键任务进行了深度优化训练。在部分任务上,GLM-Z1-32B-0414 凭借 32B 参数,其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美

GLM-Z1-9B-0414是沿用了上述一系列技术,训练出的一个 9B 的小尺寸模型。虽然参数量更少,但 GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色,整体性能已跻身同尺寸开源模型的领先水平。特别是在资源受限的场景下,该模型可以很好地在效率与效果之间取得平衡,为需要轻量化部署的用户提供强有力的选择。

沉思模型GLM-Z1-Rumination-32B-0414代表了智谱对 AGI 未来形态的下一步探索。与一般推理模型不同,沉思模型通过更多步骤的深度思考来解决高度开放与复杂的问题。该模型支持“自主提出问题—搜索信息—构建分析—完成任务”的完整研究闭环,从而在研究型写作复杂检索任务上的能力得到了显著提升。

以下为手把手教程:(以GLM-Z1-9B-0414+MindIE推理为例)

02 准备运行环境

1. 下载权重

从魔乐社区下载模型权重:https://modelers.cn/models/zhipuai/GLM-Z1-9B-0414 (或点击文末阅读原文直达)

下载权重后更改权重路径下的config.json,修改"model_type": "chatglm";并增加键值对:"_name_or_path": "THUDM/glm-4-9b-chat",更改后样例:

{
  "_name_or_path": "THUDM/glm-4-9b-chat", // 增加键值对,不管是什么模型都是这个 key
  "architectures": ["Glm4ForCausalLM"],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "eos_token_id": [151329, 151336, 151338],
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 6144,
  "initializer_range": 0.02,
  "intermediate_size": 23040,
  "max_position_embeddings": 131072,
  "model_type": "chatglm", // 从 glm4 改为 chatglm
  "num_attention_heads": 48,
  "num_hidden_layers": 61,
  "num_key_value_heads": 8,
  "pad_token_id": 151329,
  "partial_rotary_factor": 0.5,
  "rms_norm_eps": 1e-5,
  "rope_theta": 10000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.52.0.dev0",
  "use_cache": true,
  "vocab_size": 151552
}

2. 加载镜像

下载镜像并加载:

wget https://mindx.sdk.obs.cn-north-4.myhuaweicloud.com/MindIE/docker/mindie_2.0.T3-20250417-800I-A2-py311-openeuler24.03-lts-aarch64.tar.gz --no-check-certificatedocker load -i ./mindie_2.0.T3-20250417-800I-A2-py311-openeuler24.03-lts-aarch64.tar.gz

 3. 硬件要求

1)部署 GLM-4-0414 系列模型至少需要1台Atlas 800I A2服务器

2)支持 TP =1/2/4/8 推理

4. 新建容器

目前提供的 MindIE 镜像预置了 GLM-Z1-9B-0414 系列模型推理脚本,无需再额外下载模型适配代码,直接新建容器即可。

如果您使用的是 root 用户镜像(例如从 Ascend Hub 上取得),并且可以使用特权容器,请使用以下命令启动容器:

docker run -it -d --net=host --shm-size=1g \    --privileged \    --name <container-name> \    --device=/dev/davinci_manager \    --device=/dev/hisi_hdc \    --device=/dev/devmm_svm \    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \    -v /usr/local/sbin:/usr/local/sbin:ro \    -v /path-to-weights:/path-to-weights:ro \    <IMAGE ID> bash

如果您希望使用自行构建的普通用户镜像,并且规避容器相关权限风险,可以使用以下命令指定用户与设备:

​​​​​​​

docker run -it -d --net=host --shm-size=1g \    --name <container-name> \    --device=/dev/davinci_manager \    --device=/dev/hisi_hdc \    --device=/dev/devmm_svm \    --device=/dev/davinci0 \    --device=/dev/davinci1 \    --device=/dev/davinci2 \    --device=/dev/davinci3 \    --device=/dev/davinci4 \    --device=/dev/davinci5 \    --device=/dev/davinci6 \    --device=/dev/davinci7 \    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \    -v /usr/local/sbin:/usr/local/sbin:ro \    -v /path-to-weights:/path-to-weights:ro \    <IMAGE ID> bash

更多镜像使用信息请参考官方镜像仓库文档:

https://gitee.com/ascend/ascend-docker-image/tree/dev/mindie

03 容器内环境配置

由于 GLM-4-0414 系列模型依赖最新版本 transformers,因此需要更改容器内 transformers 版本并使其兼容 PyTorch 2.1.0。

1. 首先进入容器:

docker exec -it ${容器名称} bash

2. 下载源码:

git clone https://github.com/huggingface/transformers.git

3. 修改 transformers/utils/generic.py 中 355 行左右 from torch.utils._pytree import register_pytree_node 为 from torch.utils._pytree import _register_pytree_node,使高版本 transformers 兼容 PyTorch 2.1.0:​​​​​​​

def __init_subclass__(cls) -> None:        """Register subclasses as pytree nodes.         This is necessary to synchronize gradients when using `torch.nn.parallel.DistributedDataParallel` with        `static_graph=True` with modules that output `ModelOutput` subclasses.        """        if is_torch_available():            if version.parse(get_torch_version()) >= version.parse("2.2"):                from torch.utils._pytree import register_pytree_node                 register_pytree_node(                    cls,                    _model_output_flatten,                    partial(_model_output_unflatten, output_type=cls),                    serialized_type_name=f"{cls.__module__}.{cls.__name__}",                )            else:                # 修改这里                from torch.utils._pytree import _register_pytree_node                 # 修改这里                _register_pytree_node(                    cls,                    _model_output_flatten,                    partial(_model_output_unflatten, output_type=cls),                )

4. 从源码安装 transformers:

pip install ./transformers

另外若后续服务化出现错误,可能是读取 chat_template 时 ASCII 编码错误导致,需要修改 transformers/tokenization_utils_base.py 约 2160 行左右,从:

with open(chat_template_file) as chat_template_handle:

修改为:

with open(chat_template_file, encoding="utf-8") as chat_template_handle:

确保 transforemrs>=4.51.3。

可能需要安装 einops:

pip3 install einops

04 模型性能及特点

纯模型推理

对话测试

进入 llm_model 路径

cd $ATB_SPEED_HOME_PATH

执行对话测试​​​​​​​

torchrun --nproc_per_node 2 \         --master_port 20037 \         -m examples.run_pa \         --model_path ${权重路径} \         --input_texts 'What is deep learning?' \         --max_output_length 20

服务化推理

打开配置文件

vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json

更改配置文件

{..."ServerConfig" :{..."port" : 1025, #自定义"managementPort" : 1026, #自定义"metricsPort" : 1027, #自定义..."httpsEnabled" : false,...}, "BackendConfig": {..."npuDeviceIds" : [[0,1,2,3]],..."ModelDeployConfig":{"ModelConfig" : [{..."modelName" : "chatglm","modelWeightPath" : "/data/datasets/GLM-Z1-9B-0414","worldSize" : 4,...}]},...}}

拉起服务化​​​​​​​

cd /usr/local/Ascend/mindie/latest/mindie-service/bin./mindieservice_daemon

新建窗口测试(VLLM 接口)​​​​​​​

curl 127.0.0.1:1025/generate -d '{  "prompt": "What is deep learning?",  "max_tokens": 32,  "stream": false,  "do_sample":true,  "temperature": 0.6,  "top_p": 0.95,  "model": "chatglm"}'
​​​​​​​服务化推理的更多信息请参考MindIE Service 用户指南:

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0001.html

欢迎体验

欢迎大家下载体验昇腾MindIE版GLM-4-0414 系列模型,也欢迎广大开发者在模型评论区留言交流!

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐