登录社区云,与社区用户共同成长
邀请您加入社区
模型的性能很大程度上由算子的性能决定。本次直播将对网络中常见重点算子的优化思路与实现过程进行拆解,帮助开发者清晰理解算子从基础实现到高效优化的完整路径,充分释放昇腾下一代硬件的澎湃性能,提升模型性能。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
GPUStack 在华为昇腾 800I A2 服务器上的保姆级部署指南
在openEuler(昇腾平台)上基于Conda安装CANN和PyTorch的完整过程
本文总结了在Conda环境中配置Ascend NPU环境的完整过程。首先通过创建activate.d文件夹实现自动加载set_env.sh脚本,解决了每次激活环境都需要手动设置的问题。随后详细记录了安装PyTorch 2.6.0和torch-npu过程中遇到的依赖缺失问题,包括numpy、decorator、scipy、attrs、psutil等模块的逐一安装过程。最终成功运行了简单的矩阵运算测试
智谱GLM-5 1 day适配华为昇腾(国产),744B模型单机高效推理,全量保姆配置过程
验证结构(应含 config.json, tokenizer, pytorch_model*.bin)"messages": [{"role": "user", "content": "你好!# 应输出 8 张 NPU 卡信息(Device ID 0~7)原始 BF16 模型(1.5TB)无法单机部署,必须使用。text = "A" * 190000# 模拟长输入。# 安装 CANN Toolki
扫一扫分享内容
所有评论(0)