如何探索下一代硬件的性能天花板?

Lchhhhh666

6人浏览 · 2026-03-20 18:35:42

Lchhhhh666 · 2026-03-20 18:35:42 发布

模型的性能很大程度上由算子的性能决定。本次直播将对网络中常见重点算子的优化思路与实现过程进行拆解，帮助开发者清晰理解算子从基础实现到高效优化的完整路径，充分释放昇腾下一代硬件的澎湃性能，提升模型性能。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

GPUStack 在华为昇腾 800I A2 服务器上的保姆级部署指南

鲲鹏昇腾开发者社区

在openEuler（昇腾平台）上基于Conda安装CANN和PyTorch的完整过程

本文总结了在Conda环境中配置Ascend NPU环境的完整过程。首先通过创建activate.d文件夹实现自动加载set_env.sh脚本，解决了每次激活环境都需要手动设置的问题。随后详细记录了安装PyTorch 2.6.0和torch-npu过程中遇到的依赖缺失问题，包括numpy、decorator、scipy、attrs、psutil等模块的逐一安装过程。最终成功运行了简单的矩阵运算测试

鲲鹏昇腾开发者社区

智谱GLM-5 1 day适配华为昇腾（国产），744B模型单机高效推理，全量保姆配置过程

验证结构（应含 config.json, tokenizer, pytorch_model*.bin）"messages": [{"role": "user", "content": "你好！# 应输出 8 张 NPU 卡信息（Device ID 0~7）原始 BF16 模型（1.5TB）无法单机部署，必须使用。text = "A" * 190000# 模拟长输入。# 安装 CANN Toolki

鲲鹏昇腾开发者社区

所有评论(0)

查看更多评论