登录社区云,与社区用户共同成长
邀请您加入社区
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
📌 鲲鹏 920 通常搭配 DDR4-2400/3200,单线程 ~15-20 GB/s,16 线程 ~80-120 GB/s 属于正常范围。例如:单线程 Triad = 18 GB/s,16 线程 Triad = 120 GB/s。Stream 的测试数组必须远大于 L3 缓存,否则测到的是缓存速度,不是内存速度。📌 你的机器是单路 16 核(NUMA node(s): 1),(1G/2G/
摘要:华为昇思MindSpore框架为大模型提供高效量化解决方案,支持INT8/INT4等多种精度,通过静态/动态量化技术实现模型体积压缩75%以上、推理速度提升2-4倍。该方案包含离线量化(PTQ)和量化感知训练(QAT)两种方式,支持Llama、Qwen等主流大模型,仅需一行代码即可完成量化。实测显示Qwen-7B模型INT8量化后精度损失小于0.8%,INT4量化后体积降至3.25GB。Mi
本文对比了MindSpore Transformers和Megatron-LM两大主流大模型训练框架的精度表现。实验采用相同硬件环境(NVIDIA A100 GPU)和模型配置(GPT-2小型模型),严格对齐超参数与精度设置。结果显示两者在训练困惑度(12.3 vs 12.5)、验证困惑度(13.1 vs 13.3)等核心指标上差异小于1.6%,收敛曲线重合度达95%。差异主要源于底层算子实现和权
昇思大模型评估框架是MindSpore生态的核心组件,专为语言模型和多模态模型提供标准化评估方案。该框架采用四层架构设计,支持60余种学术数据集和Llama、Qwen等主流模型,涵盖知识理解、逻辑推理等评估维度。通过深度适配昇腾NPU,评估效率较CPU提升5倍以上。框架提供精度、生成质量和效率三类核心指标,支持自定义评估任务与指标扩展。配套代码示例展示了从环境配置到结果分析的全流程评估实现,包括精
摘要:MindSpore框架提供四种分布式并行训练模式(数据并行、半自动并行、自动并行、混合并行),支持昇腾、GPU等硬件平台。通过SPMD编程范式实现多设备协同训练,开发者无需修改模型结构即可快速实现分布式训练。本文详细解析四种并行模式原理,提供数据并行和半自动并行的完整代码示例,涵盖通信初始化、数据集切分、模型配置等关键环节,并给出性能优化技巧。MindSpore的分布式能力显著降低开发门槛,
昇腾算力集群是基于华为昇腾芯片构建的AI计算系统,采用分层架构设计: 硬件层:以昇腾NPU为核心计算单元(Ascend 910训练芯片/Ascend 310推理芯片),搭配鲲鹏CPU和高速互联网络(HCCS协议,带宽200Gbps),通过分布式存储系统实现PB级数据支撑。 软件层:包含昇思MindSpore框架(原生适配昇腾硬件)和推理优化工具(如Ascend-vLLM),提供自动并行、显存优化等
昇思推理框架是华为昇腾AI生态的核心组件,实现AI模型从训练到部署的全流程闭环。该框架采用三层架构设计,支持多语言接口、模型优化和全场景硬件适配,具备轻量化、高性能特点。应用覆盖计算机视觉、自然语言处理、医疗科研等领域,显著提升工业质检、智能客服等场景的效率和准确率。实战代码展示了从模型转换到服务化部署的全过程,验证了其作为算法与应用桥梁的易用性和高效性,为AI技术规模化落地提供有力支撑。
昇思MindSpore大模型通过思维链(CoT)技术显著提升复杂推理任务性能。该技术采用分步推理方式,将问题拆解为多步中间过程,支持零样本、少样本、自洽采样等多种范式。依托MindFormers套件和盘古/DeepSeek等大模型,昇思提供完整的CoT实现方案,包括环境配置、代码实践和优化要点。实践表明,CoT技术使数学推理准确率提升至85%以上,多跳问答错误率降低40%。结合昇腾NPU硬件加速,
昇思(MindSpore)推理系统优化聚焦性能、资源、精度和工程四大目标,在硬件、模型、部署等多重约束下,通过图算融合、内存复用、混合精度等关键技术实现平衡。系统提供端到端优化方案,包括环境配置、图算融合、KVCache优化等代码示例,可在昇腾平台上实现时延降低50%+、内存减少60%+、吞吐提升2-5倍的效果,同时满足精度要求,适用于端边云全场景AI推理部署。
明确了方向,下一个问题是:这套系统该怎么搭?这个项目最终确立了"一底座、一平台、多场景"的架构体系。理解这个选择背后的逻辑,比记住这几个字本身更重要。项目的核心解法是算力池化:通过 Kubernetes + Volcano 高性能调度引擎,开发统一的 Device Plugin 插件,将昇腾、寒武纪、海光 DCU 等不同品牌算力抽象为标准资源对象,在 K8s 集群中统一申领和分配。