构建CPU+xPU协同推理加速底座

CSDN资讯

64人浏览 · 2026-06-18 11:00:31

CSDN资讯 · 2026-06-18 11:00:31 发布

推理场景PD/AF异构分离及调度，异构空闲算力有效填充；计算流、通信流多流并发、轻量级运行时，使能vllm-ascend在昇腾硬件上高效运行；Token级传输及小包聚合，有效提升DSA模型长序列场景吞吐。

特性介绍

长输出、多并发场景，受显存影响出现暂停，CPU侧资源则出现空闲等情况；单算子并发效率不高，图模式padding组图造成资源浪费，灵活性受限；长序列推理需实现解码阶段KV在DDR/片上内存swap，当前以block为粒度放大搬移数据量，恶化PCIe/UB（UnifiedBus）等总线带宽不足问题。

基于鲲鹏+昇腾+openEuler，实现CPU+NPU在算力协同、算子下发效率、灵活性、内存协同多维度优化，有效解决以上问题。

算力协同：通过openEuler社区sysHax特性，根据xPU负载情况，基于vllm PD分离技术深度优化，将部分decode任务卸载到CPU，实现中小模型LLM推理吞吐量提升；基于MoE模型AF分离技术深度优化CPU算力填充部分MoE专家任务，attention计算保留在GPU，实现并发量提升。

轻量运行时：通过openEuler社区轻量级Transformer模型运行时xlite，基于vllm-ascend在GraphWrapper层面及算子层面结合内深度优化，实现多流并发(计算流、通信流)，有效避免Python的GC、线程等干扰，灵活调度缓解图算子模式padding 带来的算力浪费，目前支持Qwen系列、Llama系列、DeepSeek-R1、GLM等模型。

内存协同：针对DS/GLM模型DSA技术特点，全量KV保存在DDR，解码过程从DDR 按需搬移KV至片上内存特点，基于vllm /vllm-ascend增强，提供KV Token级搬移(按需搬移)及小包聚合，有效提升解码阶段从DDR搬移至片上内存的效率。