引言:当“逆摩尔定律”遇见算力工程化瓶颈

        在“逆摩尔定律”的驱动下,AI模型的算力需求每3-4个月翻番。然而,对于大多数企业和智算中心而言,购置高性能硬件仅仅是第一步。在实际的工程落地中,开发者和运维人员往往面临着比硬件短缺更棘手的问题:算力空转与技术栈隔离。

        如何让昂贵的算力资源真正“跑满”?如何在国产化替代的浪潮中,让国产算力从“能用”走向“好用”?这需要我们在软件层面上构建一套能够屏蔽底层硬件差异的调度与管理体系。

一、 智算中心的技术“黑洞”:三大核心痛点

        走进现代化的智算中心或高校实验室,除去硬件本身,我们更常看到的是软件层面的困局:

        异构管理的复杂性(Heterogeneity): 随着国产算力的崛起,数据中心往往同时存在英伟达GPU、华为昇腾NPU、海光DCU等多种芯片。不同芯片对应不同的驱动(CUDA, CANN, ROCm),导致技术栈割裂,统一纳管难度极高。

        调度软件缺陷导致的资源利用率低下:

  1. 智算中心往往采用传统的整卡独占模式:在传统分配方式下,小任务(如推理)占用整张卡,却仅用 <10% 算力和显存
  2. 在使用过程中会产生任务调度失衡:导致小任务单卡用不完,大任务单机不够用。传统零散调度下,分布式任务(如 8 卡训练)启动后,若其中 1-2 张卡被高优先级小任务(如推理)抢占,会直接导致整个训练任务中断、重启 —— 不仅浪费已投入的算力 / 时间,还会因反复重启进一步拉低计算卡有效利用率。
  3. 业务潮汐效应:推理业务波峰波谷差异大,按峰值扩容导致平均负载低。

        开发环境的“配置地狱”: 算法工程师在进行模型创新前,往往需要花费大量时间处理驱动版本冲突、依赖库缺失等环境问题,这也是阻碍AI工程化落地的“最后一公里”。

二、 技术解法:构建“算力操作系统”中间件

        为了解决上述痛点,业界提出了**“软件定义算力”**的思路。即在底层硬件与上层应用之间,构建一层调度管理软件(类似操作系统的角色),核心需要具备以下技术能力:

        (一)异构资源的逻辑池化

        打破物理服务器的边界,将不同节点的GPU/NPU资源汇聚成一个逻辑上的“算力池”。通过标准的API接口,对上层应用屏蔽底层物理差异。这意味着,用户无需关心任务是运行在物理机A还是物理机B上,只需关注所需的算力规格。

        (二)细粒度切分与虚拟化技术

        针对“大卡小用”的问题,利用vGPU或类似的虚拟化技术,将物理显卡在显存和算力维度进行切分。

        技术指标: 理想的调度系统应支持最小1%颗粒度的切分。

        应用场景: 在推理场景或教学场景中,一块高性能卡可以虚拟化为多个vGPU/vNPU,供多人同时使用,互不干扰。

        (三)MLOps 全流程自动化

        基于容器化技术(Docker/Kubernetes),预置适配各厂商架构(如昇腾CANN)的开发环境。从数据集挂载、Jupyter环境启动到模型部署,实现全链路的自动化流转。

三、 实践案例:基于华为昇腾架构的调度适配

        理论落地需要坚实的生态支撑。近期,佳杰云星(伟仕佳杰 00856.HK 旗下)自主研发的AI算力调度管理软件正式入驻华为昇腾AI社区(Ascend Community),这提供了一个很好的国产化适配观察样本。

        作为工信部首批《可信云·多云管理解决方案认证》厂商,佳杰云星的技术实践主要集中在以下几个维度解决国产算力的“好用”问题:

        1. 深度适配昇腾全栈(Ascend Native)

        不同于简单的API调用,该方案完成了与华为Atlas 800/9000系列硬件的深度底层适配。

        统一纳管: 实现了对Ascend 910系列的统一调度。

        异构融合: 支持在同一集群内混合管理昇腾NPU与其他主流GPU,解决了智算中心新旧硬件混用的难题。

        2. 算力利用率优化策略

        利用虚拟化切分技术,针对昇腾芯片特性进行了定制优化:

        推理侧: 支持NPU的切分共享。如在RAG(检索增强生成)场景下除了需要LLM(大规模预训练语言模型)外,还需要部署文本嵌入(Embedding)和 重排序(Reranking)等模型。这两种模型的参数量较小,往往只需要几百兆的显存,如果分配实体卡进行部署会造成资源浪费,此场景使用切分后的vNPU进行小模型的推理部署,会大大提升NPU计算卡的使用率。

        实测效果: 通过精细化的在离线混部策略,可显著提升NPU集群的综合利用率。

        3. 开发者友好的环境封装

        针对昇腾开发者,平台预置了深度适配CANN架构的Notebook环境。开发者无需手动配置CANN包和依赖,实现了“开箱即用”。覆盖了从“算法开发 -> 训练作业 -> 模型部署”的AI全生命周期。

四、 结语与展望

        国产算力的黄金时代,始于芯片算力的突破,而成于软件生态的繁荣。

  

四、 结语与展望

        国产算力的黄金时代,始于芯片算力的突破,而成于软件生态的繁荣。通过软件定义算力,让算力像水电一样——随处可得、弹性供应,这将是智算中心未来的必然形态。


        目前,该异构算力调度方案已在华为昇腾社区上线,为开发者提供技术支持。

相关技术文档与方案详情: 可访问华为昇腾社区搜索“佳杰云星”获取,或直接查阅方案页:https://www.hiascend.com/marketplace/solution/detail/2435

更多技术干货、开源项目、架构解读 🌟 请持续关注 佳杰云星 💬 欢迎在评论区留言或私信交流异构调度技术~

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐