③【openFuyao 】以开放社区构建算力生态
openFuyao 的长远目标是将其在异构算力抽象、拓扑感知调度上的创新实践,上升为一套被国际认可的。
③【openFuyao 】以开放社区构建算力生态

写在最前面
版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。
在 AI 驱动下的算力竞争已升级为生态系统之争的当下,针对异构算力集群中存在的指令集架构碎片化、软件栈割裂以及资源拓扑感知缺失等核心调度难题,openFuyao 社区提供了一套系统级解决方案。
本文深入阐述 openFuyao 实现算力亲和(Compute-Friendly) 的核心主张,即通过在 Kubernetes(K8s)云原生底座上,部署可插拔的扩展调度器和设备插件,实现 NUMA 拓扑感知、高 QoS 在离线混部、以及 Gang Scheduling 原子性调度等 HPC 级技术赋能。
openFuyao 正以其多方共治的社区框架,有效粘合硬件厂商与应用生态,并以国产化适配优势为战略支点,加速推动异构算力调度标准的全球化演进。

一、 引言:AI 时代的“生态鸿沟”
当前,AI 成功的关键已不再是强大的芯片,而是要解决如何高效、低成本地将算力转化为行业应用价值的问题。计算基础设施已进入一个异构计算为主导的时代,通用处理器(CPU)与专用加速器(GPU、NPU、FPGA)协同工作。然而,这种硬件上的多元化未能同步带来软件生态的统一,反而造成了严重的生态鸿沟,直接阻碍了 AI 技术的产业化落地。
这种生态困境对产业链上的三方角色构成了实质性的制约:
- 硬件厂商的困境(产品市场化挑战): 拥有强大的 NPU 等国产硬件,但如何打破(如 CUDA)的软件生态壁垒?技术是为应用服务的,如果开发者无法快速迁移或编写代码,硬件价值就无法释放。因此,核心问题是如何通过统一的接口吸引开发者,将硬件能力有效地转化为市场产品。
- 应用开发者的困境(研发效率与成本): AI 科学家和数据科学家希望一次编写,处处运行,将精力集中在模型创新而非底层适配。然而,代码被特定硬件的软件栈深度绑定,导致跨架构迁移成本极高,严重拉长了研发周期和试错成本。
- 平台运维方的困境(运营成本与稳定性): 企业和云厂商面对数据中心内 CPU/GPU/NPU 的算力万花筒,缺乏统一的管理平台。这直接导致两个业务问题:资源利用率低(难以实现高效混部)和性能稳定性差(缺乏拓扑感知导致高延迟),最终推高了基础设施的运营成本(TCO)。
面对上述困境,行业迫切需要一个中立、开放且深度优化的软件底座。openFuyao 正是致力于成为连接底层硬件能力与上层 AI 应用的生态****黏合剂,通过开放的社区和标准,从根本上解决异构算力的生态构建难题。

二、 核心主张与定位:以“开放”赋能“生态”
2.1 核心主张:构建“算力亲和”的开放生态
openFuyao 的核心主张是生态赋能。
它不仅要让应用适配算力,更要通过一个开放的框架,让硬件(被集成)、应用(被调度)、运维(被简化) 三方都能轻松接入,共同繁荣。
这种系统级算力亲和(Compute-Friendly)要求调度系统必须具备深度感知能力,并将拓扑信息融入调度决策,以最大限度地降低任务的运行时延迟(Latency)和提高吞吐量(Throughput)。
2.2 愿景与使命:提供多样化算力集群“软件生态”
openFuyao 的愿景是成为多样化算力时代的调度枢纽和管理基座。
其使命是:提供多样化的算力集群软件生态,释放智能的无限价值。
关键词是软件生态,这是连接硬件和应用的核心。
2.3 为生态伙伴提供的技术定位
openFuyao 为每一个生态伙伴提供了清晰的技术接入和价值定位:
- 于硬件厂商: 这是一个开放的硬件接口层。厂商无需重造全套软件栈,只需开发一个可插拔的设备插件,即可快速融入云原生生态,实现硬件价值的最大化。
- 于应用开发者: 这是一个统一的应用编程 接口。它屏蔽了底层硬件差异,提供 AI 推理套件、NUMA 亲和调度等标准能力,助力实现一次开发,处处运行。
- 于平台运维方: 这是一个统一的管理控制平台。通过单一平台实现对所有异构资源的纳管、调度、监控,极大提升资源利用率。

三、 openFuyao 解决方案框架:高信息密度的技术实现
openFuyao 采用 核心平台 + 可插拔组件 的解耦架构,这一设计哲学是其生态战略的技术体现。通过一系列核心技术组件,openFuyao 精准地回应了前述的行业挑战。
为根本解决资源拓扑感知缺失的问题,openFuyao 部署了 拓扑感知调度器,其核心实现是 NUMA 亲和调度 机制。该组件能够深度识别服务器内部的 CPU Socket、内存 banks 与加速卡(如 NPU/GPU)之间的物理连接关系。在任务调度时,系统确保任务的工作负载和所需内存分配在同一 NUMA 域内。这种机制对硬件厂商的价值是充分发挥其多核、多路 CPU 的硬件设计优势;对开发者的价值是无需关心底层拓扑,即可自动获得 HPC 级的低延迟性能。
图为NUMA 亲和调度流程,展示任务如何被智能地分配到距离 NPU 最近的 CPU/内存资源。在创建工作负载并将调度器设置为Volcano后,首先会检查配置的拓扑策略是否正确,再将拓扑策略加入到注解中。之后NUMA感知组件会判断即将调度的节点上的NUMA是否有空闲,最后调度器根据NUMA感知组件的结果及注解中的拓扑策略进行NUMA调度。

针对集群资源利用率低下的固有矛盾,openFuyao 依赖扩展的资源管理器与内核级隔离能力,实现了 在离线混部调度(Co-location Scheduling)。平台引入了高 QoS 的资源隔离策略,利用 Cgroups、内存隔离和 CPU 拓扑管理等内核级机制,将低优先级的离线任务动态部署到在线服务的闲置资源中。平台设计的关键在于,它能在保障在线服务 SLA 的前提下,动态对离线任务进行资源限制或回收,从而大幅提升集群整体的资源利用率(赋能运维方,降低 TCO)。
图为在离线混部调度示例图。集群中的节点规划分为混部节点和非混部节点。一般情况下,在线业务和离线业务部署在混部节点上,普通业务部署在非混部节点上。混部调度器根据当前要部署的业务属性以及集群中节点的混部属性,合理调度当前业务到适当的节点上。在不同QoS级别的负载会对应到不同的负载PriorityClass级别,在进行调度时,混部Scheduler会在调度队列层依照负载PriorityClass进行优先级调度/抢占,确保高优先级任务在调度层级得到优先保障;另一方面,在选择调度节点时,混部Scheduler也会根据每个节点的CPU和内存的真实使用率进行打分,将负载调度到综合CPU和内存使用较低的节点上,最大限度避免节点过热情况。

为解决 AI/HPC 任务对软件碎片化的适应问题,openFuyao 引入了专用批处理作业管理器,其核心实现是 Gang Scheduling(成组调度)。针对分布式 AI 训练任务,要求所有相关的 Pod 或 Worker 必须同时被调度成功。Gang Scheduling 组件确保了任务的原子性,避免了因部分 Pod 无法及时获取资源而导致的集群死锁或低效空转。同时,平台通过高层的抽象和封装,屏蔽底层 Ascend CANN、CUDA 等不同异构硬件的软件栈差异,为应用开发者提供统一的作业接口,实现模型训练和推理的开箱即用。
图为openFuyao Ray概览。在openFuyao平台界面左侧导航栏的“算力优化中心”中,选择“openFuyao Ray > 概览”,进入“概览”界面。概览界面直观展示RayCluster、RayJob、RayService的活跃数量,以及计算资源分配和使用情况。在概览界面“集群监控”区域右侧,单击“View in Grafana”,跳转至Grafana监控面板,查看Ray计算集群的详细监控数据。

四、 社区治理与生态输出路径
openFuyao 的独特之处在于,它将技术演进与社区治理视为同一问题的两个方面:通过开放社区解决技术难题,并通过治理结构保证生态中立性。
openFuyao 强调由华为、中国移动、中国联通等产业龙头共同主导的开放治理结构。这种多方共治模式是建立生态信任的基石,确保了平台的技术中立性,避免了单一厂商锁定,这是吸引多样化硬件厂商加入的前提。社区通过 SIG、GitCode 仓库、贡献指南等机制,是社区成员共同构建生态、解决技术难题的协作平台。
openFuyao 的生态价值输出路径清晰而坚定。首先是国产化适配的生态****黏合剂。openFuyao 凭借其社区资源与技术积累,率先在高精度适配昇腾、鲲鹏等国产异构算力方面形成竞争优势。它通过提供统一的软件接口层,屏蔽了底层国产硬件的差异性,为应用开发者提供了统一的编程模型,这成为解决国内算力基础设施自主可控和生态构建问题的坚实底座。其次是全球算力互联标准的定义者。openFuyao 的长远目标是将其在异构算力抽象、拓扑感知调度上的创新实践,上升为一套被国际认可的开放标准(Open Standard)。它将定义统一的异构算力抽象 API 和调度接口,推动全球范围内的 NPU 或 AI 芯片制造商遵循该标准,将 openFuyao 的技术创新输出为全球基础设施的通用规范。

五、 结论:openFuyao——算力时代的“生态构建师”
openFuyao 的核心价值,不在于重复发明一个调度器,而在于它扮演了生态构建师的角色。它通过开放社区和开放框架这两大支柱,为异构算力打造了一个多方共赢的生态底座。
openFuyao 代表了未来算力调度的技术趋势:极致融合、深度智能、完全开放。它以开放社区为引擎,不仅为国内算力基础设施提供了破局生态鸿沟的中国方案,更致力于成为下一代全球算力互联的开源标准。
openFuyao 社区为硬件厂商、AI 开发者及平台运维提供了清晰的价值主张和参与路径。我们期待与产业各方伙伴携手共进,在共享技术红利的同时,共同塑造和完善下一代算力基础设施的标准。

参考文献
- openFuyao 社区. (2025). 发行说明 | openFuyao文档. https://docs.openfuyao.cn/docs/
- openFuyao 社区. (2025). 快速入门 | openFuyao文档. https://docs.openfuyao.cn/docs/Quick_Start
- 头豹研究院. (2025). 2025年__算力__调度平台行业.
- openFuyao 社区. (2025). _开发指南/_NUMA__亲和调度开发指南. https://docs.openfuyao.cn/docs/Developer_Guide/NUMA_aware_Scheduling_Development_Guide
- ITP.net. (2025). Empowering Global Innovation with an Open, Reliable Computing Alternative. https://www.itp.net/edge/empowering-global-innovation-with-an-open-reliable-computing-alternative
- WuzhouCloud. (2025). openFuyao x 广电五舟:共建复合集流体智能产线系统. https://www.wuzhoucloud.com/news/index2596.html
hello,我是 是Yu欸 。如果你喜欢我的文章,欢迎三连给我鼓励和支持:👍点赞 📁 关注 💬评论,我会给大家带来更多有用有趣的文章。
原文链接 👉 ,⚡️更新更及时。
欢迎大家点开下面名片,添加好友交流。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐


所有评论(0)