Linux调度器概述

Linux内核调度器是操作系统核心组件,负责决定哪个进程在何时使用CPU。其设计目标是在公平性和效率之间取得平衡,同时满足从交互式桌面应用到高性能计算和实时任务等多种工作负载的需求。现代Linux内核采用了一种模块化的调度架构,核心是“完全公平调度器”(CFS)来处理普通任务,并为实时任务提供了独立的调度类。这两种调度类共同协作,构成了Linux强大而灵活的进程调度系统。

完全公平调度器(CFS)的核心思想

CFS的设计理念源于一个简单的概念:在理想的、完美的多任务系统中,每个可运行的进程都应该能够同时获得1/n的处理器时间(n为可运行进程的数量)。由于物理CPU在同一时刻只能运行一个任务,CFS通过虚拟运行时间(vruntime)来逼近这种理想状态。每个任务都有一个vruntime,它记录了该任务在CPU上运行的时间,但经过了加权计算。CFS总是选择vruntime最小的任务来运行,这意味着等待CPU时间最长的任务(即vruntime增长最慢的任务)将获得下次运行的机会。

虚拟运行时间(vruntime)的计算

vruntime的增长速度与任务的优先级(nice值)密切相关。高优先级任务(低nice值)的vruntime增长较慢,这意味着在相同物理时间内,其累积的虚拟时间更少,从而更频繁地被调度器选中。计算公式可以简化为:vruntime += delta_exec NICE_0_LOAD / weight。其中,delta_exec是实际执行时间,weight是与任务优先级对应的权重。通过这种方式,CFS将优先级差异转化为时间分配的差异,实现了带权重的公平。

红黑树与调度实体

为了高效地找到vruntime最小的任务,CFS使用红黑树(一种自平衡的二叉搜索树)来组织所有可运行的任务(称为调度实体)。调度实体可以是单个进程,也可以是进程组(当启用组调度时)。任务被加入运行队列时,以其vruntime作为键值插入红黑树。调度器每次只需选择树最左侧的节点(即vruntime最小的任务)即可,其时间复杂度为O(log N),非常高效。

实时调度类(SCHED_FIFO与SCHED_RR)

实时任务对可预测性和低延迟有苛刻要求,Linux为此提供了两个实时调度策略:SCHED_FIFO(先入先出)和SCHED_RR(轮转)。它们的优先级均高于CFS调度类。SCHED_FIFO任务一旦占用CPU,便会一直运行,直到其主动让出CPU、被更高优先级的实时任务抢占或阻塞。SCHED_RR在SCHED_FIFO的基础上增加了时间片概念,同优先级的任务以轮转方式分享CPU,防止一个任务独占处理器。

调度类的优先级与协作

Linux内核中,调度类按照优先级顺序被组织在一个链表中。实时调度类(rt_sched_class)的优先级最高,紧随其后的是公平调度类(fair_sched_class)。调度器在挑选下一个任务时,会从优先级最高的调度类开始检查。只要实时运行队列中存在可运行的任务,CFS中的任务就没有机会运行。这种严格的优先级机制确保了实时任务能够获得即时响应。

调度点的触发

调度发生在多个时机,主要包括:进程主动休眠或阻塞、定时器中断(检查是否需要抢占)、进程从休眠中被唤醒、以及系统调用显式地让出CPU。在定时器中断中,调度器会检查当前进程的运行时间是否耗尽,或者是否有更高优先级的任务被唤醒,从而触发抢占。

针对实时任务的精细调控

为了满足硬实时系统的需求,Linux提供了丰富的配置参数。sched_setscheduler()系统调用可以设置进程的调度策略和实时优先级(1-99,数值越大优先级越高)。内核参数sched_rt_period_us和sched_rt_runtime_us可以全局控制实时任务在特定周期内所能占用的最大CPU时间,防止配置错误的实时任务导致系统完全饥饿。此外,cgroup的CPU子系统允许为特定的进程组设置CPU配额,实现对实时任务资源的隔离和限制。

总结

Linux内核调度器通过CFS和实时调度类的分层设计,巧妙地兼顾了通用计算环境的公平性与实时应用的时效性。CFS通过虚拟运行时间和红黑树高效地实现了带权重的公平份额分配,而实时调度类则通过严格的优先级机制确保了关键任务的低延迟响应。这种精细而灵活的调控机制,使得Linux能够从容应对从数据中心服务器到嵌入式实时系统等广泛的应用场景。

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐