如何理解Linux調(diào)度器設(shè)計(jì)和實(shí)現(xiàn)

一、前言

隨著內(nèi)核版本的演進(jìn)，其源代碼的膨脹速度也在遞增，這讓Linux的學(xué)習(xí)曲線變得越來(lái)越陡峭了。這對(duì)初識(shí)內(nèi)核的同學(xué)而言當(dāng)然不是什么好事情，滿腔熱情很容易被當(dāng)頭澆滅。我有一個(gè)循序漸進(jìn)的方法，那就是先不要看最新的內(nèi)核，首先找到一個(gè)古老版本的內(nèi)核（一般都會(huì)比較簡(jiǎn)單），將其吃透，然后一點(diǎn)點(diǎn)的迭代，理解每個(gè)版本變更背后的緣由和目的，最終推進(jìn)到最新內(nèi)核版本。

本文就是從2.4時(shí)代的任務(wù)調(diào)度器開始，詳細(xì)描述其實(shí)現(xiàn)并慢慢向前遞進(jìn)。當(dāng)然，為了更好的理解Linux調(diào)度器設(shè)計(jì)和實(shí)現(xiàn)，我們?cè)诘诙陆o出了一些通用的概念。之后，我們會(huì)在第四章講述O（1）調(diào)度器如何改進(jìn)并提升調(diào)度器性能。真正有劃時(shí)代意義的是CFS調(diào)度器，在2.6.23版本的內(nèi)核中并入主線。它的設(shè)計(jì)思想是那么的眩目，即便是目前最新的內(nèi)核中，完全公平的設(shè)計(jì)思想仍然沒(méi)有太大變化，這些我們會(huì)在第六章描述。第五章是關(guān)于公平調(diào)度思想的引入，通過(guò)這一章可以了解Con Kolivas的RSDL調(diào)度器，它是開啟公平調(diào)度的先鋒，通過(guò)這一章的鋪墊，我們可以更順暢的理解CFS。

二、任務(wù)調(diào)度器概述

為了不引起混亂，我們一開始先澄清幾個(gè)概念。進(jìn)程調(diào)度器是傳統(tǒng)的說(shuō)法，但是實(shí)際上進(jìn)程是資源管理的單位，線程才是調(diào)度的單位，但是線程調(diào)度器的說(shuō)法讓我覺(jué)得很不舒服，因此最終采用進(jìn)程調(diào)度器或者任務(wù)調(diào)度器的說(shuō)法。為了節(jié)省字，本文有些地方也直接簡(jiǎn)稱調(diào)度器，此外，除非特別說(shuō)明，本文中的“進(jìn)程”指的是task struct代表的那個(gè)實(shí)體，畢竟這是一篇講調(diào)度器的文檔。

任務(wù)調(diào)度器是操作系統(tǒng)一個(gè)很重要的部件，它的主要功能就是把系統(tǒng)中的task調(diào)度到各個(gè)CPU上去執(zhí)行滿足如下的性能需求：

1、對(duì)于time-sharing的進(jìn)程，調(diào)度器必須是公平的

2、快速的進(jìn)程響應(yīng)時(shí)間

3、系統(tǒng)的throughput要高

4、功耗要小

當(dāng)然，不同的任務(wù)有不同的需求，因此我們需要對(duì)任務(wù)進(jìn)行分類：一種是普通進(jìn)程，另外一種是實(shí)時(shí)進(jìn)程。對(duì)于實(shí)時(shí)進(jìn)程，毫無(wú)疑問(wèn)快速響應(yīng)的需求是最重要的，而對(duì)于普通進(jìn)程，我們需要兼顧前三點(diǎn)的需求。相信你也發(fā)現(xiàn)了，這些需求是互相沖突的，對(duì)于這些time-sharing的普通進(jìn)程如何平衡設(shè)計(jì)呢？這里需要進(jìn)一步將普通進(jìn)程細(xì)分為交互式進(jìn)程（interactive processs）和批處理進(jìn)程（batch process）。交互式進(jìn)程需要和用戶進(jìn)行交流，因此對(duì)調(diào)度延遲比較敏感，而批處理進(jìn)程屬于那種在后臺(tái)默默干活的，因此它更注重throughput的需求。當(dāng)然，無(wú)論如何，分享時(shí)間片的普通進(jìn)程還是需要兼顧公平，不能有人大魚大肉，有人連湯都喝不上。功耗的需求其實(shí)一直以來(lái)都沒(méi)有特別被調(diào)度器重視，當(dāng)然在linux大量在手持設(shè)備上應(yīng)用之后，調(diào)度器不得不面對(duì)這個(gè)問(wèn)題了，當(dāng)然限于篇幅，本文就不展開了。

為了達(dá)到這些設(shè)計(jì)目標(biāo)，調(diào)度器必須要考慮某些調(diào)度因素，比如說(shuō)“優(yōu)先級(jí)”、“時(shí)間片”等。很多RTOS的調(diào)度器都是priority-based的，官大一級(jí)壓死人，調(diào)度器總是選擇優(yōu)先級(jí)最高的那個(gè)進(jìn)程執(zhí)行。而在Linux內(nèi)核中，優(yōu)先級(jí)就是實(shí)時(shí)進(jìn)程調(diào)度的主要考慮因素。而對(duì)于普通進(jìn)程，如何細(xì)分時(shí)間片則是調(diào)度器的核心思考點(diǎn)。過(guò)大的時(shí)間片會(huì)嚴(yán)重?fù)p傷系統(tǒng)的響應(yīng)延遲，讓用戶明顯能夠感知到延遲，卡頓，從而影響用戶體驗(yàn)。較小的時(shí)間片雖然有助于減少調(diào)度延遲，但是頻繁的切換對(duì)系統(tǒng)的throughput會(huì)造成嚴(yán)重的影響。因?yàn)檫@時(shí)候大部分的CPU時(shí)間用于進(jìn)程切換，而忘記了它本來(lái)的功能其實(shí)就是推動(dòng)任務(wù)的執(zhí)行。

由于Linux是一個(gè)通用操作系統(tǒng)，它的目標(biāo)是星辰大海，既能運(yùn)行在嵌入式平臺(tái)上，又能在服務(wù)器領(lǐng)域中獲得很好的性能表現(xiàn)，此外在桌面應(yīng)用場(chǎng)景中，也不能讓用戶有較差的用戶體驗(yàn)。因此，Linux任務(wù)調(diào)度器的設(shè)計(jì)是一個(gè)極具挑戰(zhàn)性的工作，需要在各種有沖突的需求中維持平衡。還好，經(jīng)過(guò)幾十年內(nèi)核黑客孜孜不倦的努力，Linux內(nèi)核正在向著最終目標(biāo)邁進(jìn)。

三、2.4時(shí)代的O（n）調(diào)度器

網(wǎng)上有很多的linux內(nèi)核考古隊(duì)，挖掘非常古老內(nèi)核的設(shè)計(jì)和實(shí)現(xiàn)。雖然我對(duì)進(jìn)程調(diào)度器歷史感興趣，但是我只對(duì)“近代史”感興趣，因此，讓我們從2.4時(shí)代開始吧，具體的內(nèi)核版本我選擇的是2.4.18版本，該版本的調(diào)度器相關(guān)軟件結(jié)構(gòu)可以參考下面的圖片：

本章所有的描述都是基于上面的軟件結(jié)構(gòu)圖。

1、進(jìn)程描述符

struct task_struct {
volatile long need_resched;
long counter;
long nice;
unsigned long policy;
int processor;
unsigned long cpus_runnable, cpus_allowed;
struct list_head run_list;
unsigned long rt_priority;
......
};

對(duì)于2.4內(nèi)核，進(jìn)程切換有兩種，一種是當(dāng)進(jìn)程由于需要等待某種資源而無(wú)法繼續(xù)執(zhí)行下去，這時(shí)候只能是主動(dòng)將自己掛起（調(diào)用schedule函數(shù)），引發(fā)一次任務(wù)調(diào)度過(guò)程。另外一種是進(jìn)程歡快執(zhí)行，但是由于各種調(diào)度事件的發(fā)生（例如時(shí)間片用完）而被迫讓出CPU，被其他進(jìn)程搶占。這時(shí)候的調(diào)度并不是立刻發(fā)送，而是延遲執(zhí)行，具體的方法是設(shè)定當(dāng)前進(jìn)程的need_resched等于1，然后靜靜的等待最近一個(gè)調(diào)度點(diǎn)的來(lái)臨，當(dāng)調(diào)度點(diǎn)到來(lái)的時(shí)候，內(nèi)核會(huì)調(diào)用schedule函數(shù)，搶占當(dāng)前task的執(zhí)行。

nice成員就是普通進(jìn)程的靜態(tài)優(yōu)先級(jí)，通過(guò)NICE_TO_TICKS宏可以將一個(gè)進(jìn)程的靜態(tài)優(yōu)先級(jí)映射成缺省時(shí)間片，保存在counter成員中。因此在一次調(diào)度周期開始的時(shí)候，counter其實(shí)就是該進(jìn)程分配的CPU時(shí)間額度（對(duì)于睡眠的進(jìn)程還有些獎(jiǎng)勵(lì)，后面會(huì)描述），以tick為單位，并且在每個(gè)tick到來(lái)的時(shí)候減一，直到耗盡其時(shí)間片，然后等待下一個(gè)調(diào)度周期從頭再來(lái)。

Policy是調(diào)度策略，2.4內(nèi)核主要支持三種調(diào)度策略，SCHED_OTHER是普通進(jìn)程，SCHED_RR和SCHED_FIFO是實(shí)時(shí)進(jìn)程。SCHED_RR和SCHED_FIFO的調(diào)度策略在rt_priority不同的時(shí)候，都是誰(shuí)的優(yōu)先級(jí)高誰(shuí)先執(zhí)行，唯一的不同是相同優(yōu)先級(jí)的處理：SCHED_RR采用時(shí)間片輪轉(zhuǎn)，而SCHED_FIFO采用的策略是先到先得，先占有CPU的進(jìn)程會(huì)持續(xù)執(zhí)行，直到退出或者阻塞的時(shí)候才會(huì)讓出CPU。也只有這時(shí)候，其他同優(yōu)先級(jí)的實(shí)時(shí)進(jìn)程才有機(jī)會(huì)執(zhí)行。如果進(jìn)程是實(shí)時(shí)進(jìn)程，那么rt_priority表示該進(jìn)程的靜態(tài)優(yōu)先級(jí)。這個(gè)成員對(duì)普通進(jìn)程是無(wú)效的，可以設(shè)定為0。除了上面描述的三種調(diào)度策略，policy成員也可以設(shè)定SCHED_YIELD的標(biāo)記，當(dāng)然它和調(diào)度策略無(wú)關(guān)，主要處理sched_yield系統(tǒng)調(diào)用的。

Processor、cpus_runnable和cpus_allowed這三個(gè)成員都是和CPU相關(guān)。Processor說(shuō)明了該進(jìn)程正在執(zhí)行（或者上次執(zhí)行）的邏輯CPU號(hào)；cpus_allowed是該task允許在那些CPU上執(zhí)行的掩碼；cpus_runnable是為了計(jì)算一個(gè)指定的進(jìn)程是否適合調(diào)度到指定的CPU上去執(zhí)行而引入的，如果該進(jìn)程沒(méi)有被任何CPU執(zhí)行，那么所有的bit被設(shè)定為1，如果進(jìn)程正在被某個(gè)CPU執(zhí)行，那么正在執(zhí)行的CPU bit設(shè)定為1，其他設(shè)定為0。具體如何使用cpus_runnable可以參考can_schedule函數(shù)。

run_list成員是鏈接入各種鏈表的節(jié)點(diǎn)，下一小節(jié)會(huì)描述內(nèi)核如何組織task，這里不再贅述。

2、如何組織task

Linux2.4版本的進(jìn)程調(diào)度器使用了非常簡(jiǎn)陋的方法來(lái)管理可運(yùn)行狀態(tài)的進(jìn)程。調(diào)度器模塊定義了一個(gè)runqueue_head的鏈表頭變量，無(wú)論進(jìn)程是普通進(jìn)程還是實(shí)時(shí)進(jìn)程，只要進(jìn)程狀態(tài)變成可運(yùn)行狀態(tài)的時(shí)候，它會(huì)被掛入這個(gè)全局runqueue鏈表中。隨著系統(tǒng)的運(yùn)行，runqueue鏈表中的進(jìn)程會(huì)不斷的插入或者移除。例如當(dāng)fork進(jìn)程的時(shí)候，新鮮出爐的子進(jìn)程會(huì)掛入這個(gè)runqueue。當(dāng)阻塞或者退出的時(shí)候，進(jìn)程會(huì)從這個(gè)runqueue中刪除。但是無(wú)論如何變遷，調(diào)度器始終只是關(guān)注這個(gè)全局runqueue鏈表中的task，并把最適合的那個(gè)任務(wù)丟到CPU上去執(zhí)行。由于整個(gè)系統(tǒng)中的所有CPU共享一個(gè)runqueue，為了解決同步問(wèn)題，調(diào)度器模塊定義了一個(gè)自旋鎖來(lái)保護(hù)對(duì)這個(gè)全局runqueue的并發(fā)訪問(wèn)

除了這個(gè)runqueue隊(duì)列，系統(tǒng)還有一個(gè)囊括所有task（不管其進(jìn)程狀態(tài)為何）的鏈表，鏈表頭定義為init_task，在一個(gè)調(diào)度周期結(jié)束后，重新為task賦初始時(shí)間片值的時(shí)候會(huì)用到該鏈表。此外，進(jìn)入sleep狀態(tài)的進(jìn)程分別掛入了不同的等待隊(duì)列中。當(dāng)然，由于這些進(jìn)程鏈表和調(diào)度關(guān)系不是那么密切，因此上圖中并沒(méi)有標(biāo)識(shí)出來(lái)。

3、動(dòng)態(tài)優(yōu)先級(jí)和靜態(tài)優(yōu)先級(jí)

所謂靜態(tài)優(yōu)先級(jí)就是task固有的優(yōu)先級(jí)，不會(huì)隨著進(jìn)程的行為而改變。對(duì)于實(shí)時(shí)進(jìn)程，靜態(tài)優(yōu)先級(jí)就是rt_priority，而對(duì)于普通進(jìn)程，靜態(tài)優(yōu)先級(jí)就是（20 – nice）。然而實(shí)際上調(diào)度器在進(jìn)行調(diào)度的時(shí)候，并沒(méi)有采用靜態(tài)優(yōu)先級(jí)，而是比對(duì)動(dòng)態(tài)優(yōu)先級(jí)來(lái)決定誰(shuí)更有資格獲得CPU資源，當(dāng)然動(dòng)態(tài)優(yōu)先級(jí)的計(jì)算是基于靜態(tài)優(yōu)先級(jí)的。

在計(jì)算動(dòng)態(tài)優(yōu)先級(jí)（goodness函數(shù)）的時(shí)候，我們可以分成兩種情況：實(shí)時(shí)進(jìn)程和普通進(jìn)程。對(duì)于實(shí)時(shí)進(jìn)程而言，動(dòng)態(tài)優(yōu)先級(jí)等于靜態(tài)優(yōu)先級(jí)加上一個(gè)固定的偏移：

weight = 1000 + p->rt_priority;

之所以這么做是為了將實(shí)時(shí)進(jìn)程和普通進(jìn)程區(qū)別開，這樣的操作也保證了實(shí)時(shí)進(jìn)程會(huì)完全優(yōu)先于普通進(jìn)程的調(diào)度。而對(duì)于普通進(jìn)程，動(dòng)態(tài)優(yōu)先級(jí)的計(jì)算稍微有些復(fù)雜，我們可以摘錄部分代碼如下：

weight = p->counter;
if (!weight)
goto out;
weight += 20 - p->nice;

對(duì)于普通進(jìn)程，計(jì)算動(dòng)態(tài)優(yōu)先級(jí)的策略如下：

（1）如果該進(jìn)程的時(shí)間片已經(jīng)耗盡，那么動(dòng)態(tài)優(yōu)先級(jí)是0，這也意味著在本次調(diào)度周期中該進(jìn)程已經(jīng)再也沒(méi)有機(jī)會(huì)獲取CPU資源了。

（2）如果該進(jìn)程的時(shí)間片還有剩余，那么其動(dòng)態(tài)優(yōu)先級(jí)等于該進(jìn)程剩余的時(shí)間片和靜態(tài)優(yōu)先級(jí)之和。之所以用（20-nice value）表示靜態(tài)優(yōu)先級(jí)，主要是為了讓靜態(tài)優(yōu)先級(jí)變成單調(diào)上升。之所以要考慮剩余時(shí)間片是為了獎(jiǎng)勵(lì)睡眠的進(jìn)程，因?yàn)樗叩倪M(jìn)程剩余的時(shí)間片較多，因此動(dòng)態(tài)優(yōu)先級(jí)也就會(huì)高一些，更容易被調(diào)度器調(diào)度執(zhí)行。

調(diào)度器是根據(jù)動(dòng)態(tài)優(yōu)先級(jí)來(lái)進(jìn)行調(diào)度，誰(shuí)大就先執(zhí)行誰(shuí)。我們可以用普通進(jìn)程作為例子：如果進(jìn)程靜態(tài)優(yōu)先級(jí)高（即nice value小），剩余時(shí)間片多，那么必定是優(yōu)先執(zhí)行。如果靜態(tài)優(yōu)先級(jí)高，但是所剩時(shí)間片無(wú)幾，那么可能會(huì)讓位給其他剩余時(shí)間片較多，優(yōu)先級(jí)適中的任務(wù)。靜態(tài)優(yōu)先級(jí)低的任務(wù)毫無(wú)疑問(wèn)是受到雙重打擊，因?yàn)楸緛?lái)它的缺省時(shí)間片就不多，而且優(yōu)先級(jí)也很低。不過(guò)，無(wú)論靜態(tài)優(yōu)先級(jí)如何高，只要時(shí)間片用完，那么低優(yōu)先級(jí)的任務(wù)總是能夠有機(jī)會(huì)執(zhí)行，不至于餓死。

在計(jì)算普通進(jìn)程的動(dòng)態(tài)優(yōu)先級(jí)的時(shí)候，除了考慮進(jìn)程剩余時(shí)間片信息和靜態(tài)優(yōu)先級(jí)，調(diào)度器也會(huì)酌情考慮cache和TLB的性能問(wèn)題。例如，例如A和B進(jìn)程優(yōu)先級(jí)相同，剩余的時(shí)間片都是3個(gè)tick，但是A進(jìn)程上一次就是運(yùn)行在本CPU上，如果選擇A，可能會(huì)有更好的cache和TLB的命中率，從而提高性能。在這種情況下，調(diào)度器會(huì)提升A進(jìn)程的動(dòng)態(tài)優(yōu)先級(jí)。此外，如果備選進(jìn)程和當(dāng)前進(jìn)程共享同一個(gè)地址空間，那么在計(jì)算調(diào)度指數(shù)的時(shí)候也會(huì)做小小的傾斜。這里有兩種可能的情況：一種是備選進(jìn)程和當(dāng)前進(jìn)程在一個(gè)線程組中（即是進(jìn)程中的兩個(gè)線程），另外一種情況是備選進(jìn)程是內(nèi)核線程，這時(shí)候，它往往會(huì)借用上一個(gè)進(jìn)程地址空間。不論是哪一種情況，在進(jìn)程切換的時(shí)候，由于不需要進(jìn)行進(jìn)程地址空間的切換，因此也會(huì)有性能的優(yōu)勢(shì)。

3、調(diào)度時(shí)機(jī)

對(duì)于2.4內(nèi)核，產(chǎn)生調(diào)度的時(shí)機(jī)主要包括：

（1）進(jìn)程主動(dòng)發(fā)起調(diào)度。

（2）在timer中斷處理中發(fā)現(xiàn)當(dāng)前進(jìn)程耗盡其時(shí)間片

（3）進(jìn)程喚醒的時(shí)候（例如喚醒一個(gè)RT進(jìn)程）。更詳細(xì)的信息可以參考下一個(gè)小節(jié)。

（4）父進(jìn)程在fork的時(shí)候，其時(shí)間片會(huì)均分到父子進(jìn)程，但是如果只剩下一個(gè)tick，這個(gè)tick會(huì)分配給子進(jìn)程，而父進(jìn)程的時(shí)間片則被清零，這時(shí)候，進(jìn)程遭遇的場(chǎng)景等同與在timer中斷處理中發(fā)現(xiàn)當(dāng)前進(jìn)程耗盡其時(shí)間片。如果父進(jìn)程在fork的時(shí)候，其時(shí)間片較大，父子進(jìn)程的時(shí)間片都不為0，這時(shí)候的場(chǎng)景類似于喚醒進(jìn)程。因?yàn)檫@兩個(gè)場(chǎng)景都是向runqueue中添加了一個(gè)task node，從而引發(fā)的調(diào)度。

（5）進(jìn)程切換的時(shí)候。當(dāng)在系統(tǒng)中的某個(gè)CPU上發(fā)生了進(jìn)程切換，例如A任務(wù)切換到了B任務(wù)，這時(shí)候是否A任務(wù)就失去了執(zhí)行的機(jī)會(huì)了呢？當(dāng)然也未必，因?yàn)殡m然競(jìng)爭(zhēng)本CPU失敗，但是也許其他的CPU上運(yùn)行的task動(dòng)態(tài)優(yōu)先級(jí)還不如A呢，抑或正好其他CPU有進(jìn)入idle狀態(tài)，正等待著新進(jìn)程入駐。

（6）用戶進(jìn)程主動(dòng)讓出CPU的時(shí)候

（7）用戶進(jìn)程修改調(diào)度參數(shù)的時(shí)候

上面的種種場(chǎng)景，除了進(jìn)程主動(dòng)調(diào)度之外，其他的場(chǎng)景都不是立刻調(diào)度schedule函數(shù)，而是設(shè)定need_resched標(biāo)記，然后等待調(diào)度點(diǎn)的到來(lái)。由于2.4內(nèi)核不是preemptive kernel，因此調(diào)度點(diǎn)總是在返回用戶空間的時(shí)候才會(huì)到來(lái)。當(dāng)調(diào)度點(diǎn)到來(lái)的時(shí)候，進(jìn)程調(diào)度就會(huì)在該CPU上啟動(dòng)。搶占的場(chǎng)景太多，我們選擇進(jìn)程喚醒的場(chǎng)景來(lái)詳細(xì)描述，其他場(chǎng)景大家自行分析吧。

4、進(jìn)程喚醒的處理

當(dāng)進(jìn)程被喚醒的時(shí)候（try_to_wake_up），該task會(huì)被加入到那個(gè)全局runqueue中，但是是否啟動(dòng)調(diào)度還需要進(jìn)行一系列的判斷。為了能清楚的描述這個(gè)場(chǎng)景，我們定義執(zhí)行喚醒的那個(gè)進(jìn)程是waker，而被喚醒的進(jìn)程是wakee。Wakeup有兩種，一種是sync wakeup，另外一種是non-sync wakeup。所謂sync wakeup就是waker在喚醒wakee的時(shí)候就已經(jīng)知道自己很快就進(jìn)入sleep狀態(tài)，而在調(diào)用try_to_wake_up的時(shí)候最好不要進(jìn)行搶占，因?yàn)閣aker很快就主動(dòng)發(fā)起調(diào)度了。此外，一般而言，waker和wakee會(huì)有一定的親和性（例如它們通過(guò)share memory進(jìn)行通信），在SMP場(chǎng)景下，waker和wakee調(diào)度在一個(gè)CPU上執(zhí)行的時(shí)候往往可以獲取較佳的性能。而如果在try_to_wake_up的時(shí)候就進(jìn)行調(diào)度，這時(shí)候wakee往往會(huì)調(diào)度到系統(tǒng)中其他空閑的CPU上去。這時(shí)候，通過(guò)sync wakeup，我們往往可以避免不必要的CPU bouncing。對(duì)于non-sync wakeup而言，waker和wakee沒(méi)有上面描述的同步關(guān)系，waker在喚醒wakee之后，它們之間是獨(dú)立運(yùn)作，因此在喚醒的時(shí)候就可以嘗試去觸發(fā)一次調(diào)度。

當(dāng)然，也不是說(shuō)sync wakeup就一定不調(diào)度，假設(shè)waker在CPU A上喚醒wakee，而根據(jù)wakee進(jìn)程的cpus_allowed成員發(fā)現(xiàn)它根本不能在CPU A上調(diào)度執(zhí)行，那么管他sync不sync，這時(shí)候都需要去嘗試調(diào)度（調(diào)用reschedule_idle函數(shù)），反正waker和wakee命中注定是天各一方（在不同的CPU上執(zhí)行）。

我們首先看看UP上的情況。這時(shí)候waker和wakee在同一個(gè)CPU上運(yùn)行（當(dāng)然系統(tǒng)中也只有一個(gè)CPU，哈哈），這時(shí)候誰(shuí)能搶占CPU資源完全取決于waker和wakee的動(dòng)態(tài)優(yōu)先級(jí)，如果wakee的動(dòng)態(tài)優(yōu)先級(jí)大于waker，那么就標(biāo)記waker的need_resched標(biāo)志，并在調(diào)度點(diǎn)到來(lái)的時(shí)候調(diào)用schedule函數(shù)進(jìn)行調(diào)度。

SMP情況下，由于系統(tǒng)的CPU資源比較多，waker和wakee沒(méi)有必要爭(zhēng)個(gè)你死我活，wakee其實(shí)也可以選擇去其他CPU執(zhí)行，相關(guān)的算法大致如下：

（1）優(yōu)先調(diào)度wakee去系統(tǒng)其他空閑的CPU上執(zhí)行，如果wakee上次運(yùn)行的CPU恰好處于idle狀態(tài)的時(shí)候，可以考慮優(yōu)先將wakee調(diào)度到那個(gè)CPU上執(zhí)行。如果不是，那么需要掃描系統(tǒng)中所有的CPU找到最合適的idle CPU。所謂最合適就是指最近才進(jìn)入idle的那個(gè)CPU。

（2）如果所有的CPU都是busy的，那么需要遍歷所有CPU上當(dāng)前運(yùn)行的task，比對(duì)它們的動(dòng)態(tài)優(yōu)先級(jí)，找到動(dòng)態(tài)優(yōu)先級(jí)最低的那個(gè)CPU。

（3）如果動(dòng)態(tài)優(yōu)先級(jí)最低的那個(gè)task的優(yōu)先級(jí)仍然高于wakee，那么沒(méi)有必要調(diào)度，runqueue中的wakee需要耐心等待下一次機(jī)會(huì)。如果wakee的動(dòng)態(tài)優(yōu)先級(jí)高于找到的那個(gè)動(dòng)態(tài)優(yōu)先級(jí)最低的task，那么標(biāo)記其need_resched標(biāo)志。如果不是搶占waker，那么我們還需要發(fā)送IPI去觸發(fā)該CPU的調(diào)度。

當(dāng)然，這是2.4內(nèi)核調(diào)度器的設(shè)計(jì)選擇，實(shí)際上這樣的操作值得商榷。限于篇幅，本文就不再展開敘述，如果有機(jī)會(huì)寫負(fù)載均衡的文章就可以好好的把這些關(guān)系梳理一下。

5、主調(diào)度器算法

主調(diào)度器（schedule函數(shù)）核心代碼如下：

list_for_each(tmp, &runqueue_head) {
p = list_entry(tmp, struct task_struct, run_list);
int weight = goodness(p, this_cpu, prev->active_mm);
if (weight > c)
c = weight, next = p;
}

list_for_each用來(lái)遍歷runqueue_head鏈表上的所有的進(jìn)程，臨時(shí)變量p就是本次需要檢查的進(jìn)程描述符。如何判斷哪一個(gè)進(jìn)程是最適合調(diào)度執(zhí)行的進(jìn)程呢？我們需要計(jì)算進(jìn)程的動(dòng)態(tài)優(yōu)先級(jí)（對(duì)應(yīng)上面程序中的變量weight），它是通過(guò)goodness函數(shù)實(shí)現(xiàn)的。動(dòng)態(tài)優(yōu)先級(jí)最大的那個(gè)進(jìn)程就是當(dāng)前最適合調(diào)度到CPU執(zhí)行的進(jìn)程。一旦選中，調(diào)度器會(huì)啟動(dòng)進(jìn)程切換，運(yùn)行該進(jìn)程以替換之前的那個(gè)進(jìn)程。

根據(jù)代碼可知：即便鏈表第一個(gè)節(jié)點(diǎn)就是最合的下一個(gè)要調(diào)度執(zhí)行的進(jìn)程，調(diào)度器算法仍然會(huì)遍歷全局runqueue鏈表，一一比對(duì)。由此我們可以判斷2.4內(nèi)核中的調(diào)度器的算法復(fù)雜度是O（n）。一旦選中了下一個(gè)要執(zhí)行的進(jìn)程，進(jìn)程切換模塊就會(huì)在該CPU上執(zhí)行具體的進(jìn)程切換。

對(duì)于SCHED_RR的實(shí)時(shí)進(jìn)程，優(yōu)先級(jí)相等的情況下還需要有一個(gè)時(shí)間片輪轉(zhuǎn)的概念。因此，在遍歷鏈表之前我們就先處理該進(jìn)程的時(shí)間片處理：

if (unlikely(prev->policy == SCHED_RR))
if (!prev->counter) {
prev->counter = NICE_TO_TICKS(prev->nice);
move_last_runqueue(prev);
}

如果時(shí)間片（對(duì)應(yīng)上面程序中的prev->counter）用完，SCHED_RR的實(shí)時(shí)進(jìn)程會(huì)被移到runqueue鏈表的尾部。通過(guò)這樣的處理，優(yōu)先級(jí)相等的SCHED_RR在遍歷runqueue鏈表的時(shí)候會(huì)命中鏈表中的第一個(gè)task，從而實(shí)現(xiàn)時(shí)間片輪轉(zhuǎn)的概念。這里有一個(gè)比較奇葩的事情就是SCHED_RR的時(shí)間片是根據(jù)其nice value設(shè)定，而實(shí)際上nice value應(yīng)該只適用于普通進(jìn)程的。

6、時(shí)間片處理

普通進(jìn)程的時(shí)間片處理思路是這樣：

（1）每個(gè)進(jìn)程根據(jù)其靜態(tài)優(yōu)先級(jí)可以固定分配一個(gè)缺省的時(shí)間片，靜態(tài)優(yōu)先級(jí)越大，分配的時(shí)間片就越大。

（2）一旦Runqueue中的進(jìn)程被調(diào)度執(zhí)行，那么其時(shí)間片就會(huì)在tick到來(lái)的時(shí)候遞減，如果進(jìn)程時(shí)間片耗盡，那么該進(jìn)程將失去分配CPU資源的資格。

（3）Runqueue中的進(jìn)程的時(shí)間片全部被用完之后，我們稱一個(gè)調(diào)度周期結(jié)束，這時(shí)候需要為runqueue中的進(jìn)程重新設(shè)定其缺省時(shí)間片，這樣，一個(gè)新的調(diào)度周期又開始了。

如何確定每個(gè)進(jìn)程的缺省時(shí)間片呢？由于時(shí)間片是按照tick來(lái)分配的，那么最小的時(shí)間片也是1個(gè)tick，也就是說(shuō)最低優(yōu)先級(jí)（nice value等于19）的缺省時(shí)間片就是1個(gè)tick。對(duì)于中間優(yōu)先級(jí)（nice value等于0）的時(shí)間片，我們將其設(shè)定為50ms左右，具體的算法大家可以自行參考NICE_TO_TICKS的代碼實(shí)現(xiàn)。不得不承認(rèn)這個(gè)根據(jù)nice value計(jì)算缺省時(shí)間片的過(guò)程還是很丑陋的，不同的HZ設(shè)定，計(jì)算得到的缺省時(shí)間片是不一樣的。也就是說(shuō)系統(tǒng)的調(diào)度行為和HZ的設(shè)定有關(guān)，這叫有代碼潔癖的同學(xué)如何能夠接受。不論如何，我們還是給出實(shí)際的例子來(lái)感受一下：

?	－20	－10	0	10	19
HZ=100	11個(gè)tick 110ms	8個(gè)tick 80ms	6個(gè)tick 60ms	3個(gè)tick 30ms	1個(gè)tick 10ms
HZ=1000	81個(gè)tick 81ms	61個(gè)tick 61ms	41個(gè)tick 41ms	21tick 21ms	3個(gè)tick 3ms

當(dāng)runqueue中所有進(jìn)程的時(shí)間片耗盡之后，這時(shí)候就會(huì)開啟一次重新加載進(jìn)程缺省時(shí)間片的過(guò)程，代碼如下（在schedule函數(shù)中）：

if (unlikely(!c)) {
struct task_struct *p;
for_each_task(p)
p->counter = (p->counter >> 1) + NICE_TO_TICKS(p->nice);
goto repeat_schedule;
}

這里c就是遍歷runqueue鏈表之后找到的最大動(dòng)態(tài)優(yōu)先級(jí)，如果它等于0則說(shuō)明：首先，系統(tǒng)中沒(méi)有處于可運(yùn)行狀態(tài)的實(shí)時(shí)進(jìn)程，其次，所有的處于可運(yùn)行狀態(tài)的普通進(jìn)程都已經(jīng)消耗完了它們的時(shí)間片，這時(shí)候是需要重新“充值”了。for_each_task這個(gè)宏是遍歷所有系統(tǒng)中的進(jìn)程描述符，不論是否是可運(yùn)行狀態(tài)的。對(duì)于掛入runqueue鏈表中的普通進(jìn)程而言，其當(dāng)前的時(shí)間片p->counter已經(jīng)是等于0了，因此它獲得的新的時(shí)間片就是NICE_TO_TICKS(p->nice)，也就是根據(jù)nice value計(jì)算得到的缺省時(shí)間片。對(duì)于掛入等待隊(duì)列中處于睡眠狀態(tài)的進(jìn)程而言，其時(shí)間片p->counter還有剩余，當(dāng)然會(huì)累積到進(jìn)程時(shí)間片配額中，這也算是對(duì)睡眠進(jìn)程的一種獎(jiǎng)勵(lì)吧。為了防止經(jīng)常睡眠的交互式進(jìn)程獲得過(guò)于龐大的時(shí)間片，這里并不是累積其全部存留時(shí)間片，而是打了個(gè)對(duì)折(p->counter >> 1)。

新的一個(gè)周期開始了，當(dāng)前進(jìn)程已經(jīng)在CPU上奔跑了，消耗其時(shí)間片的代碼位于timer中斷處理中，如下：

if (--p->counter <= 0) {
p->counter = 0;
p->need_resched = 1;
}

每一個(gè)tick到來(lái)的時(shí)候，進(jìn)程的時(shí)間片都會(huì)減一，當(dāng)時(shí)間片是0的時(shí)候，調(diào)度器剝奪其執(zhí)行的權(quán)力，從而從而引發(fā)一次調(diào)度，選擇其他時(shí)間片不是0的進(jìn)程運(yùn)行，直到runqueue中的所有進(jìn)程時(shí)間片耗盡，又會(huì)重新賦值，開始一個(gè)新的周期。調(diào)度器就這樣周而復(fù)始，推動(dòng)整個(gè)系統(tǒng)的運(yùn)作。

四、2.6時(shí)代的O（1）調(diào)度器

1、Why O（1）調(diào)度器

如果簡(jiǎn)單是判斷調(diào)度器好壞的唯一標(biāo)準(zhǔn)，那么無(wú)疑O（n）調(diào)度器是最優(yōu)秀的調(diào)度器。雖然它非常的簡(jiǎn)單，容易理解，但是存在嚴(yán)重的擴(kuò)展性問(wèn)題和性能問(wèn)題。下面讓我們一起來(lái)控訴O（n）調(diào)度器的“七宗罪”，同時(shí)這也是Ingo Molnar發(fā)起O（1）調(diào)度器項(xiàng)目背后的原因。

（1）算法復(fù)雜度問(wèn)題

讓人最不爽的就是對(duì)runqueue隊(duì)列的遍歷，當(dāng)系統(tǒng)中runnable進(jìn)程不多的時(shí)候，遍歷鏈表的開銷還可以接受，但是隨著系統(tǒng)中runnable狀態(tài)的進(jìn)程數(shù)目增多，那么調(diào)度器select next的運(yùn)算量也隨之呈線性的增長(zhǎng)，這也是我們?yōu)槭裁唇兴麿（n）調(diào)度器的原因。

此外，調(diào)度周期結(jié)束后，調(diào)度器會(huì)為所有進(jìn)程的時(shí)間片進(jìn)行“充值“的動(dòng)作。在大型系統(tǒng)中，同時(shí)存在的進(jìn)程（包括睡眠的進(jìn)程）可能會(huì)有數(shù)千個(gè)，為每一個(gè)進(jìn)程計(jì)算其時(shí)間片的過(guò)程太耗費(fèi)時(shí)間。

（2）SMP擴(kuò)展性問(wèn)題

2.4內(nèi)核的O（n）調(diào)度器有非常差的SMP擴(kuò)展性。我們知道，O（n）調(diào)度器是通過(guò)一個(gè)鏈表來(lái)管理系統(tǒng)中的所有的等待調(diào)度的進(jìn)程，訪問(wèn)這個(gè)runqueue鏈表的場(chǎng)景很多：進(jìn)行調(diào)度的時(shí)候，我們需要遍歷runqueue，找到合適的next task；wakeup或者block進(jìn)程的時(shí)候，我們需要從runqueue中增加節(jié)點(diǎn)或者刪除節(jié)點(diǎn)……在訪問(wèn)runqueue這個(gè)鏈表的時(shí)候，我們都會(huì)首先會(huì)上自旋鎖，同時(shí)disable本地CPU中斷，然后訪問(wèn)鏈表執(zhí)行相應(yīng)的動(dòng)作，完成之后釋放鎖，開中斷。通過(guò)這樣的內(nèi)核同步機(jī)制，我們可以保證來(lái)自多個(gè)CPU對(duì)runqueue鏈表的并發(fā)訪問(wèn)。當(dāng)系統(tǒng)中的CPU數(shù)目比較少的時(shí)候，自旋鎖的開銷還可以接受，但是在大型系統(tǒng)中，CPU數(shù)目非常多，這時(shí)候runqueue spin lock就成為系統(tǒng)的性能瓶頸。

（3）CPU空轉(zhuǎn)問(wèn)題

每當(dāng)runqueue鏈表中的所有進(jìn)程耗盡了其時(shí)間片，這時(shí)候就需要啟動(dòng)對(duì)系統(tǒng)中所有進(jìn)程時(shí)間片重新計(jì)算的過(guò)程。這個(gè)計(jì)算過(guò)程異常丑陋，需要遍歷系統(tǒng)中的所有進(jìn)程（注意：是所有進(jìn)程?。瑸檫M(jìn)程描述符的counter成員賦一個(gè)新值。而這個(gè)操作足以把該CPU上的L1 cache全部干掉。當(dāng)完成了時(shí)間片重新計(jì)算過(guò)程后，你幾乎面對(duì)的就是一個(gè)全空的L1 cache（當(dāng)然不是全空，主要是cache中的數(shù)據(jù)沒(méi)有任何意義，這時(shí)候L1 cache的命中率急劇下降）。除此之外，時(shí)間片重新計(jì)算過(guò)程會(huì)帶來(lái)CPU資源的浪費(fèi)，我們用下面的圖片來(lái)描述：

在runqueue隊(duì)列中的全部進(jìn)程時(shí)間片被耗盡之前，系統(tǒng)總會(huì)處于這樣一個(gè)狀態(tài)：最后的一組尚存時(shí)間片的進(jìn)程分分別調(diào)度到各個(gè)CPU上去。我們以4個(gè)CPU為例，T0～T3分別運(yùn)行在CPU0~CPU3上。隨著系統(tǒng)的運(yùn)行，CPU2上的T2首先耗盡了其時(shí)間片，但是這時(shí)候，其實(shí)CPU2上也是無(wú)法進(jìn)行調(diào)度的，因?yàn)楸闅vrunqueue鏈表，找不到適合的進(jìn)程調(diào)度運(yùn)行，因此它只能是處于idle狀態(tài)。也許隨后T0和T3也耗盡其時(shí)間片，從而導(dǎo)致CPU0和CPU3也進(jìn)入了idle狀態(tài)?，F(xiàn)在只剩下最后一個(gè)進(jìn)程T1仍然在CPU1上運(yùn)行，而其他系統(tǒng)中的處理器處于idle狀態(tài)，白白的浪費(fèi)資源。唯一能改變這個(gè)狀態(tài)的是T1耗盡其時(shí)間片，從而啟動(dòng)一個(gè)重新計(jì)算時(shí)間片的過(guò)程，這時(shí)候，正常的調(diào)度就可以恢復(fù)了。隨著系統(tǒng)中CPU數(shù)目的加大，資源浪費(fèi)會(huì)越來(lái)越嚴(yán)重。

（4）task bouncing issue

一般而言，一個(gè)進(jìn)程最好是從一而終，假如它運(yùn)行在系統(tǒng)中的某個(gè)CPU中，那么在其處于可運(yùn)行狀態(tài)的過(guò)程中，最好是一直保持在該CPU上運(yùn)行。不過(guò)在O（n）調(diào)度器下，很多人都反映有進(jìn)程在CPU之間跳來(lái)跳去的現(xiàn)象。其根本的原因也是和時(shí)間片算法相關(guān)。在一個(gè)新的周期開后，runqueue中的進(jìn)程時(shí)間片都是滿滿的，在各個(gè)CPU上調(diào)度進(jìn)程的時(shí)候，它可選擇的比較多，再加上調(diào)度器傾向于調(diào)度上次運(yùn)行在本CPU的進(jìn)程，因此調(diào)度器有很大的機(jī)會(huì)把上次運(yùn)行的進(jìn)程調(diào)度到同一個(gè)處理器上。但是隨著runqueue中的進(jìn)程一個(gè)個(gè)的耗盡其時(shí)間片，cpu可選擇的余地在不斷的壓縮，從而導(dǎo)致進(jìn)程執(zhí)行在一個(gè)和它親和性不大的處理器（例如上次該進(jìn)程運(yùn)行在CPU0，但是這個(gè)將其調(diào)度到CPU1執(zhí)行，但是實(shí)際上該進(jìn)程和CPU0的親和性更大些）。

（5）RT進(jìn)程調(diào)度性能問(wèn)題

實(shí)時(shí)調(diào)度的性能一般。通過(guò)上一節(jié)的介紹，我們知道，實(shí)時(shí)進(jìn)程和普通進(jìn)程掛在一個(gè)鏈表中。當(dāng)調(diào)度實(shí)時(shí)進(jìn)程的時(shí)候，我們需要遍歷整個(gè)runqueue列表，掃描并計(jì)算所有進(jìn)程的調(diào)度指數(shù)，從而選擇出心儀的那個(gè)實(shí)時(shí)進(jìn)程。按理說(shuō)實(shí)時(shí)進(jìn)程和普通進(jìn)程位于不同的調(diào)度空間，兩不相干，但是現(xiàn)在調(diào)度實(shí)時(shí)進(jìn)程還需要掃描計(jì)算普通進(jìn)程，這樣糟糕的算法讓那些關(guān)注實(shí)時(shí)性的工程師不能忍受。

當(dāng)然，上面的這些還不是關(guān)鍵，最重要的是整個(gè)linux內(nèi)核不是搶占式內(nèi)核，在整個(gè)內(nèi)核態(tài)都不能被搶占。對(duì)于一些比較耗時(shí)（可能幾個(gè)毫秒）的系統(tǒng)調(diào)用或者中斷處理，必須返回用戶空間才啟動(dòng)調(diào)度是不可接受的。除了內(nèi)核搶占性之外，優(yōu)先級(jí)翻轉(zhuǎn)問(wèn)題也需要引起調(diào)度器的重視，否則即便一個(gè)rt進(jìn)程變成runnable狀態(tài)了，但是也只能眼睜睜的看著比它優(yōu)先級(jí)低的進(jìn)程運(yùn)行，直到該rt進(jìn)程等待的資源被釋放。

（6）交互式普通進(jìn)程的調(diào)度延遲問(wèn)題

O（n）并不區(qū)分交互式進(jìn)程和批處理進(jìn)程，它只是獎(jiǎng)勵(lì)經(jīng)常睡眠的那些進(jìn)程。但是有些批處理進(jìn)程也屬于IO-bound進(jìn)程，例如數(shù)據(jù)庫(kù)服務(wù)進(jìn)程，它本身是一個(gè)后臺(tái)進(jìn)程，對(duì)調(diào)度延遲不敏感，但是由于它需要和磁盤打交道，因此也會(huì)經(jīng)常阻塞在disk IO上。對(duì)這樣的后臺(tái)進(jìn)程進(jìn)行動(dòng)態(tài)優(yōu)先級(jí)的升高其實(shí)是沒(méi)有意義的，會(huì)增大其他交互式進(jìn)程的調(diào)度延遲。另外一方面，用戶交互式進(jìn)程也可能是CPU-bound的，而這時(shí)候調(diào)度器不會(huì)正確的了解到該進(jìn)程的調(diào)度需求并對(duì)其進(jìn)行補(bǔ)償。

（7）時(shí)間片粒度問(wèn)題。

用戶感知到的響應(yīng)延遲是和系統(tǒng)負(fù)載相關(guān)，我們可以用runnable進(jìn)程數(shù)目來(lái)粗略的描述系統(tǒng)的負(fù)載。當(dāng)系統(tǒng)負(fù)載高的時(shí)候，runqueue中的進(jìn)程數(shù)目會(huì)比較多，一次調(diào)度周期的時(shí)間就會(huì)比較長(zhǎng)，例如在HZ=100的情況下，runqueue上有5個(gè)runnable進(jìn)程，nice value是0，每個(gè)時(shí)間片配額是60ms，那么一個(gè)調(diào)度周期就是300ms。隨著runnable進(jìn)程增大，調(diào)度周期也變大。當(dāng)一個(gè)進(jìn)程耗盡其時(shí)間片之后，只能等待下一個(gè)調(diào)度周期到來(lái)。因此隨著調(diào)度周期變大，系統(tǒng)響應(yīng)也會(huì)變的較差。

雖然O（n）調(diào)度器存在不少的issue，但是社區(qū)的人還是基本認(rèn)可這套算法的，因此在設(shè)計(jì)新的調(diào)度器的時(shí)候并不是完全推翻O（n）調(diào)度器的設(shè)計(jì)，而是針對(duì)O（n）調(diào)度器的問(wèn)題進(jìn)行改進(jìn)。在本章中我們選擇2.6.11版本的內(nèi)核來(lái)描述O（1）調(diào)度器如何運(yùn)作。鑒于O（1）調(diào)度器和O（n）調(diào)度器沒(méi)有本質(zhì)區(qū)別，因此我們只是描述它們之間不同的地方。

2、O（1）調(diào)度器的軟件功能劃分

下圖是一個(gè)O（1）調(diào)度器的軟件框架：

O（n）調(diào)度器中只有一個(gè)全局的runqueue，嚴(yán)重影響了擴(kuò)展性，因此在O（1）調(diào)度器中引入了per-CPU runqueue的概念。系統(tǒng)中所有的可運(yùn)行狀態(tài)的進(jìn)程首先經(jīng)過(guò)負(fù)載均衡模塊掛入各個(gè)CPU的runqueue，然后由主調(diào)度器和tick調(diào)度器驅(qū)動(dòng)該CPU上的調(diào)度行為。由于篇幅的原因，我們?cè)诒疚闹胁恢v解負(fù)載均衡模塊，把重點(diǎn)放在單個(gè)CPU上的任務(wù)調(diào)度算法。

由于引入了per-CPU runqueue，O（1）調(diào)度器刪除了全局runqueue的spin lock，而是把這個(gè)spin lock放入到per-CPU runqueue數(shù)據(jù)結(jié)構(gòu)中（rq->lock），通過(guò)把一個(gè)大鎖細(xì)分成小鎖，可以大大降低調(diào)度延遲，提升系統(tǒng)響應(yīng)時(shí)間。這種方法在內(nèi)核中經(jīng)常使用，是一個(gè)比較通用的性能優(yōu)化方法。

通過(guò)上面的軟件結(jié)構(gòu)劃分可以解決O（n）調(diào)度的SMP擴(kuò)展性問(wèn)題和CPU空轉(zhuǎn)問(wèn)題。此外，好的復(fù)雜均衡算法也可以解決O（n）調(diào)度器的task bouncing 問(wèn)題。

3、O（1）調(diào)度器的runqueue結(jié)構(gòu)

O（1）調(diào)度器的基本優(yōu)化思路就是把原來(lái)runqueue上的單鏈表變成多個(gè)鏈表，即每一個(gè)優(yōu)先級(jí)的進(jìn)程被掛入不同鏈表中。相關(guān)的軟件結(jié)構(gòu)可以參考下面的圖片：

在調(diào)度器中，runqueue是一個(gè)很重要的數(shù)據(jù)結(jié)構(gòu)，它最重要的作用是管理那些處于可運(yùn)行狀態(tài)的進(jìn)程。O（1）調(diào)度器引入了優(yōu)先級(jí)隊(duì)列的概念來(lái)管理task，具體由struct prio_array抽象：

struct prio_array {
unsigned int nr_active;
unsigned long bitmap[BITMAP_SIZE];
struct list_head queue[MAX_PRIO];
};

由于支持140個(gè)優(yōu)先級(jí)，因此queue成員中有140個(gè)分別表示各個(gè)優(yōu)先級(jí)的鏈表頭，不同優(yōu)先級(jí)的進(jìn)程掛入不同的鏈表中。bitmap 是表示各個(gè)優(yōu)先級(jí)進(jìn)程鏈表是空還是非空。nr_active表示這個(gè)隊(duì)列中有多少個(gè)task。在這些隊(duì)列中，100～139是普通進(jìn)程的優(yōu)先級(jí)，其他的是實(shí)時(shí)進(jìn)程的優(yōu)先級(jí)。因此，在O（1）調(diào)度器中，RT進(jìn)程和普通進(jìn)程被區(qū)分開了，普通進(jìn)程根本不會(huì)影響RT進(jìn)程的調(diào)度。

Runqueue中有兩個(gè)優(yōu)先級(jí)隊(duì)列（struct prio_array）分別用來(lái)管理active（即時(shí)間片還有剩余）和expired（時(shí)間片耗盡）的進(jìn)程。Runqueue中有兩個(gè)優(yōu)先級(jí)隊(duì)列的指針，分別指向這兩個(gè)優(yōu)先級(jí)隊(duì)列。隨著系統(tǒng)的運(yùn)行，active隊(duì)列的task一個(gè)個(gè)的耗盡其時(shí)間片，掛入到expired隊(duì)列。當(dāng)active隊(duì)列的task為空的時(shí)候，切換active和expired隊(duì)列，開始一輪新的調(diào)度過(guò)程。

雖然在O（1）調(diào)度器中task組織的形式發(fā)生了變化，但是其核心思想仍然和O（n）調(diào)度器一致的，都是把CPU資源分成一個(gè)個(gè)的時(shí)間片，分配給每一個(gè)runnable的進(jìn)程。進(jìn)程用完其額度后被搶占，等待下一個(gè)調(diào)度周期的到來(lái)。

4、核心調(diào)度算法

主調(diào)度器（就是schedule函數(shù)）的主要功能是從該CPU的runqueue找到一個(gè)最合適的進(jìn)程調(diào)度執(zhí)行。其基本的思路就是從active優(yōu)先級(jí)隊(duì)列中尋找，代碼如下：

idx = sched_find_first_bit(array->bitmap);
queue = array->queue + idx;
next = list_entry(queue->next, task_t, run_list);

首先在當(dāng)前active優(yōu)先級(jí)隊(duì)列的bitmap尋找第一個(gè)非空的進(jìn)程鏈表，然后從該鏈表中找到的第一個(gè)節(jié)點(diǎn)就是最適合下一個(gè)調(diào)度執(zhí)行的進(jìn)程。由于沒(méi)有遍歷整個(gè)鏈表的操作，因此這個(gè)調(diào)度器的算法復(fù)雜度是一個(gè)常量，從而解決了O（n）算法復(fù)雜度的issue。

如果當(dāng)前active優(yōu)先級(jí)隊(duì)列中“空無(wú)一人”（nr_active等于0），那么這時(shí)候就需要切換active和expired優(yōu)先級(jí)隊(duì)列了：

if (unlikely(!array->nr_active)) {
rq->active = rq->expired;
rq->expired = array;
array = rq->active;
}

切換很快，并沒(méi)有一個(gè)遍歷所有進(jìn)程重新賦default時(shí)間片的操作（大大縮減了runqueue臨界區(qū)的size）。這些都避免了O（n）調(diào)度器帶來(lái)的種種問(wèn)題，從而提高了調(diào)度器的性能。

5、靜態(tài)優(yōu)先級(jí)和動(dòng)態(tài)優(yōu)先級(jí)

在前面的小節(jié)中，我們有意的忽略了優(yōu)先級(jí)隊(duì)列中“優(yōu)先級(jí)”的具體含義，現(xiàn)在是需要澄清的時(shí)候了。其實(shí)優(yōu)先級(jí)隊(duì)列中“優(yōu)先級(jí)”指的是動(dòng)態(tài)優(yōu)先級(jí)，從這個(gè)角度看，O（1）和O（n）調(diào)度器的調(diào)度算法又統(tǒng)一了，都是根據(jù)動(dòng)態(tài)優(yōu)先級(jí)進(jìn)行調(diào)度。

O（1）的靜態(tài)優(yōu)先級(jí)的概念和O（n）是類似的，對(duì)于實(shí)時(shí)進(jìn)程保存在進(jìn)程描述符的rt_priority成員中，取值范圍是1（優(yōu)先級(jí)最低）～99（優(yōu)先級(jí)最高）。對(duì)于普通進(jìn)程，靜態(tài)優(yōu)先級(jí)則保存在static_prio成員中，取值范圍是100（優(yōu)先級(jí)最高）～139（優(yōu)先級(jí)最低），分別對(duì)應(yīng)nice value的-20 ～ 19。

了解了靜態(tài)優(yōu)先級(jí)之后，我們一起來(lái)看看動(dòng)態(tài)優(yōu)先級(jí)（保存在進(jìn)程描述符的prio成員中）。鑒于在實(shí)際調(diào)度的時(shí)候使用的是動(dòng)態(tài)優(yōu)先級(jí)，我們必須要保證它是單調(diào)的（靜態(tài)優(yōu)先級(jí)未能保持單調(diào)，rt的99和普通進(jìn)程的100都是靜態(tài)優(yōu)先級(jí)的最高點(diǎn)，也就是說(shuō)在靜態(tài)優(yōu)先級(jí)數(shù)軸上，rt段是單調(diào)上升，而在普通進(jìn)程段是單調(diào)下降的）。為了解決這個(gè)問(wèn)題，在計(jì)算實(shí)時(shí)進(jìn)程動(dòng)態(tài)優(yōu)先級(jí)的時(shí)候進(jìn)行了一個(gè)簡(jiǎn)單的映射：

p->prio = MAX_USER_RT_PRIO-1 - p->rt_priority;

通過(guò)這樣的轉(zhuǎn)換，rt的動(dòng)態(tài)優(yōu)先級(jí)在數(shù)軸上也是單調(diào)下降的了。普通進(jìn)程的動(dòng)態(tài)優(yōu)先級(jí)計(jì)算沒(méi)有那么簡(jiǎn)單，除了靜態(tài)優(yōu)先級(jí)，還需要考慮進(jìn)程的平均睡眠時(shí)間（保存在進(jìn)程描述符的sleep_avg成員中），并根據(jù)該值對(duì)進(jìn)程進(jìn)行獎(jiǎng)懲。具體代碼可以參考effective_prio函數(shù)，這里不再詳述，最終普通進(jìn)程的動(dòng)態(tài)優(yōu)先級(jí)是100（優(yōu)先級(jí)最高）～139（優(yōu)先級(jí)最低），和靜態(tài)優(yōu)先級(jí)的取值范圍是一致的。

在本小節(jié)的最后，我們一起來(lái)對(duì)比普通進(jìn)程在O（1）和O（n）調(diào)度器的動(dòng)態(tài)優(yōu)先級(jí)算法。這個(gè)兩個(gè)調(diào)度器的基本思路是一致的：考慮靜態(tài)優(yōu)先級(jí)，輔以對(duì)該進(jìn)程的“用戶交互指數(shù)”的評(píng)估，用戶交互指數(shù)高的，調(diào)升其動(dòng)態(tài)優(yōu)先級(jí)，反之則降低。不過(guò)在評(píng)估用戶交互指數(shù)上，O（1）顯然做的更好。O（n）調(diào)度器僅僅考慮了睡眠進(jìn)程的剩余時(shí)間片，而O（1）的“平均睡眠時(shí)間”算法顯然考慮更多的因素：在cpu上的執(zhí)行時(shí)間、在runqueue中的等待時(shí)間、睡眠時(shí)間、睡眠時(shí)候的進(jìn)程狀態(tài)（是否可被信號(hào)打斷），什么上下文喚醒（中斷上下文喚醒還是在進(jìn)程上下文中喚醒）……因此O（1）調(diào)度器更好的判斷了進(jìn)程是屬于interactive process還是batch process，從而精準(zhǔn)的為interactive process打call。

6、時(shí)間片處理

缺省時(shí)間片的計(jì)算是通過(guò)task_timeslice完成的，在O（1）調(diào)度器中，缺省時(shí)間片已經(jīng)和HZ無(wú)關(guān)了，無(wú)論如何設(shè)置HZ，靜態(tài)優(yōu)先級(jí)為[ -20 ... 0 ... 19 ]的普通進(jìn)程其缺省時(shí)間片為[800ms ... 100ms ... 5ms]。

在tick到來(lái)的時(shí)候，當(dāng)前task的時(shí)間片會(huì)遞減（--p->time_slice），當(dāng)時(shí)間片等于0的時(shí)候，會(huì)將該task從active優(yōu)先級(jí)列表中摘下，設(shè)定resched標(biāo)記，并且重置時(shí)間片，代碼如下：

dequeue_task(p, rq->active);
set_tsk_need_resched(p);
p->time_slice = task_timeslice(p);

task_timeslice函數(shù)就是用來(lái)計(jì)算進(jìn)程時(shí)間片的配額的。對(duì)于O（1）調(diào)度器，時(shí)間片的重新賦值是分散處理的，在各個(gè)task耗盡其時(shí)間片之后立刻進(jìn)行的。這樣的改動(dòng)也修正了O（n）調(diào)度器一次性的遍歷系統(tǒng)所有進(jìn)程，重新為時(shí)間片賦值的過(guò)程。

6、識(shí)別用戶交互式進(jìn)程

一般而言，時(shí)間片耗盡之后，該task會(huì)被掛入到expired優(yōu)先級(jí)隊(duì)列，這時(shí)候如果想要被調(diào)度只能等到下次active和expired切換了。不過(guò)，有些特殊的場(chǎng)景需要特殊處理：

if (!TASK_INTERACTIVE(p) || EXPIRED_STARVING(rq)) {
enqueue_task(p, rq->expired);
if (p->static_prio < rq->best_expired_prio)
rq->best_expired_prio = p->static_prio;
} else
enqueue_task(p, rq->active);

這里TASK_INTERACTIVE是用來(lái)判斷一個(gè)進(jìn)程是否是一個(gè)用戶交互式進(jìn)程（也是和平均睡眠時(shí)間相關(guān)，由此可見(jiàn)，平均睡眠時(shí)間不僅用于計(jì)算動(dòng)態(tài)優(yōu)先級(jí)，還用來(lái)決定一個(gè)進(jìn)程是否回插入active隊(duì)列），如果是的話，說(shuō)明該進(jìn)程對(duì)用戶響應(yīng)比較敏感，這時(shí)候不能粗暴的掛入expired隊(duì)列，而是重新掛入active隊(duì)列，繼續(xù)有機(jī)會(huì)獲取調(diào)度執(zhí)行的機(jī)會(huì)。由此可見(jiàn)，O（1）調(diào)度器真是對(duì)用戶交互式進(jìn)程非常的照顧，一旦被判斷是用戶交互型進(jìn)程，那么它將獲取連續(xù)執(zhí)行的機(jī)會(huì)。當(dāng)然，調(diào)度器也不能太過(guò)分，如果用戶交互型進(jìn)程持續(xù)占用CPU，那么在expired隊(duì)列中苦苦等待進(jìn)程怎么辦？這時(shí)候就要看看expired隊(duì)列中的進(jìn)程的饑餓狀態(tài)了，這也就是EXPIRED_STARVING這個(gè)宏定義的功能。如果expired隊(duì)列中的進(jìn)程等待了太長(zhǎng)的時(shí)間，那么說(shuō)明調(diào)度器已經(jīng)出現(xiàn)嚴(yán)重不公平的現(xiàn)象，因此這時(shí)候即便是判斷當(dāng)前耗盡時(shí)間片的進(jìn)程是用戶交互型進(jìn)程，也把它掛入expired隊(duì)列，盡快的完成本次調(diào)度周期，讓active和expired發(fā)生切換。

O（1）調(diào)度器使用非常復(fù)雜的算法來(lái)判斷進(jìn)程的用戶交互指數(shù)以及進(jìn)程是否是交互式進(jìn)程，hardcode了很多的不知其所以然的常數(shù)，估計(jì)也是通過(guò)各種大量的實(shí)驗(yàn)場(chǎng)景總結(jié)出來(lái)的。這部分的設(shè)計(jì)概念我是在是沒(méi)有勇氣去探索，因此這里就略過(guò)了。但是無(wú)論如何，它總是比僅僅考慮睡眠時(shí)間的O（n）調(diào)度器性能要好。

7、搶占式內(nèi)核

2.4時(shí)代，大部分的Linux應(yīng)用都集中在服務(wù)器領(lǐng)域，因此非搶占式內(nèi)核的設(shè)計(jì)選擇也無(wú)可厚非。不過(guò)隨著Linux在桌面和嵌入式上的滲透，系統(tǒng)響應(yīng)慢慢的稱為用戶投訴的主要方面，因此，在2.5的開發(fā)過(guò)程中，Linux引入了搶占式內(nèi)核的概念（CONFIG_PREEMPT），如果沒(méi)有配置該選項(xiàng)，那么一切和2.4內(nèi)核保持一致，如果配置了該選項(xiàng)，那么不需要在返回用戶空間的時(shí)候才苦苦等到調(diào)度點(diǎn)，大部分的內(nèi)核執(zhí)行路徑都是可以被搶占的。同樣的，限于篇幅，這里不再展開描述。

五、公平調(diào)度思想的引入

1、傳統(tǒng)調(diào)度器時(shí)間片悖論

在O（n）和O（1）調(diào)度器中，時(shí)間片是固定分配的，靜態(tài)優(yōu)先級(jí)高的進(jìn)程獲取更大的time slice。例如nice value等于20的進(jìn)程獲取的default timeslice是5ms，而nice value等于0的進(jìn)程獲取的是100ms。直觀上，這樣的策略沒(méi)有毛?。ǜ邇?yōu)先級(jí)的獲取更多的執(zhí)行時(shí)間），但是，這樣的設(shè)定潛臺(tái)詞就是：高優(yōu)先級(jí)的進(jìn)程會(huì)獲得更多的連續(xù)執(zhí)行的機(jī)會(huì)，這是CPU-bound進(jìn)程期望的，但是實(shí)際上，CPU-bound進(jìn)程往往在后臺(tái)執(zhí)行，其優(yōu)先級(jí)都是比較低的。

因此，假設(shè)我們調(diào)度策略就是根據(jù)進(jìn)程靜態(tài)優(yōu)先級(jí)確定一個(gè)固定大小的時(shí)間片，這時(shí)候我們?cè)谌绾畏峙鋾r(shí)間片上會(huì)遇到兩難的狀況：想要給用戶交互型進(jìn)程設(shè)定高優(yōu)先級(jí)，以便它能有更好的用戶體驗(yàn)，但是分配一個(gè)大的時(shí)間片是毫無(wú)意義的，因?yàn)檫@種進(jìn)程多半是處于阻塞態(tài)，等待用戶的輸入。而后臺(tái)進(jìn)程的優(yōu)先級(jí)一般不高，但是根據(jù)其優(yōu)先級(jí)分配一個(gè)較小的時(shí)間片往往會(huì)影響其性能，這種類型的進(jìn)程最好是趁著cache hot的時(shí)候狂奔。

怎么辦？或者傳統(tǒng)調(diào)度器固定分配時(shí)間片這個(gè)設(shè)計(jì)概念就是錯(cuò)誤的。

2、傳統(tǒng)調(diào)度器的卡頓問(wèn)題

在Linux 2.5版本的開發(fā)過(guò)程中，Ingo Molnar設(shè)計(jì)的O（1）調(diào)度器替換掉了原始的、簡(jiǎn)陋的O（n）調(diào)度器，從而解決了擴(kuò)展性很差，性能不佳的問(wèn)題。在大部分的場(chǎng)景中，該調(diào)度器都獲得了滿意的性能，在商用的Linux 2.4發(fā)行版中，O（1）調(diào)度器被很多廠商反向移植到Linux 2.4中，由此可見(jiàn)O（1）調(diào)度器性能還是優(yōu)異的。

然而O（1）并非完美，在實(shí)際的使用過(guò)程中，還是有不少的桌面用戶在抱怨用戶交互性比較差。當(dāng)一個(gè)相當(dāng)消耗CPU資源的進(jìn)程啟動(dòng)的時(shí)候，現(xiàn)存的那些用戶交互程序（例如你在通過(guò)瀏覽器查看網(wǎng)頁(yè)）都可以感覺(jué)到明顯的延遲。針對(duì)這些issue，很多天才工程師試圖通過(guò)對(duì)用戶交互指數(shù)算法的的修改來(lái)解決問(wèn)題，這里面就包括公平調(diào)度思想的提出者Con Kolivas。不過(guò)無(wú)論如何調(diào)整算法，總是有點(diǎn)拆東墻補(bǔ)西墻的感覺(jué)，一個(gè)場(chǎng)景的issue修復(fù)了，另外一個(gè)場(chǎng)景又冒出來(lái)交互性不好的issue，刁鉆的客戶總是能夠在邊邊角角的場(chǎng)景中找到讓用戶感覺(jué)到的響應(yīng)延遲。

在反反復(fù)復(fù)修復(fù)用戶卡頓issue的過(guò)程中，工程師最容易煩躁，而往往這時(shí)候最需要冷靜的思考。Con Kolivas仔細(xì)的檢視了調(diào)度器代碼，他發(fā)現(xiàn)出問(wèn)題的是評(píng)估進(jìn)程用戶交互指數(shù)的代碼。為何調(diào)度器要根據(jù)進(jìn)程的行為猜測(cè)其對(duì)交互性的需求？這根本是一項(xiàng)不可能完成的任務(wù)，因?yàn)槟憧偸遣粫?huì)100％全部猜中，就好像你去猜測(cè)你喜歡的女孩子的心事一樣，你細(xì)心的收集了關(guān)于這個(gè)女孩子的性格特點(diǎn)，業(yè)余愛(ài)好，做事風(fēng)格，邏輯思維水平，星座……甚至生理周期，并期望著能總是正確的猜中其心中所想，坦率的講這是不可能的。在進(jìn)程調(diào)度這件事情上為何不能根據(jù)實(shí)實(shí)在在確定的東西來(lái)調(diào)度呢？一個(gè)進(jìn)程的靜態(tài)優(yōu)先級(jí)已經(jīng)完成的說(shuō)明了其調(diào)度需求了，這就足夠了，不需要猜測(cè)進(jìn)程對(duì)交互性的需求，只要維持公平就OK了，而所謂的公平就是進(jìn)程獲取和其靜態(tài)優(yōu)先級(jí)匹配的CPU執(zhí)行時(shí)間。在這樣的思想指導(dǎo)下，Con Kolivas提出了RSDL（Rotating Staircase Deadline）調(diào)度器。

3、RSDL調(diào)度器

RSDL調(diào)度器仍然沿用了O（1）調(diào)度的數(shù)據(jù)結(jié)構(gòu)和軟件結(jié)構(gòu)，當(dāng)然刪除了那些令人毛骨悚然的評(píng)估進(jìn)程交互指數(shù)的代碼。我們這一小節(jié)不可能詳細(xì)描述RSDL算法，不過(guò)只要講清楚Rotating、Staircase和Deadline這三個(gè)基本概念，大家就應(yīng)該對(duì)RSDL有基本的了解了。

首先看Staircase概念，它更詳細(xì)表述應(yīng)該是priority staircase，即在進(jìn)程調(diào)度過(guò)程中，其優(yōu)先級(jí)會(huì)象下樓梯那樣一點(diǎn)點(diǎn)的降低。在傳統(tǒng)的調(diào)度概念中，一個(gè)進(jìn)程有一個(gè)和其靜態(tài)優(yōu)先級(jí)相匹配的時(shí)間片，在RSDL中，同樣也存在這樣的時(shí)間片，但是時(shí)間片是散布在很多優(yōu)先級(jí)中。例如如果一個(gè)進(jìn)程的優(yōu)先級(jí)是120，那么整個(gè)時(shí)間片散布在120～139的優(yōu)先級(jí)中，在一個(gè)調(diào)度周期，進(jìn)程開始是掛入120的優(yōu)先級(jí)隊(duì)列，并在其上運(yùn)行6ms（這是一個(gè)可調(diào)參數(shù)，我們假設(shè)每個(gè)優(yōu)先級(jí)的時(shí)間配額是6ms），一旦在120級(jí)別的時(shí)間配額使用完畢之后，該進(jìn)程會(huì)轉(zhuǎn)入121的隊(duì)列中（優(yōu)先級(jí)降低一個(gè)level），發(fā)生一次Rotating，更準(zhǔn)確的說(shuō)是Priority minor rotating。之后，該進(jìn)程沿階而下，直到139的優(yōu)先級(jí)，在這個(gè)優(yōu)先級(jí)上如果耗盡了6ms的時(shí)間片，這時(shí)候，該進(jìn)程所有的時(shí)間片就都耗盡了，就會(huì)被掛入到expired隊(duì)列中去等待下一個(gè)調(diào)度周期。這次rotating被稱為major rotating。當(dāng)然，這時(shí)候該進(jìn)程會(huì)掛入其靜態(tài)優(yōu)先級(jí)對(duì)應(yīng)的expired隊(duì)列，即一切又回到了調(diào)度的起點(diǎn)。

Deadline是指在RSDL算法中，任何一個(gè)進(jìn)程可以準(zhǔn)確的預(yù)估其調(diào)度延遲。一個(gè)簡(jiǎn)單的例子，假設(shè)runqueue中有兩個(gè)task，靜態(tài)優(yōu)先級(jí)分別是130的A進(jìn)程和139的B進(jìn)程。對(duì)于A進(jìn)程，只有在進(jìn)程沿著優(yōu)先級(jí)樓梯從130走到139的時(shí)候，B進(jìn)程才有機(jī)會(huì)執(zhí)行，其調(diào)度延遲是9 x 6ms ＝ 54ms。

多么簡(jiǎn)潔的算法，只需要維持公平，沒(méi)有對(duì)進(jìn)程睡眠/運(yùn)行時(shí)間的統(tǒng)計(jì)，沒(méi)有對(duì)用戶交互指數(shù)的計(jì)算，沒(méi)有那些奇奇怪怪的常數(shù)……調(diào)度，就是這么簡(jiǎn)單。

六、CFS調(diào)度器

Con Kolivas的RSDL調(diào)度器始終沒(méi)有能夠進(jìn)入kernel mainline，取而代之的是同樣基于公平調(diào)度思想的CFS調(diào)度器，在CFS調(diào)度器并入主線的同時(shí)，仍然提供了模塊化的設(shè)計(jì)，為RSDL或者其他的調(diào)度器可以進(jìn)入內(nèi)核提供了方便。然而Con Kolivas帶著對(duì)內(nèi)核開發(fā)模式的不滿永遠(yuǎn)的退出了社區(qū)，正所謂有人的地方就有江湖，其中的是非留給后人評(píng)說(shuō)吧。

CFS的設(shè)計(jì)理念就是一句話：在真實(shí)的硬件上實(shí)現(xiàn)理想的、精準(zhǔn)、完全公平的多任務(wù)調(diào)度。當(dāng)然，這樣的調(diào)度器不存在，在實(shí)際設(shè)計(jì)和實(shí)現(xiàn)的時(shí)候還是需要做一些折衷。其實(shí)CFS調(diào)度器的所有的設(shè)計(jì)思想在上一章都已經(jīng)非常明晰，本章我們唯一需要描述的是Ingo Molnar如何把完全公平調(diào)度的理想照進(jìn)現(xiàn)實(shí)。

1、模塊化思想的引入

從2.6.23內(nèi)核開始，調(diào)度器采用了模塊化設(shè)計(jì)的思想，從而把進(jìn)程調(diào)度的軟件分成了兩個(gè)層次，一個(gè)是core scheduler layer，另外一個(gè)是specific scheduler layer：

從功能層面上看，進(jìn)程調(diào)度仍然分成兩個(gè)部分，第一個(gè)部分是通過(guò)負(fù)載均衡模塊將各個(gè)runnable task根據(jù)負(fù)載情況平均分配到各個(gè)CPU runqueue上去。第二部分的功能是在各個(gè)CPU的Main scheduler和Tick scheduler的驅(qū)動(dòng)下進(jìn)行單個(gè)CPU上的調(diào)度。調(diào)度器處理的task各不相同，有RT task，有normal task，有Deal line task，但是無(wú)論哪一種task，它們都有共同的邏輯，這部分被抽象成Core scheduler layer，同時(shí)各種特定類型的調(diào)度器定義自己的sched_class，并以鏈表的形式加入到系統(tǒng)中。這樣的模塊化設(shè)計(jì)可以方便用戶根據(jù)自己的場(chǎng)景定義specific scheduler，而不需要改動(dòng)Core scheduler layer的邏輯。

2、關(guān)于公平

和RSDL調(diào)度器一樣，CFS調(diào)度器追求的公平是CPU資源分配的公平，即CPU的運(yùn)算資源被精準(zhǔn)的平均分配給在其上運(yùn)行的task。例如：如果有2個(gè)靜態(tài)優(yōu)先級(jí)一樣的task運(yùn)行在某一個(gè)CPU上，那么每一個(gè)task都消耗50％的CPU計(jì)算資源。如果靜態(tài)優(yōu)先級(jí)不一樣，那么，CPU資源是根據(jù)其靜態(tài)優(yōu)先級(jí)來(lái)具體分配。具體如何根據(jù)優(yōu)先級(jí)來(lái)分配CPU資源呢？這里就需要引入一個(gè)load weight的概念。

在CFS中，我們是通過(guò)一個(gè)常量數(shù)組（sched_prio_to_weight）可以把進(jìn)程靜態(tài)優(yōu)先級(jí)映射成進(jìn)程權(quán)重，而所謂的權(quán)重就是進(jìn)程應(yīng)該占有cpu資源的比重。例如：系統(tǒng)中有3個(gè)runnable thread A、B和C，權(quán)重分別是a、b、c，那么A thread應(yīng)該分配到的CPU資源是a/(a+b+c)。因此CFS調(diào)度器的公平就是保證所有的可運(yùn)行狀態(tài)的進(jìn)程按照權(quán)重分配其CPU資源。

3、時(shí)間粒度

CPU資源分配是一個(gè)抽象的概念，最終在實(shí)現(xiàn)調(diào)度器的時(shí)候，我們需要把它具體化。一個(gè)最簡(jiǎn)單的方法就是把CPU資源的分配變成CPU時(shí)間片的分配。看到“時(shí)間片”這個(gè)術(shù)語(yǔ)，你可能本能的覺(jué)得CFS和O（1）也沒(méi)有什么不同，不都是分配時(shí)間片嗎？其實(shí)不然，Linux內(nèi)核的CFS調(diào)度器已經(jīng)摒棄了傳統(tǒng)的固定時(shí)間片的概念了。O（1）調(diào)度器會(huì)為每一個(gè)進(jìn)程分配一個(gè)缺省的時(shí)間片，當(dāng)進(jìn)程使用完自己的時(shí)間片之后就會(huì)被掛入expire隊(duì)列，當(dāng)系統(tǒng)中的所有進(jìn)程都耗光了自己的時(shí)間片，那么一切從來(lái)，所有的進(jìn)程又恢復(fù)了自己的時(shí)間片，進(jìn)入active隊(duì)列。CFS調(diào)度器沒(méi)有傳統(tǒng)的靜態(tài)時(shí)間片的概念，她的時(shí)間片是動(dòng)態(tài)的，和當(dāng)前CPU的可運(yùn)行狀態(tài)的進(jìn)程以及它們的優(yōu)先級(jí)相關(guān)，因此CFS調(diào)度器中，時(shí)間片是動(dòng)態(tài)變化的。

對(duì)于理想的完全公平調(diào)度算法，無(wú)論觀察的時(shí)間段多么短，CPU的時(shí)間片都是公平分配的。以100ms的粒度來(lái)觀察，那么兩個(gè)可運(yùn)行狀態(tài)的進(jìn)程A和B（靜態(tài)優(yōu)先級(jí)一樣）各分50ms。當(dāng)然，也不是一定是A執(zhí)行50ms，切換到B，然后再執(zhí)行50ms，在觀察過(guò)程中，A和B可能切換了很多次，但是A進(jìn)程總共占用CPU的時(shí)間和就是50ms，B進(jìn)程亦然。如果用1ms的粒度來(lái)觀察呢？是否A和B個(gè)運(yùn)行500us？如果繼續(xù)縮減觀察時(shí)間，在一個(gè)微秒的時(shí)間段觀察呢？顯然，不太可能每個(gè)進(jìn)程運(yùn)行500ns，如果那樣的話，CPU的時(shí)間大量的消耗在了進(jìn)程切換上，真正做事情的CPU時(shí)間變得越來(lái)越少了。因此，CFS調(diào)度器是有一個(gè)時(shí)間粒度的定義，我們稱之調(diào)度周期。也就是說(shuō)，在一個(gè)調(diào)度周期內(nèi)，CFS調(diào)度器可以保證所有的可運(yùn)行狀態(tài)的進(jìn)程平均分配CPU時(shí)間。下一小節(jié)我們會(huì)詳細(xì)描述調(diào)度周期的概念。

4、如何保證有界的調(diào)度延遲？

傳統(tǒng)的調(diào)度器無(wú)法保證調(diào)度延遲，為了說(shuō)明這個(gè)問(wèn)題我們?cè)O(shè)想這樣一個(gè)場(chǎng)景：CPU runqueue中有兩個(gè)nice value等于0的runnable進(jìn)程A和B，傳統(tǒng)調(diào)度器會(huì)為每一個(gè)進(jìn)程分配一個(gè)固定的時(shí)間片100ms，這時(shí)候A先運(yùn)行，直到100ms的時(shí)間片耗盡，然后B運(yùn)行。這兩個(gè)進(jìn)程會(huì)交替運(yùn)行，調(diào)度延遲就是100ms。隨著系統(tǒng)負(fù)荷的加重，例如又有兩個(gè)兩個(gè)nice value等于0的runnable進(jìn)程C和D掛入runqueue，這時(shí)候，A、B、C、D交替運(yùn)行，調(diào)度延遲就是300ms。因此，傳統(tǒng)調(diào)度器的調(diào)度延遲是和系統(tǒng)負(fù)載相關(guān)的，當(dāng)系統(tǒng)負(fù)載增加的時(shí)候，用戶更容易觀察到卡頓現(xiàn)象。

CFS調(diào)度器設(shè)計(jì)之初就確定了調(diào)度延遲的參數(shù)，我們稱之targeted latency，這個(gè)概念類似傳統(tǒng)調(diào)度器中的調(diào)度周期的概念，只不過(guò)在過(guò)去，一個(gè)調(diào)度周期中的時(shí)間片被固定分配給了runnable的進(jìn)程，而在CFS中，調(diào)度器會(huì)不斷的檢查在一個(gè)targeted latency中，公平性是否得到了保證。下面的代碼說(shuō)明了targeted latency的計(jì)算過(guò)程：

static u64 __sched_period(unsigned long nr_running)
{
if (unlikely(nr_running > sched_nr_latency))
return nr_running * sysctl_sched_min_granularity;
else
return sysctl_sched_latency;
}

當(dāng)runqueue中的runnable進(jìn)程的數(shù)目小于sched_nr_latency（8個(gè)）的時(shí)候，targeted latency就是sysctl_sched_latency（6ms），當(dāng)runqueue中的runnable進(jìn)程的數(shù)目大于等于sched_nr_latency的時(shí)候，targeted latency等于runnable進(jìn)程數(shù)目乘以sysctl_sched_min_granularity（0.75ms）。顯然sysctl_sched_min_granularity這個(gè)參數(shù)就是一段一個(gè)進(jìn)程被調(diào)度執(zhí)行，它需要至少執(zhí)行的時(shí)間片大小，設(shè)立這個(gè)參數(shù)是為了防止overscheduling而產(chǎn)生的性能下降。

CFS調(diào)度器保證了在一個(gè)targeted latency中，所有的runnable進(jìn)程都會(huì)至少執(zhí)行一次，從而保證了有界的、可預(yù)測(cè)的調(diào)度延遲。

5、為何引入虛擬時(shí)間？

雖然Con Kolivas提出了精采絕倫的設(shè)計(jì)思想，但是在具體實(shí)現(xiàn)的時(shí)候相對(duì)保守。CFS調(diào)度器則不然，它采用了相對(duì)激進(jìn)的方法，把runqueue中管理task的優(yōu)先級(jí)鏈表變成了紅黑樹結(jié)構(gòu)。有了這樣一顆runnable進(jìn)程的紅黑樹，在插入操作的時(shí)候如何確定進(jìn)程在紅黑樹中的位置？也就是說(shuō)這棵樹的“key”是什么？

CFS的紅黑樹使用vruntime（virtual runtime）作為key，為了理解vruntime，這里需要引入一個(gè)虛擬時(shí)間軸的概念。在上一章中，我們已經(jīng)清楚的表述了公平的含義：按照進(jìn)程的靜態(tài)優(yōu)先級(jí)來(lái)分配CPU資源，當(dāng)然，CPU資源也就是CPU的時(shí)間片，因此在物理世界中，公平就是分配和靜態(tài)優(yōu)先級(jí)匹配的CPU時(shí)間片。但是紅黑樹需要一個(gè)單一數(shù)軸上的量進(jìn)行比對(duì)，而這里有兩個(gè)度量因素：靜態(tài)優(yōu)先級(jí)和物理時(shí)間片，因此我們需要把它們映射到一個(gè)虛擬的時(shí)間軸上，屏蔽掉靜態(tài)優(yōu)先級(jí)的影響，具體的計(jì)算公式如下：

Virtual runtime ＝（physical runtime） X （nice value 0的權(quán)重）/進(jìn)程的權(quán)重

通過(guò)上面的公式，我們構(gòu)造了一個(gè)虛擬的世界。二維的（load weight，physical runtime）物理世界變成了一維的virtual runtime的虛擬世界。在這個(gè)虛擬的世界中，各個(gè)進(jìn)程的vruntime可以比較大小，以便確定其在紅黑樹中的位置，而CFS調(diào)度器的公平也就是維護(hù)虛擬世界vruntime的公平，即各個(gè)進(jìn)程的vruntime是相等的。

根據(jù)上面的公式，我們可以看出：實(shí)際上對(duì)于靜態(tài)優(yōu)先級(jí)是120（即nice value等于0）的進(jìn)程，其物理時(shí)間軸等于虛擬時(shí)間軸，而其他的靜態(tài)優(yōu)先級(jí)的虛擬時(shí)間都是根據(jù)其權(quán)重和nice 0的權(quán)重進(jìn)行尺度縮放。對(duì)于更高優(yōu)先級(jí)的進(jìn)程，其虛擬時(shí)間軸過(guò)的比較慢，而對(duì)于優(yōu)先級(jí)比較低的進(jìn)程，其虛擬時(shí)間軸過(guò)的比較快。

我們可以舉一個(gè)簡(jiǎn)單的例子來(lái)描述虛擬世界的公平性：例如在時(shí)間點(diǎn)a到b之間（虛擬時(shí)間軸），如果有兩個(gè)可運(yùn)行狀態(tài)的進(jìn)程A和B，那么從a到b這個(gè)時(shí)間段上去觀察，CPU的時(shí)間是平均分配到每個(gè)一個(gè)進(jìn)程上，也就是說(shuō)A和B進(jìn)程各自運(yùn)行了（b-a）/2的時(shí)間，也就是各占50％的時(shí)間片。在b時(shí)間點(diǎn)，一個(gè)新的可運(yùn)行狀態(tài)的進(jìn)程C產(chǎn)生了，直到c時(shí)間點(diǎn)。那么從b到c這個(gè)時(shí)間段上去觀察，進(jìn)程A、B和進(jìn)程C都是執(zhí)行了（c-b）/3的時(shí)間，也就是各占1/3的CPU資源。再?gòu)?qiáng)調(diào)一次，上面說(shuō)的時(shí)間都是虛擬時(shí)間。

6、如何計(jì)算virtual runtime

想要計(jì)算時(shí)間我們必須有類似手表這樣的計(jì)時(shí)工具，對(duì)于CFS調(diào)度器，這個(gè)“手表”保存在runqueue中（clock和clock_task成員）。Runqueue戴兩塊表，一塊記錄實(shí)際的物理時(shí)間，另外一塊則是記錄執(zhí)行task的時(shí)間（clock_task）。之所以有clock_task是為了更準(zhǔn)確的記錄進(jìn)程執(zhí)行時(shí)間。實(shí)際上一個(gè)task執(zhí)行過(guò)程中不免會(huì)遇到一些異步事件，例如中斷。這時(shí)候，進(jìn)程的執(zhí)行被打斷從而轉(zhuǎn)入到對(duì)異步事件的處理過(guò)程。如果把這些時(shí)間也算入該進(jìn)程的執(zhí)行時(shí)間會(huì)有失偏頗，因此clock_task會(huì)把這些異步事件的處理時(shí)間去掉，只有在真正執(zhí)行任務(wù)的時(shí)候，clock_task的counter才會(huì)不斷累加計(jì)時(shí)。

有了clock進(jìn)程計(jì)時(shí)變得比較簡(jiǎn)單了，當(dāng)進(jìn)程進(jìn)入執(zhí)行狀態(tài)的時(shí)候，看一下clock_task這塊“手表”，記錄數(shù)值為A。在需要統(tǒng)計(jì)運(yùn)行時(shí)間的時(shí)候，再次看一下clock_task這塊“手表”，記錄數(shù)值為B。B-A就是該進(jìn)程已經(jīng)運(yùn)行的物理時(shí)間。當(dāng)然，CFS關(guān)心的是虛擬時(shí)間，這時(shí)候還需要通過(guò)calc_delta_fair函數(shù)將這個(gè)物理時(shí)間轉(zhuǎn)換成虛擬時(shí)間，然后累積的該進(jìn)程的virtual runtime中（sched_entity中的vruntime），而這個(gè)vruntime就是紅黑樹的key。

7、CFS調(diào)度器的運(yùn)作

對(duì)于CFS調(diào)度器，沒(méi)有固定分配時(shí)間片的概念，只有一個(gè)固定權(quán)重的概念，是根據(jù)進(jìn)程靜態(tài)優(yōu)先級(jí)計(jì)算出來(lái)的。CFS調(diào)度器一旦選擇了一個(gè)進(jìn)程進(jìn)入執(zhí)行狀態(tài)，會(huì)立刻開啟對(duì)其virtual runtime的跟蹤過(guò)程，并且在tick到來(lái)時(shí)會(huì)更新這個(gè)virtual runtime。有了這個(gè)virtual runtime信息，調(diào)度器就可以不斷的檢查目前系統(tǒng)的公平性（而不是檢查是否時(shí)間片用完），具體的方法是：根據(jù)當(dāng)前系統(tǒng)的情況計(jì)算targeted latency（調(diào)度周期），在這個(gè)調(diào)度周期中計(jì)算當(dāng)前進(jìn)程應(yīng)該獲得的時(shí)間片（物理時(shí)間），然后計(jì)算當(dāng)前進(jìn)程已經(jīng)累積執(zhí)行的物理時(shí)間，如果大于當(dāng)前應(yīng)該獲得的時(shí)間片，那么更新本進(jìn)程的vruntime并標(biāo)記need resched flag，并在最近的一個(gè)調(diào)度點(diǎn)發(fā)起調(diào)度。

在進(jìn)行進(jìn)程調(diào)度時(shí)候，調(diào)度器需要選擇下一個(gè)占用CPU資源的那個(gè)next thread。對(duì)于CFS而言，其算法就是從紅黑樹中找到left most的那個(gè)task并調(diào)度其運(yùn)行。這時(shí)候，失去CPU執(zhí)行權(quán)的那個(gè)task會(huì)被重新插入紅黑樹，其在紅黑樹中的位置是由task的vruntime值決定的。

閱讀全文

cpu(206161) cpu(206161)
Linux(206513) Linux(206513)
調(diào)度器(5148) 調(diào)度器(5148)

評(píng)論

相關(guān)推薦

一文了解Linux調(diào)度器開放給用戶空間的接口

相）。通過(guò)外部接口的定義，其實(shí)我們也可以收獲百分之六七十的該模塊的內(nèi)部信息。因此，本文主要描述Linux調(diào)度器開放給用戶空間的接口，希望可以通過(guò)用戶空間的調(diào)度器接口來(lái)理解Linux調(diào)度器的行為。二、nice函數(shù) nice函數(shù)用來(lái)修改調(diào)用進(jìn)程的nice

2020-09-18 15:53:15

797

Linux內(nèi)核進(jìn)程管理與調(diào)度：策略優(yōu)化與實(shí)踐分析

今天給大家上點(diǎn)硬貨，關(guān)于Linux的進(jìn)程管理和調(diào)度是學(xué)習(xí)和理解Linux的必學(xué)知識(shí)。為協(xié)調(diào)多個(gè)進(jìn)程 "同時(shí)" 運(yùn)行，現(xiàn)代操作系統(tǒng)通常使用進(jìn)程優(yōu)先級(jí)這一基本手段。每個(gè)進(jìn)程都有

2023-05-08 09:42:11

542

Linux

”模型。這樣既可以滿足多處理器系統(tǒng)的需要，也可以最大限度地減少調(diào)度開銷。使用線程機(jī)制大大加快了上下文切換速度，而且節(jié)省了很多資源。但是因?yàn)樵谟脩魬B(tài)和內(nèi)核態(tài)均要實(shí)現(xiàn)調(diào)度管理，所以會(huì)增加實(shí)現(xiàn)的復(fù)雜度

2013-08-01 10:09:06

Linux 實(shí)時(shí)技術(shù)與典型實(shí)現(xiàn)分析（一）

任務(wù)將永遠(yuǎn)無(wú)法運(yùn)行，搶占延遲將是無(wú)窮大。因此，如果這種機(jī)制不改，實(shí)時(shí)Linux將永遠(yuǎn)無(wú)法實(shí)現(xiàn)。6．調(diào)度算法和調(diào)度點(diǎn) 在Linux 2.4和以前的版本，調(diào)度器的時(shí)間復(fù)雜度是O(n)的，而且在SMP

2008-10-06 13:42:20

Linux2.4與Linux2.6內(nèi)核調(diào)度器的比較研究

Linux2.6的調(diào)度機(jī)制新的調(diào)度器都實(shí)現(xiàn)了這些目標(biāo)，具體方法是?；诿總€(gè)CPU來(lái)分布時(shí)間片，并且取消了全局同步和重算循環(huán)。每個(gè)進(jìn)程有兩個(gè)數(shù)組，活動(dòng)就緒進(jìn)程隊(duì)列數(shù)組和不活躍就緒進(jìn)程隊(duì)列數(shù)組。每個(gè)

2008-06-17 12:04:46

Linux2.4和Linux2.6的調(diào)度器對(duì)比分析，Linux2.6對(duì)調(diào)度器的改進(jìn)有哪些方面？

Linux2.4和Linux2.6的調(diào)度器對(duì)比分析，Linux2.6對(duì)調(diào)度器的改進(jìn)有哪些方面？Linux2.4調(diào)度器性能低下的原因是什么

2021-04-27 06:42:00

Linux中TCP的通信過(guò)程以及實(shí)現(xiàn)方法

【嵌入式】Web1.操作內(nèi)容2.操作步驟1.操作內(nèi)容理解Linux中TCP的通信過(guò)程以及實(shí)現(xiàn)方法。掌握Linux下socket()函數(shù)在TCP通信中的使用。在Linux系統(tǒng)中設(shè)置NFS服務(wù)，在開發(fā)板

2021-12-16 08:01:00

Linux基礎(chǔ)

一：嵌入式c語(yǔ)言：Linux基礎(chǔ)　　Linux操作系統(tǒng)的概念、安裝方法，詳細(xì)了解Linux下的目錄結(jié)構(gòu)、基本命令、編輯器VI ,編譯器GCC，調(diào)試器GDB和 Make 項(xiàng)目管理工具, Shell

2017-08-03 09:46:54

Linux的進(jìn)程、線程以及調(diào)度

報(bào)名：《Linux的進(jìn)程、線程以及調(diào)度》4節(jié)系列微課(522-25)

2020-05-15 14:44:24

Linux系統(tǒng)調(diào)度是實(shí)現(xiàn)特性的關(guān)鍵部分

1、綜述　　Linux作為多任務(wù)、多用戶的操作系統(tǒng)，其進(jìn)程/線程調(diào)度管理是實(shí)現(xiàn)這些特性的關(guān)鍵部分。調(diào)度管理決定系統(tǒng)中的眾多線程中哪個(gè)線程獲得執(zhí)行、什么時(shí)候開始執(zhí)行、執(zhí)行多久。一個(gè)好的調(diào)度算法能優(yōu)化

2019-07-05 07:05:08

Linux系統(tǒng)調(diào)度簡(jiǎn)介

2017-01-18 14:12:37

調(diào)度器的原理及其任務(wù)調(diào)度代碼實(shí)現(xiàn)

、超級(jí)循環(huán)2、時(shí)間片與時(shí)標(biāo)3、調(diào)度算法介紹1）時(shí)間片輪轉(zhuǎn)調(diào)度2）強(qiáng)制試調(diào)度4、注意事項(xiàng)所有任務(wù)的執(zhí)行時(shí)間不能超過(guò)時(shí)標(biāo)的時(shí)間三、任務(wù)調(diào)度代碼實(shí)現(xiàn)這里拿linux來(lái)測(cè)試schduler.c//~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~//頭文件

2022-02-17 07:07:16

調(diào)度器運(yùn)行的過(guò)程是怎樣的？它的應(yīng)用有哪些？

調(diào)度器是由哪幾部分組成的？調(diào)度器運(yùn)行的過(guò)程是怎樣的？調(diào)度器的應(yīng)用有哪些？

2021-04-27 07:12:35

ATK-Mini Linux開發(fā)板-EMMC

ATK-Mini Linux開發(fā)板-EMMC

2023-03-28 13:05:54

ATK-Mini Linux開發(fā)板-NAND

ATK-Mini Linux開發(fā)板-NAND

2023-03-28 13:05:54

C語(yǔ)言或Matlab如何實(shí)現(xiàn)FF鏈路調(diào)度器仿真？

C語(yǔ)言或Matlab如何實(shí)現(xiàn)FF鏈路調(diào)度器仿真

2023-10-18 06:12:23

LoRa供水調(diào)度遠(yuǎn)程無(wú)線聯(lián)網(wǎng)監(jiān)測(cè)

找到GIS地圖中出故障的地點(diǎn)。調(diào)度室計(jì)算機(jī)利用軟件讀取傳感器參數(shù)，在調(diào)度室監(jiān)控計(jì)算機(jī)可通過(guò)畫面和曲線實(shí)現(xiàn)對(duì)現(xiàn)場(chǎng)的監(jiān)測(cè)。供水調(diào)度人員可以根據(jù)采集的數(shù)據(jù)進(jìn)行水廠的生產(chǎn)調(diào)度和指揮，還可打印各種報(bào)表。較大

2018-11-21 15:09:50

Mini Linux

Mini Linux EMMC

2023-03-28 13:06:25

RT-Thread的內(nèi)核調(diào)度算法實(shí)現(xiàn)

位的查表法軟件實(shí)現(xiàn)，是整個(gè)位圖調(diào)度算法的核心。ARM公司提供專門的指令獲取寄存器最低位，只要幾條匯編語(yǔ)句就可以完成同樣的功能，而且性能更好。rt-thread作為一款成熟商用的RTOS內(nèi)核，也支持

2022-04-20 11:54:59

RT-Thread系統(tǒng)線程調(diào)度器的設(shè)計(jì)實(shí)現(xiàn)

優(yōu)先級(jí)的系統(tǒng)配置)。在系統(tǒng)中，當(dāng)有比當(dāng)前線程優(yōu)先級(jí)更高的線程就緒時(shí)，當(dāng)前線程將立刻被換出，高優(yōu)先級(jí)線程搶占處理器運(yùn)行。如圖線程就緒優(yōu)先級(jí)隊(duì)列所示，在RT-Thread調(diào)度器的實(shí)現(xiàn)中,包含了一個(gè)共256

2022-08-23 15:24:19

STM32操作系統(tǒng)內(nèi)核調(diào)度原理是什么？如何實(shí)現(xiàn)？

STM32操作系統(tǒng)內(nèi)核調(diào)度原理是什么？如何實(shí)現(xiàn)？

2021-11-29 06:30:00

UCOSIII延時(shí)函數(shù)會(huì)引發(fā)幾次調(diào)度？

原子哥，你好，問(wèn)下，使用OSTimeDlyHMSM（）或者OSTimeDly()延時(shí)函數(shù)，會(huì)引發(fā)幾次調(diào)度？我的理解是兩次，一次是剛進(jìn)入延時(shí)函數(shù)時(shí)，另一次是當(dāng)延時(shí)函數(shù)結(jié)束時(shí)，不知這樣理解是否正確？

2020-04-21 04:35:55

[分享資料]Linux Kernel Development Third Edition （Linux內(nèi)核設(shè)計(jì)與實(shí)現(xiàn)）

、進(jìn)程調(diào)度、時(shí)間管理和定時(shí)器、系統(tǒng)調(diào)用接口、內(nèi)存尋址、內(nèi)存管理和頁(yè)緩存、VFS、內(nèi)核同步以及調(diào)試技術(shù)等。同時(shí)《Linux內(nèi)核設(shè)計(jì)與實(shí)現(xiàn)(原書第3版)》也涵蓋了Linux 2.6內(nèi)核中頗具特色的內(nèi)容，包括

2015-09-12 00:17:20

tms320跑linux操作系統(tǒng)時(shí)如何實(shí)現(xiàn)多核通訊

硬件環(huán)境：tms320c6678EVM 軟件環(huán)境：CCS5.5.0 tms320跑linux操作系統(tǒng)時(shí)如何實(shí)現(xiàn)多核通訊，從論壇一些帖子知道它不支持SMP，我的理解是不能由操作系統(tǒng)自動(dòng)分配調(diào)度多個(gè)核完成一個(gè)復(fù)雜任務(wù)。那么如何實(shí)現(xiàn)多核通訊呢？OMP等等可以嗎？

2018-06-21 06:55:36

【安富萊】【RTX操作系統(tǒng)教程】第10章任務(wù)調(diào)度-搶占式，時(shí)間片和合作式

第10章任務(wù)調(diào)度-搶占式，時(shí)間片和合作式本章教程為大家將介紹RTX操作系統(tǒng)支持的任務(wù)調(diào)度方式，搶占式，時(shí)間片和合作式，這部分算是RTX操作系統(tǒng)的核心了。對(duì)于初學(xué)者來(lái)說(shuō)，要一下子就能夠理解這些比較

2016-01-25 13:57:02

任務(wù)調(diào)度、內(nèi)存分配和網(wǎng)絡(luò)協(xié)議棧的基礎(chǔ)原理和代碼實(shí)現(xiàn)

進(jìn)互聯(lián)網(wǎng)公司操作系統(tǒng)和網(wǎng)絡(luò)庫(kù)是基礎(chǔ)技能，面試過(guò)不去的看，這里基于嵌入式操作系統(tǒng)分幾章來(lái)總結(jié)一下任務(wù)調(diào)度、內(nèi)存分配和網(wǎng)絡(luò)協(xié)議棧的基礎(chǔ)原理和代碼實(shí)現(xiàn)。處理器上電時(shí)會(huì)產(chǎn)生一個(gè)復(fù)位中斷，接下來(lái)會(huì)...

2021-12-22 06:45:30

內(nèi)核態(tài)是如何對(duì)task進(jìn)行調(diào)度的呢

調(diào)度器在runqueue里的算法是如何去實(shí)現(xiàn)的？?jī)?nèi)核態(tài)是如何對(duì)task進(jìn)行調(diào)度的呢？

2021-12-24 07:59:16

如何理解ucosIII中斷調(diào)度void OSIntExit(void)的概念？

小弟最近在看ucosIII,對(duì)其中的中斷調(diào)度不是很理解,下面是小弟的理解,懇請(qǐng)大神指教~我在OSInitExit()函數(shù)中發(fā)現(xiàn)如下語(yǔ)句:[C] 純文本查看復(fù)制代碼OSPrioHighRdy

2019-11-07 04:35:41

如何使用Tracealyzer理解多任務(wù)調(diào)度？

調(diào)試器視圖的補(bǔ)充。我們今天來(lái)了解一下如何通過(guò)Tracealyzer記錄的數(shù)據(jù)獲取任務(wù)優(yōu)先級(jí)及執(zhí)行時(shí)間相關(guān)的信息。優(yōu)先級(jí)決定何時(shí)調(diào)度大多數(shù)RTOS使用固定優(yōu)先級(jí)調(diào)度策略，開發(fā)人員為每個(gè)任務(wù)分配一個(gè)靜態(tài)

2021-12-17 16:01:39

嵌入式Linux操作系統(tǒng)調(diào)度算法的相關(guān)資料分享

嵌入式Linux操作系統(tǒng)調(diào)度算法研究嵌入式操作系統(tǒng)在互聯(lián)網(wǎng)時(shí)代的今天得到廣泛應(yīng)用。Linux系統(tǒng)本身并不是嚴(yán)格的實(shí)時(shí)操作系統(tǒng)。為了提高它對(duì)實(shí)時(shí)任務(wù)的處理能力,國(guó)內(nèi)外對(duì)Linux進(jìn)行了不斷的實(shí)時(shí)性能

2021-11-05 08:15:04

嵌入式工程師必會(huì)的 Linux 進(jìn)程調(diào)度所有知識(shí)點(diǎn)

算法 [td]字段版本O(n) 調(diào)度器linux0.11 - 2.4O(1) 調(diào)度器linux2.6CFS調(diào)度器linux2.6至今 O(n)O(n) 調(diào)度器是在內(nèi)核2.4以及更早期版本采用的算法，O

2021-08-01 07:00:00

干貨分享：基于嵌入式Linux中進(jìn)程調(diào)度實(shí)現(xiàn)方法

調(diào)度策略，實(shí)現(xiàn)了高效、靈活的進(jìn)程調(diào)度。 2.Linux 進(jìn)程調(diào)度分析2.1　Linux 進(jìn)程狀態(tài)的描述Linux 將進(jìn)程狀態(tài)描述為如下五種： TASK_RUNNING：可運(yùn)行狀態(tài)。處于該狀態(tài)的進(jìn)程可以

2019-12-10 14:17:58

怎樣利用時(shí)間片輪轉(zhuǎn)調(diào)度算法去實(shí)現(xiàn)同步時(shí)間調(diào)度的程序呢

怎樣利用時(shí)間片輪轉(zhuǎn)調(diào)度算法去實(shí)現(xiàn)同步時(shí)間調(diào)度的程序呢？

2021-12-20 06:16:11

怎樣去寫一個(gè)可以用在STM32F4上的線程調(diào)度器呢

為什么要寫這個(gè)線程調(diào)度器呢？這個(gè)線程調(diào)度器實(shí)現(xiàn)的功能有哪些？怎樣去寫一個(gè)可以用在STM32F4上的線程調(diào)度器呢？

2021-11-26 06:09:15

怎樣設(shè)計(jì)電子控制系統(tǒng)混合調(diào)度器？

本文應(yīng)用時(shí)間觸發(fā)模式設(shè)計(jì)了液壓式制動(dòng)能量再生系統(tǒng)的電子控制系統(tǒng)混合調(diào)度器，實(shí)現(xiàn)了HBRS的基本功能。

2021-05-13 07:07:06

操作系統(tǒng)是怎樣通過(guò)一個(gè)調(diào)度程序來(lái)實(shí)現(xiàn)調(diào)度功能的

操作系統(tǒng)是怎樣通過(guò)一個(gè)調(diào)度程序來(lái)實(shí)現(xiàn)調(diào)度功能的？任務(wù)調(diào)度的時(shí)機(jī)有哪幾種情況？

2021-12-23 07:56:38

深入理解和實(shí)現(xiàn)RTOS_連載

，其中的每個(gè)任務(wù)都專注自己處理的問(wèn)題，而這些任務(wù)間則需要處理一下彼此的溝通問(wèn)題......深入理解和實(shí)現(xiàn)RTOS_連載3_多任務(wù)機(jī)制設(shè)計(jì)前面我們已經(jīng)介紹過(guò)了在單核處理器上的多任務(wù)機(jī)制的基本知識(shí)。如果讀者

2014-05-30 01:02:26

深入理解和實(shí)現(xiàn)RTOS_連載

，那里有更詳細(xì)的注釋，而且是全中文的。深入理解和實(shí)現(xiàn)RTOS_連載5_多任務(wù)機(jī)制應(yīng)用演示本節(jié)我們通過(guò)在評(píng)估板上的實(shí)例來(lái)演示有關(guān)線程調(diào)度和管理的API。因?yàn)槊總€(gè)例子中都包括了線程的創(chuàng)建，所以這里就不單獨(dú)再介紹如何創(chuàng)建線程。示例程序盡量設(shè)計(jì)的簡(jiǎn)單，主要依靠評(píng)估板上的LED 燈來(lái)演示代碼的執(zhí)行路徑。

2014-05-29 11:20:54

第10章任務(wù)調(diào)度-搶占式，時(shí)間片和合作式

基本概念搞清楚，然后閱讀下源碼，深入理解實(shí)現(xiàn)方法。本章教程配套的例子含Cortex-M3內(nèi)核的STM32F103和Cortex-M4內(nèi)核的STM32F407。10.1 RTX支持的調(diào)度方式10.2

2016-10-04 18:11:12

精選Linux入門教材之設(shè)備驅(qū)動(dòng)程序+內(nèi)核設(shè)計(jì)與實(shí)現(xiàn)

運(yùn)行起來(lái)的背景知識(shí)的指導(dǎo)。在你學(xué)習(xí)編寫驅(qū)動(dòng)時(shí)，你通常會(huì)發(fā)現(xiàn)大量有關(guān) Linux 內(nèi)核的東西。這也許會(huì)幫助你理解你的機(jī)器是如何工作的，以及為什么事情不是如你所愿的快，或者不是如你所要的進(jìn)行

2018-10-16 15:29:15

線程調(diào)度器啟動(dòng)前執(zhí)行的流程是怎樣的？

線程調(diào)度器啟動(dòng)前執(zhí)行的流程是怎樣的？線程調(diào)度器初始化和啟動(dòng)得步驟是怎樣的？

2021-12-13 06:42:35

編譯器優(yōu)化的靜態(tài)調(diào)度介紹

　　指令調(diào)度簡(jiǎn)介　　指令調(diào)度是指對(duì)程序塊或過(guò)程中的操作進(jìn)行排序以有效利用處理器資源的任務(wù)。指令調(diào)度的目的就是通過(guò)重排指令，提高指令級(jí)并行性，使得程序在擁有指令流水線的CPU上更高效的運(yùn)行。指令調(diào)度

2023-03-17 17:07:47

裸奔單片機(jī)的靈魂“類OS調(diào)度器”

本帖最后由 binlan125 于 2013-9-14 08:00 編輯特性：本調(diào)度器是集時(shí)間觸發(fā)、支持消息、支持非搶占優(yōu)先級(jí)調(diào)度，借鑒了protothread思想，而使得其實(shí)現(xiàn)

2013-09-14 07:51:10

詳解Linux內(nèi)核搶占實(shí)現(xiàn)機(jī)制

本文詳解了Linux內(nèi)核搶占實(shí)現(xiàn)機(jī)制。首先介紹了內(nèi)核搶占和用戶搶占的概念和區(qū)別，接著分析了不可搶占內(nèi)核的特點(diǎn)及實(shí)時(shí)系統(tǒng)中實(shí)現(xiàn)內(nèi)核搶占的必要性。然后分析了禁止內(nèi)核搶占的情況和內(nèi)核搶占的時(shí)機(jī)，最后介紹了實(shí)現(xiàn)搶占內(nèi)核所做的改動(dòng)以及何時(shí)需要重新調(diào)度。

2019-08-06 06:16:22

請(qǐng)問(wèn)FreeRTOS是如何實(shí)現(xiàn)調(diào)度的？

最近入門RTOS，首先看書了解了合作式調(diào)度器的應(yīng)用，其基本思想是在主循環(huán)中不斷執(zhí)行調(diào)度函數(shù)，在SysTick中斷中更新任務(wù)狀態(tài)，程序我也大致看懂了。之后到了入門FreeRTOS遇到了困難，利用

2020-07-30 07:40:49

轉(zhuǎn)：第14章任務(wù)調(diào)度—搶占式，時(shí)間片和合作式

這些基本概念搞清楚，然后閱讀下源碼，深入理解實(shí)現(xiàn)方法。本章教程配套的例子含Cortex-M3內(nèi)核的STM32F103和Cortex-M4內(nèi)核的STM32F407以及F429。14.1 關(guān)于合作式調(diào)度器

2016-08-30 09:55:28

阿爾法Linux

阿爾法Linux ATK-IMX6F800E8GD512M-B 6~24V

2023-03-28 13:06:25

（轉(zhuǎn)）HarmonyOS(鴻蒙OS)發(fā)布，聊聊操作系統(tǒng)的調(diào)度

取決于代碼是怎么寫的，所以實(shí)時(shí)任務(wù)即便就緒，它被調(diào)度的時(shí)間也是不可預(yù)期的。 Linux內(nèi)核的調(diào)度機(jī)制并沒(méi)有規(guī)定開發(fā)者必須如何如何寫代碼，更沒(méi)有規(guī)定不可搶占的區(qū)間的最長(zhǎng)執(zhí)行時(shí)間，所以Linux內(nèi)核調(diào)度器

2019-08-20 08:00:00

EPA通信調(diào)度測(cè)試方法與實(shí)現(xiàn)技術(shù)

介紹了EPA通信協(xié)議模型和EPA通信調(diào)度規(guī)程，根據(jù)通信調(diào)度的原理和要求，研究了EPA協(xié)議確定性調(diào)度的測(cè)試原理，提出了測(cè)試EPA確定性調(diào)度的方法和系統(tǒng)結(jié)構(gòu)，對(duì)調(diào)度偏差和調(diào)度順序

2009-03-16 17:42:23

Linux與VxWorks任務(wù)調(diào)度機(jī)制分析

Linux與VxWorks任務(wù)調(diào)度機(jī)制分析

2009-03-28 09:52:34

Linux的內(nèi)核教程

本章學(xué)習(xí)目標(biāo)掌握LINUX內(nèi)核版本的含義理解并掌握進(jìn)程的概念掌握管道的概念及實(shí)現(xiàn)了解內(nèi)核的數(shù)據(jù)結(jié)構(gòu)了解LINUX內(nèi)核的算法掌握LINUX內(nèi)核升級(jí)的方法

2009-04-10 16:59:19

linux處理機(jī)調(diào)度與死鎖

linux處理機(jī)調(diào)度與死鎖掌握處理機(jī)的三級(jí)調(diào)度 掌握作業(yè)調(diào)度及進(jìn)程調(diào)度的概念 理解調(diào)度算法的評(píng)價(jià)準(zhǔn)則掌握并靈活運(yùn)用常用的幾種作業(yè)調(diào)度、

2009-04-28 14:59:49

Linux 2.6進(jìn)程調(diào)度

分析了與Linux 2.6 進(jìn)程調(diào)度密切相關(guān)的一些重要數(shù)據(jù)結(jié)構(gòu),詳細(xì)描述了進(jìn)程調(diào)度的時(shí)機(jī)、調(diào)度的策略和調(diào)度器的工作流程,并從算法分析和HackBench 測(cè)試兩個(gè)方面對(duì)Linux 2.4和2.6 進(jìn)程調(diào)

2009-06-13 10:13:09

RTLinux調(diào)度策略的研究

RTLinux 是Linux 的嵌入式實(shí)時(shí)內(nèi)核，本文首先分析了RTLinux 的工作原理和兩種典型的實(shí)時(shí)調(diào)度算法（RMS 和EDF），然后深入分析了RTLinux 下的動(dòng)態(tài)調(diào)度器EDF 和它的實(shí)現(xiàn)方法，并通過(guò)編

2009-08-31 10:59:22

Li nux與VxWorks任務(wù)調(diào)度機(jī)制分析

分析了Linux和VxWorks兩種多任務(wù)操作系統(tǒng)任務(wù)調(diào)度機(jī)制的異同，從任務(wù)控制塊、調(diào)度的時(shí)機(jī)、調(diào)度的優(yōu)先級(jí)和調(diào)度的策略方面進(jìn)行了詳細(xì)的分析和對(duì)比。分析了VxWorks和Linux在POSIX1003．1b

2009-11-13 17:54:12

調(diào)度算法實(shí)現(xiàn)描述

調(diào)度算法實(shí)現(xiàn)描述先假設(shè)在一個(gè)時(shí)頻資源單元內(nèi)信道是平坦的，不同單元之間的衰落服從獨(dú)立的瑞利分布，不同用戶的單元間衰落是獨(dú)立

2009-03-01 16:51:47

781

Linux超線程感知的調(diào)度算法研究

Linux超線程感知的調(diào)度算法研究隨著計(jì)算機(jī)應(yīng)用的日益普及，用戶對(duì)計(jì)算機(jī)的處理能力的需求成指數(shù)級(jí)增長(zhǎng)。為了滿足用戶的需求，處理器生產(chǎn)廠商采用了諸如超流水

2009-10-26 14:06:56

694

基于Linux的居民用電管理解決方案

本文提出了一種基于嵌入式Linux系統(tǒng)的居民用電管理解決方案,管理終端操作系統(tǒng)選用嵌入式Linux，同時(shí)搭配單片機(jī)實(shí)現(xiàn)與采集終端之間的無(wú)線通信

2011-05-13 11:02:25

598

深入理解Linux虛擬內(nèi)存管理_愛(ài)爾蘭/戈?duì)柭?/a>

電子發(fā)燒友網(wǎng)站提供《深入理解Linux虛擬內(nèi)存管理_愛(ài)爾蘭/戈?duì)柭?txt》資料免費(fèi)下載

2015-02-09 15:19:27

深入理解LINUX內(nèi)核（中文版）_ 陳莉君/馮銳/牛欣源譯

電子發(fā)燒友網(wǎng)站提供《深入理解LINUX內(nèi)核（中文版）_ 陳莉君/馮銳/牛欣源譯.txt》資料免費(fèi)下載

2015-02-11 11:16:33

一種多核混合分區(qū)調(diào)度算法設(shè)計(jì)與實(shí)現(xiàn)

一種多核混合分區(qū)調(diào)度算法設(shè)計(jì)與實(shí)現(xiàn)_郝繼鋒

2017-01-07 19:00:39

Linux進(jìn)程調(diào)度的原理解析

進(jìn)程調(diào)度依據(jù) 調(diào)度程序運(yùn)行時(shí)，要在所有可運(yùn)行狀態(tài)的進(jìn)程中選擇最值得運(yùn)行的進(jìn)程投入運(yùn)行。選擇進(jìn)程的依據(jù)是什么呢？在每個(gè)進(jìn)程的task_strUCt結(jié)構(gòu)中有以下四項(xiàng)：policy、priority

2017-11-02 11:01:23

uClinux進(jìn)程調(diào)度器的實(shí)現(xiàn)分析

了uClinux中進(jìn)程調(diào)度器的實(shí)現(xiàn)原理，展示了uClinux中獨(dú)具特色的進(jìn)程調(diào)度機(jī)制。關(guān)鍵詞：uClinux；調(diào)度策略；進(jìn)程調(diào)度器 0. 引言 uClinux是針對(duì)控制領(lǐng)域的嵌入式Linux操作系統(tǒng)，它從

2017-11-06 14:30:37

深入理解Linux內(nèi)核(第三版)中文版

深入理解Linux內(nèi)核(第三版)中文版

2017-11-28 11:54:15

Linux內(nèi)核的DL調(diào)度器的細(xì)節(jié)和怎么樣使用DL調(diào)度器？

Linux內(nèi)核的DL調(diào)度器是一個(gè)全局EDF調(diào)度器，它主要針對(duì)有deadline限制的sporadic任務(wù)。注意：這些術(shù)語(yǔ)已經(jīng)在本系列文章的第一部分中說(shuō)明了，這里不再贅述。在這本文中，我們將一起

2018-07-16 10:54:46

5050

如何更改 Linux 的 I/O 調(diào)度器

Linux 的 I/O 調(diào)度器是一個(gè)以塊式 I/O 訪問(wèn)存儲(chǔ)卷的進(jìn)程，有時(shí)也叫磁盤調(diào)度器。Linux I/O 調(diào)度器的工作機(jī)制是控制塊設(shè)備的請(qǐng)求隊(duì)列：確定隊(duì)列中哪些 I/O 的優(yōu)先級(jí)更高以及何時(shí)下發(fā) I/O 到塊設(shè)備，以此來(lái)減少磁盤尋道時(shí)間，從而提高系統(tǒng)的吞吐量。

2019-05-15 15:54:52

708

在linux系統(tǒng)中I/O 調(diào)度的選擇

I/O 調(diào)度算法再各個(gè)進(jìn)程競(jìng)爭(zhēng)磁盤I/O的時(shí)候擔(dān)當(dāng)了裁判的角色。他要求請(qǐng)求的次序和時(shí)機(jī)做最優(yōu)化的處理，以求得盡可能最好的整體I/O性能。在linux下面列出4種調(diào)度算法CFQ

2019-04-02 14:33:24

348

Linux 組調(diào)度淺析

原文出處： ctthuangcheng???cgroup 與組調(diào)度linux內(nèi)核實(shí)現(xiàn)了control group功能（cgroup，since linux 2.6.24），可以支持

2019-04-02 14:40:01

285

Linux 進(jìn)程調(diào)度淺析

，各個(gè)進(jìn)程應(yīng)該是根據(jù)其優(yōu)先級(jí)公平地占有CPU。而不會(huì)出現(xiàn)“誰(shuí)運(yùn)氣好誰(shuí)占得多”這樣的不可控的情況。linux實(shí)現(xiàn)公平調(diào)度基本上是兩種思路：1、給處于可執(zhí)行狀態(tài)的進(jìn)程分配時(shí)間片（按照優(yōu)先級(jí)），用完時(shí)間

2019-04-02 14:40:46

238

嵌入式Linux實(shí)時(shí)進(jìn)程調(diào)度算法改進(jìn)

。Linux進(jìn)程調(diào)度時(shí)機(jī)[1]：調(diào)度時(shí)機(jī)是指在什么情況下運(yùn)行調(diào)度程序來(lái)選擇進(jìn)程運(yùn)行。在Linux系統(tǒng)中調(diào)度程序是通過(guò)函數(shù)schedule（）來(lái)實(shí)現(xiàn)的，這個(gè)函數(shù)被調(diào)用的頻率很高，由它來(lái)決定要運(yùn)行的進(jìn)程

2019-04-02 14:43:07

298

linux組調(diào)度淺析

cgroup與組調(diào)度linux內(nèi)核實(shí)現(xiàn)了control group功能（cgroup，since linux 2.6.24），可以支持將進(jìn)程分組，然后按組來(lái)劃分各種資源。比如

2019-04-02 14:45:09

293

linux進(jìn)程調(diào)度淺析

情況下，各個(gè)進(jìn)程應(yīng)該是根據(jù)其優(yōu)先級(jí)公平地占有CPU。而不會(huì)出現(xiàn)“誰(shuí)運(yùn)氣好誰(shuí)占得多”這樣的不可控的情況。linux實(shí)現(xiàn)公平調(diào)度基本上是兩種思路：1、給處于可執(zhí)行狀態(tài)的進(jìn)程分配時(shí)間片（按照優(yōu)先級(jí)），用完

2019-04-02 14:45:10

251

更改 Linux I/O 調(diào)度器來(lái)改善服務(wù)器性能

為了從?Linux?服務(wù)器榨取盡可能多的性能，請(qǐng)了解如何更改 I/O 調(diào)度器以滿足你的需求。Linux I/O 調(diào)度器控制內(nèi)核提交讀寫請(qǐng)求給磁盤的方式。自從 2.6 內(nèi)核以來(lái)，管理員

2019-04-02 14:46:29

182

英創(chuàng)信息技術(shù)Linux系統(tǒng)調(diào)度簡(jiǎn)介

1、綜述 Linux作為多任務(wù)、多用戶的操作系統(tǒng)，其進(jìn)程/線程調(diào)度管理是實(shí)現(xiàn)這些特性的關(guān)鍵部分。調(diào)度管理決定系統(tǒng)中的眾多線程中哪個(gè)線程獲得執(zhí)行、什么時(shí)候開始執(zhí)行、執(zhí)行多久。一個(gè)好的調(diào)度算法能優(yōu)化

2020-02-05 10:31:01

1001

米爾科技深入理解LINUX內(nèi)核簡(jiǎn)介

為了透徹理解Linux的工作機(jī)理，以及為何它在各種系統(tǒng)上能順暢運(yùn)行，你需要深入到內(nèi)核的心臟。

2019-11-25 09:34:06

1520

Linux進(jìn)程調(diào)度時(shí)機(jī)概念分析

Linux在眾多進(jìn)程中是怎么進(jìn)行調(diào)度的，這個(gè)牽涉到Linux進(jìn)程調(diào)度時(shí)機(jī)的概念，由Linux內(nèi)核中Schedule（）的函數(shù)來(lái)決定是否要進(jìn)行進(jìn)程的切換，如果要切換的話，切換到哪個(gè)進(jìn)程等等。

2020-01-23 17:14:00

2495

快速理解什么是Linux內(nèi)核以及Linux內(nèi)核的內(nèi)容

01 前言本文主要講解什么是Linux內(nèi)核，以及通過(guò)多張圖片展示Linux內(nèi)核的作用與功能，以便于讀者能快速理解什么是Linux內(nèi)核，能看懂Linux內(nèi)核。擁有超過(guò)1300萬(wàn)行的代碼，Linux

2020-10-21 12:02:53

3873

Linux內(nèi)核進(jìn)程調(diào)度schedule深入理解的詳細(xì)資料說(shuō)明

本文以 linux-2.4.10為例主要分析 Linux進(jìn)程調(diào)度模塊中的 schedule函數(shù)及其相關(guān)的函數(shù)。另外相關(guān)的前提知識(shí)也會(huì)說(shuō)明。默認(rèn)系統(tǒng)平臺(tái)是自己的i386架構(gòu)的pc。

2021-02-26 16:17:03

操作系統(tǒng)的靈魂Linux調(diào)度系統(tǒng)講解

本文主要是講Linux的調(diào)度系統(tǒng)，由于全部?jī)?nèi)容太多，分三部分來(lái)講，調(diào)度可以說(shuō)是操作系統(tǒng)的靈魂，為了讓CPU資源利用最大化，Linux設(shè)計(jì)了一套非常精細(xì)的調(diào)度系統(tǒng)，對(duì)大多數(shù)場(chǎng)景都進(jìn)行了很多優(yōu)化，系統(tǒng)

2021-03-11 17:05:13

1493

如何理解Linux的工作原理

介紹了運(yùn)行Linux系統(tǒng)的PC機(jī)的硬件組成結(jié)構(gòu)、編制內(nèi)核使用的匯編語(yǔ)言和C語(yǔ)言擴(kuò)展部分，并且重點(diǎn)說(shuō)明了80X86處理器在保護(hù)模式下運(yùn)行的編程方法。接著我們?cè)敿?xì)介紹了Linux內(nèi)核源代碼目錄樹組織結(jié)構(gòu)

2021-03-26 11:04:30

帶大家看看Linux內(nèi)核如何調(diào)度進(jìn)程的

部分，打開調(diào)度器的黑匣子，來(lái)看看Linux內(nèi)核如何調(diào)度進(jìn)程的。實(shí)際上，進(jìn)程調(diào)度器主要做兩件事：選擇下一個(gè)進(jìn)程，然后進(jìn)行上下文切換。而何時(shí)調(diào)用主調(diào)度器調(diào)度進(jìn)程那是調(diào)度時(shí)機(jī)所關(guān)注的問(wèn)題，而調(diào)度時(shí)機(jī)在之前的內(nèi)核搶占文章已經(jīng)做了詳細(xì)講解，在此不在贅述，而本文關(guān)注的調(diào)度時(shí)機(jī)是真正調(diào)用主調(diào)度器的時(shí)機(jī)

2021-07-26 15:14:57

1760

linux嵌入式系統(tǒng)算法,嵌入式Linux操作系統(tǒng)調(diào)度算法研究

2021-11-02 10:36:06

c語(yǔ)言實(shí)現(xiàn)任務(wù)調(diào)度器

二、原理1、超級(jí)循環(huán)2、時(shí)間片與時(shí)標(biāo)3、調(diào)度算法介紹1）時(shí)間片輪轉(zhuǎn)調(diào)度2）強(qiáng)制試調(diào)度4、注意事項(xiàng)所有任務(wù)的執(zhí)行時(shí)間不能超過(guò)時(shí)標(biāo)的時(shí)間三、任務(wù)調(diào)度代碼實(shí)現(xiàn)這里拿linux來(lái)測(cè)試schduler.c//~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~// 頭文件

2021-12-22 18:51:45

一文深入理解操作系統(tǒng)的進(jìn)程調(diào)度

想深入理解操作系統(tǒng)的進(jìn)程調(diào)度，需要先獲得一些準(zhǔn)備知識(shí)，這樣后面就不懵圈啦：

2022-03-16 10:58:03

1952

如何實(shí)現(xiàn)JMobile軟件的調(diào)度器功能

JMobile軟件提供了一個(gè)調(diào)度器引擎，通過(guò)設(shè)定的時(shí)間計(jì)劃表自動(dòng)執(zhí)行特定動(dòng)作，從而賦予HMI/網(wǎng)關(guān)調(diào)度器功能，減少現(xiàn)場(chǎng)操作人員的工作壓力。本文主要介紹如何實(shí)現(xiàn)JMobile軟件的調(diào)度器功能。

2022-11-16 18:07:47

812

智能調(diào)度模式是什么智能調(diào)度的優(yōu)缺點(diǎn)

智能調(diào)度模式是一種通過(guò)先進(jìn)的信息技術(shù)和智能算法實(shí)現(xiàn)電力系統(tǒng)智能化調(diào)度的方式。智能調(diào)度模式可以是中央調(diào)度模式，區(qū)域調(diào)度模式，分布式調(diào)度模式等。　　1. 中央調(diào)度模式：　　中央調(diào)度模式

2023-04-11 15:35:15

2691

Quartz任務(wù)調(diào)度基本實(shí)現(xiàn)原理

Quartz是一個(gè)完全由Java編寫的開源作業(yè)調(diào)度框架，為在Java應(yīng)用程序中進(jìn)行作業(yè)調(diào)度提供了簡(jiǎn)單卻強(qiáng)大的機(jī)制。Quartz允許開發(fā)人員根據(jù)時(shí)間間隔來(lái)調(diào)度作業(yè)。它實(shí)現(xiàn)了作業(yè)和觸發(fā)器的多對(duì)多的關(guān)系，還能把多個(gè)作業(yè)與不同的觸發(fā)器關(guān)聯(lián)。簡(jiǎn)單地創(chuàng)建一個(gè)org.quarz.Job接口的Java類。

2023-04-12 10:48:26

671

什么是Linux進(jìn)程調(diào)度器

1、背景知識(shí) 1.1 什么是調(diào)度器通常來(lái)說(shuō)，操作系統(tǒng)是應(yīng)用程序和可用資源之間的媒介。典型的資源有內(nèi)存和物理設(shè)備。但是CPU也可以認(rèn)為是一個(gè)資源，調(diào)度器可以臨時(shí)分配一個(gè)任務(wù)在上面執(zhí)行（單位是時(shí)間

2023-11-09 09:05:44

230

兆芯正引入Linux首選內(nèi)核調(diào)度技術(shù)，優(yōu)化性能

近期，兆芯工程團(tuán)隊(duì)亦在致力于將首選內(nèi)核調(diào)度技術(shù)引進(jìn)Linux系統(tǒng)中。他們?cè)噲D通過(guò)提議的Linux內(nèi)核補(bǔ)丁，利用已有的ACPI功能來(lái)辨別每個(gè)核心的特性。這項(xiàng)補(bǔ)丁將在ACPI CPUFreq驅(qū)動(dòng)程序中體現(xiàn)。這意味著調(diào)度程序能自動(dòng)在首要核心上運(yùn)行任務(wù)，使得整體性能更佳。

2023-12-29 14:30:23

180

已全部加載完成

搜索歷史

如何理解Linux調(diào)度器設(shè)計(jì)和實(shí)現(xiàn)

評(píng)論