本文作者第四范式涂威威,該文首發(fā)于《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》第15卷第3期
自動(dòng)機(jī)器學(xué)習(xí)的研究動(dòng)機(jī)
機(jī)器學(xué)習(xí)在推薦系統(tǒng)、在線廣告、金融市場(chǎng)分析、計(jì)算機(jī)視覺、語(yǔ)言學(xué)、生物信息學(xué)等諸多領(lǐng)域都取得了成功,在這些成功的應(yīng)用范例中,也少不了人類專家的參與。Google、 Facebook、百度、阿里巴巴、騰訊等科技公司依靠其頂尖的機(jī)器學(xué)習(xí)專家團(tuán)隊(duì)來支撐機(jī)器學(xué)習(xí)在企業(yè)內(nèi)部的各種應(yīng)用,各類科研機(jī)構(gòu)也在花費(fèi)大量經(jīng)費(fèi),維護(hù)著機(jī)器學(xué)習(xí)科學(xué)家團(tuán)隊(duì)。然而,對(duì)于很多傳統(tǒng)企業(yè)、中小型企業(yè)和一般的科研機(jī)構(gòu),就很難組建出這樣的機(jī)器學(xué)習(xí)專家團(tuán)隊(duì),其原因是機(jī)器學(xué)習(xí)專家的缺口太大,人才短缺,人才搶奪激烈,專家團(tuán)隊(duì)的管理成本高昂和專家經(jīng)驗(yàn)不可復(fù)制,等等。
為了機(jī)器學(xué)習(xí)能為更多的企業(yè)賦能,在更加廣泛的場(chǎng)景得到應(yīng)用,有沒有低門檻甚至零門檻的機(jī)器學(xué)習(xí)方法,讓更多的人可以在很少甚至幾乎沒有專業(yè)知識(shí)的情況下輕松使用,并減少機(jī)器學(xué)習(xí)應(yīng)用落地對(duì)專家人才的依賴?自動(dòng)機(jī)器學(xué)習(xí)(Automatic/Automated Machine Learning, AutoML)應(yīng)運(yùn)而生。其研究目的就是為了使機(jī)器學(xué)習(xí)過程自動(dòng)化,減少、甚至完全規(guī)避人類專家在這個(gè)過程中的參與度。
理論出發(fā)點(diǎn)
設(shè)計(jì)機(jī)器學(xué)習(xí)算法是一件困難重重的事情,能否找到一種通用的機(jī)器學(xué)習(xí)算法來解決所有的機(jī)器學(xué)習(xí)問題呢?這個(gè)問題在 20 多年前就被解答過,對(duì)于所有可能的問題,可以證明的是,如果所有問題同等重要,所有的算法,包括完全隨機(jī)的算法,它們的期望性能是一樣的,所有的算法沒有優(yōu)劣之分,這是著名的沒有免費(fèi)的午餐 (No Free Lunch, NFL)定理的一個(gè)不太嚴(yán)謹(jǐn)?shù)闹庇^闡述。
這個(gè)定理意味著尋求一種完全通用的機(jī)器學(xué)習(xí)算法是行不通的。于是,研究人員就開始針對(duì)不同的問題展開對(duì)應(yīng)的機(jī)器學(xué)習(xí)研究,這導(dǎo)致了機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用不可復(fù)制的問題。在解決某個(gè)特例問題的機(jī)器學(xué)習(xí)算法和針對(duì)所有問題完全通用的機(jī)器學(xué)習(xí)算法之間,有一種可能性是存在可以解決某一類而不只是某一個(gè)特例的相對(duì)通用的機(jī)器學(xué)習(xí)算法。自動(dòng)機(jī)器學(xué)習(xí)就是從這樣的理論考慮出發(fā),試圖去尋找更加通用的機(jī)器學(xué)習(xí)算法。
目前自動(dòng)機(jī)器學(xué)習(xí)研究的主要場(chǎng)景
靜態(tài)閉環(huán)自動(dòng)機(jī)器學(xué)習(xí)
靜態(tài)閉環(huán)自動(dòng)機(jī)器學(xué)習(xí)考慮的是靜態(tài)機(jī)器學(xué)習(xí)問題,即給定固定的訓(xùn)練集,不利用外部知識(shí),尋找在測(cè)試集上期望表現(xiàn)最好的機(jī)器學(xué)習(xí)模型。經(jīng)典的機(jī)器學(xué)習(xí)流程包括數(shù)據(jù)預(yù)處理、特征處理和模型訓(xùn)練。自動(dòng)機(jī)器學(xué)習(xí)在這三個(gè)流程中都有廣泛的研究 :
(1) 數(shù)據(jù)預(yù)處理中,研究數(shù)據(jù)的自動(dòng)清洗、樣本的自動(dòng)選擇、數(shù)據(jù)的自動(dòng)增強(qiáng)、數(shù)據(jù)類型的自動(dòng)推斷等,以達(dá)到理解原始數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量的目標(biāo)。
(2) 對(duì)特征處理方法的研究主要包括自動(dòng)特征生成和自動(dòng)特征選擇。自動(dòng)特征生成的研究包括單特征變換、多特征組合、深度特征生成、特征學(xué)習(xí)等。自動(dòng)特征選擇一般會(huì)配合自動(dòng)特征生成使用,先自動(dòng)生成特征,再進(jìn)行自動(dòng)特征選擇,對(duì)于復(fù)雜的特征處理,一般兩者交替迭代進(jìn)行。
(3) 模型訓(xùn)練的研究一般包括自動(dòng)算法選擇和自動(dòng)算法配置。自動(dòng)算法試圖從廣泛的機(jī)器學(xué)習(xí)算法中選擇適合問題的某一個(gè)或者某幾個(gè)算法,這些算法又有很多的超參數(shù)需要配置,自動(dòng)算法配置則研究如何進(jìn)行超參數(shù)選擇配置,比如如何配置神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)際應(yīng)用中這兩者也會(huì)配合使用。
外部知識(shí)輔助的靜態(tài)自動(dòng)機(jī)器學(xué)習(xí)
外部知識(shí)輔助的靜態(tài)自動(dòng)機(jī)器學(xué)習(xí)試圖借鑒人類專家選擇數(shù)據(jù)處理方法、特征處理方法、模型訓(xùn)練算法等的方式進(jìn)行自動(dòng)機(jī)器學(xué)習(xí)。人類專家會(huì)從以往處理過的機(jī)器學(xué)習(xí)問題中積累經(jīng)驗(yàn),并將此推廣到之后的機(jī)器學(xué)習(xí)問題中。
動(dòng)態(tài)環(huán)境的自動(dòng)機(jī)器學(xué)習(xí)
動(dòng)態(tài)環(huán)境下的自動(dòng)機(jī)器學(xué)習(xí)研究試圖解決的是數(shù)據(jù)不斷積累、概念發(fā)生漂移時(shí)的問題。
核心技術(shù)
自動(dòng)機(jī)器學(xué)習(xí)的研究核心是如何更好地對(duì)數(shù)據(jù)處理方法、特征處理方法、模型訓(xùn)練方法等基礎(chǔ)部件進(jìn)行選擇、組合以及優(yōu)化,以使學(xué)習(xí)到的模型的期望性能達(dá)到最優(yōu)(見圖 1)。
目前該項(xiàng)研究主要面臨三個(gè)難點(diǎn) :
(1) 超參配置與效果之間的函數(shù)無法顯式表達(dá),屬于“黑盒”函數(shù);
(2) 搜索空間巨大,可能的處理方法和組合是指數(shù)級(jí),同時(shí)不同處理方法擁有各自的超參數(shù),當(dāng)特征維度超過 20 時(shí),其多目特征組合可能的搜索空間都將遠(yuǎn)超圍棋可能的狀態(tài)空間 ;
(3) 函數(shù)值的每次計(jì)算大多涉及數(shù)據(jù)預(yù)處理、特征處理、模型訓(xùn)練的全流程,函數(shù)值的計(jì)算代價(jià)極其昂貴。為了解決這些問題,采用的核心技術(shù)是基礎(chǔ)搜索方法、基于采樣的方法和基于梯度的方法。
圖1 自動(dòng)機(jī)器學(xué)習(xí)的框架
基礎(chǔ)搜索方法
搜索方法中最常見的是格搜索方法。該方法通過遍歷多維參數(shù)組合構(gòu)成了網(wǎng)格尋求最優(yōu)化,容易實(shí)現(xiàn),應(yīng)用廣泛,但是,搜索復(fù)雜度隨參數(shù)維度呈指數(shù)增長(zhǎng),并且會(huì)將搜索浪費(fèi)在不太重要的參數(shù)維度上。隨機(jī)搜索方法則是對(duì)參數(shù)空間進(jìn)行隨機(jī)采樣,各個(gè)維度相互獨(dú)立,克服了維度災(zāi)難和浪費(fèi)資源搜索的問題。在實(shí)際應(yīng)用中,隨機(jī)搜索方法往往表現(xiàn)得比格搜索要優(yōu)秀。
基于采樣的方法
基于采樣的方法是被研究得最多的方法,大多也是具有理論基礎(chǔ)的方法,往往比基礎(chǔ)搜索方法表現(xiàn)更優(yōu)。這類方法一般會(huì)生成一個(gè)或者多個(gè)對(duì)樣本空間的采樣點(diǎn),之后再對(duì)這些采樣點(diǎn)進(jìn)行評(píng)估,根據(jù)評(píng)估的反饋結(jié)果進(jìn)行下一步采樣,最后尋找到相對(duì)較優(yōu)的參數(shù)點(diǎn)(見圖 2)?;诓蓸拥姆椒ǚ譃橐韵滤念悾?/p>
圖2 基于采樣的方法
基于模型的零階優(yōu)化方法
該方法試圖建立關(guān)于配置參數(shù)和最終效果的模型,并依據(jù)模型來尋求最優(yōu)化。這類方法一般先基于已經(jīng)采樣到的點(diǎn)的效果評(píng)估建立模型,然后基于學(xué)習(xí)到的模型采用某種采樣策略來生成下一個(gè)或者下一組采樣點(diǎn),根據(jù)新的采樣點(diǎn)得到的效果進(jìn)一步更新模型,再采樣迭代,如此尋求對(duì)黑盒函數(shù)的最優(yōu)化。由于待優(yōu)化的函數(shù)是“黑盒”函數(shù),在求解過程中只能獲得函數(shù)值而不能直接計(jì)算函數(shù)梯度,因此也被稱為零階優(yōu)化方法(零階是相對(duì)于傳統(tǒng)計(jì)算一階或者二階梯度的優(yōu)化方法)或者非梯度方法。
這類方法有兩個(gè)主要的關(guān)注點(diǎn) : 模型和采樣策略。構(gòu)建的模型一般用來預(yù)測(cè)配置參數(shù)對(duì)應(yīng)的效果。由于采樣依據(jù)的模型僅僅是依據(jù)之前采樣得到的點(diǎn)的反饋學(xué)習(xí),對(duì)函數(shù)空間未探索區(qū)域的估計(jì)一般是不太準(zhǔn)確的,采樣策略需要在函數(shù)最優(yōu)化和空間探索之間做出權(quán)衡,即在開發(fā)利用 (exploitation) 和探索 (exploration) 之間做出權(quán)衡,簡(jiǎn)稱 E&E。
貝葉斯優(yōu)化是一種基于概率模型的方法,一般采用高斯過程、貝葉斯神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等作為模型,然后采用提升概率、提升期望、交叉熵、GP-UCB 等作為采樣策略,這些策略都在顯式或者隱式地進(jìn)行 E&E。最常見的是基于高斯過程的貝葉斯優(yōu)化方法,這類方法在參數(shù)維度較低、采樣點(diǎn)較少時(shí)表現(xiàn)較優(yōu),但是在高維、采樣點(diǎn)較多時(shí)就很難被使用,因此有學(xué)者嘗試使用貝葉斯神經(jīng)網(wǎng)絡(luò)解決這樣的問題。
基于分類方法的隨機(jī)坐標(biāo)收縮方法 (RAndom COordinate Shrinking, RACOS) 和基于隨機(jī)坐標(biāo)收縮分類模型來進(jìn)行基于模型的零階優(yōu)化,有效地解決了貝葉斯優(yōu)化方法的計(jì)算復(fù)雜度高、參數(shù)類型受限的問題,它一般采用最簡(jiǎn)單的 ε-greedy 方法來進(jìn)行 E&E。隨機(jī)坐標(biāo)收縮方法被證明在高維度場(chǎng)景下顯著優(yōu)于基于高斯過程的貝葉斯優(yōu)化方法。
局部搜索方法
局部搜索方法一般定義某種判定鄰域的方式, 從一個(gè)初始解出發(fā),搜索解的鄰域,不斷探索更優(yōu)的鄰域解來完成對(duì)解空間的尋優(yōu)。最常見的方法有爬山法、局部集束搜索等。局部搜索簡(jiǎn)單、靈活并易于實(shí)現(xiàn),但容易陷入局部最優(yōu),且解的質(zhì)量與初始解和鄰域的結(jié)構(gòu)密切相關(guān)。
啟發(fā)式方法
啟發(fā)式方法主要是模擬生物現(xiàn)象,或者從一些自然現(xiàn)象中獲得啟發(fā)來進(jìn)行優(yōu)化,最典型的就是基于演化計(jì)算方法。這類方法由于很少有理論依據(jù),實(shí)際工作中很難對(duì)方法的效果進(jìn)行分析。
基于強(qiáng)化學(xué)習(xí)的方法
這類方法能夠發(fā)現(xiàn)一些新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并被驗(yàn)證具有一定的遷移能力,但是由于強(qiáng)化學(xué)習(xí)自身的學(xué)習(xí)算法研究尚未成熟,其優(yōu)化效率相對(duì)低下。
基于梯度的方法
由于對(duì)優(yōu)化部件以及超參數(shù)的可微性要求較高,并且計(jì)算復(fù)雜度也高,因此,直接對(duì)優(yōu)化目標(biāo)進(jìn)行梯度求解的方法很少使用。
研究熱點(diǎn)
自動(dòng)機(jī)器學(xué)習(xí)的研究熱點(diǎn)是效率和泛化性。解決自動(dòng)機(jī)器學(xué)習(xí)的效率問題是自動(dòng)機(jī)器學(xué)習(xí)技術(shù)落地的關(guān)鍵之一。效率優(yōu)化包括六類 :
(1) 混合目標(biāo)優(yōu)化,將參數(shù)點(diǎn)的評(píng)估代價(jià)也作為優(yōu)化目標(biāo)的一部分,在計(jì)算代價(jià)和效果之間做權(quán)衡。
(2) 同步并行化和異步并行化。
(3) 提前停止迭代,在訓(xùn)練早期就剔除一些表現(xiàn)不太好的參數(shù),節(jié)省計(jì)算資源,比如最經(jīng)典的逐次減半策略,每過一段時(shí)間都剔除其中一半不好的參數(shù),極大地節(jié)省了計(jì)算資源(見圖 3)。
(4) 對(duì)模型訓(xùn)練進(jìn)行熱啟動(dòng),復(fù)用類似參數(shù)的訓(xùn)練結(jié)果,降低超參數(shù)的評(píng)估代價(jià)。
(5) 對(duì)數(shù)據(jù)進(jìn)行采樣,采用小樣本上的參數(shù)搜索來代替全樣本的參數(shù)搜索,由于小樣本和全樣本最優(yōu)參數(shù)之間可能存在著差異,有一些研究人員試圖學(xué)習(xí)小樣本和全樣本之間的關(guān)系來進(jìn)行多保真度的自動(dòng)機(jī)器學(xué)習(xí)(見圖 4)。
(6) 將超參數(shù)搜索和機(jī)器學(xué)習(xí)過程結(jié)合起來,進(jìn)一步提升效率和效果,比如基于種群的方法。
機(jī)器學(xué)習(xí)關(guān)注的核心是泛化性,自動(dòng)機(jī)器學(xué)習(xí)的目的也是為了提升最終學(xué)習(xí)到的模型的泛化性。
圖3 逐次減半策略
圖4 多保真度的自動(dòng)機(jī)器學(xué)習(xí)
如何判斷自動(dòng)機(jī)器學(xué)習(xí)是否提升了泛化性,一般采用切分訓(xùn)練集和驗(yàn)證集的方式進(jìn)行估計(jì)。為了進(jìn)一步降低過擬合到驗(yàn)證集的風(fēng)險(xiǎn),有一些研究關(guān)注如何對(duì)模型的泛化效果進(jìn)行更合理的估計(jì)。除此之外,由于自動(dòng)機(jī)器學(xué)習(xí)往往伴隨著很多次不同參數(shù)的模型學(xué)習(xí),與最終只選擇一個(gè)“最優(yōu)”的模型不同,選擇其中一些模型進(jìn)行集成學(xué)習(xí)也是一種提升泛化性的方式。越來越多的工作混合多種效率優(yōu)化和提升泛化性的策略對(duì)自動(dòng)機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化。
落地應(yīng)用
來自不同數(shù)據(jù)之間解決問題手段的可遷移性 / 可復(fù)制性為自動(dòng)機(jī)器學(xué)習(xí)的落地增加了難度。解決不同問題的手段相似性或者可遷移性 / 可復(fù)制性越高,自動(dòng)化越容易,反之越難。目前自動(dòng)機(jī)器學(xué)習(xí)落地的應(yīng)用場(chǎng)景主要有圖像數(shù)據(jù)和表數(shù)據(jù)。
圖像數(shù)據(jù)
深度學(xué)習(xí)取得成功的領(lǐng)域來自圖像。深度學(xué)習(xí)的核心在于“自動(dòng)”學(xué)習(xí)層次化特征。以前的圖像分析需要人工來做,要從原始像素中提取非常多的特征,而深度學(xué)習(xí)很好地解決了這個(gè)問題。深度學(xué)習(xí)使得特征可學(xué)習(xí),同時(shí)將人工特征設(shè)計(jì)轉(zhuǎn)變成了人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。對(duì)于這類數(shù)據(jù),自動(dòng)機(jī)器學(xué)習(xí)研究的核心是使圖像領(lǐng)域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)自動(dòng)化。圖像數(shù)據(jù)之間的相似性較大,原始輸入都是像素,問題解決方案的可遷移性和可復(fù)用性也大,因此,自動(dòng)機(jī)器學(xué)習(xí)在圖像數(shù)據(jù)上的落地相對(duì)容易。
表數(shù)據(jù)
表數(shù)據(jù)是抽象數(shù)據(jù),不同的表數(shù)據(jù)之間沒有很強(qiáng)的相似性,不同表數(shù)據(jù)各列的含義千差萬別,表數(shù)據(jù)還與實(shí)際業(yè)務(wù)密切相關(guān),需要解決時(shí)序性、概念漂移、噪聲等問題,因此自動(dòng)機(jī)器學(xué)習(xí)在表數(shù)據(jù)上落地的難度較大,僅僅是自動(dòng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)是遠(yuǎn)遠(yuǎn)不夠的。目前研究的熱點(diǎn)還包括如何將分布在多個(gè)表中的數(shù)據(jù)自動(dòng)轉(zhuǎn)化成最終機(jī)器學(xué)習(xí)所需要的單個(gè)表數(shù)據(jù)。
未來展望
算法方向
在自動(dòng)機(jī)器學(xué)習(xí)算法方面,未來的工作如果能在 5 個(gè)方向上取得突破,將會(huì)有較大的價(jià)值。
1. 效率提升。效率可從時(shí)間復(fù)雜度和樣本復(fù)雜度兩方面考量。在給定的計(jì)算資源下,更高的效率在一定程度上決定了自動(dòng)機(jī)器學(xué)習(xí)的可行性,意味著可以進(jìn)行更多探索,還可能會(huì)帶來更好的效果。另外,獲取高質(zhì)量有標(biāo)記的樣本往往是非常昂貴的,因此樣本復(fù)雜度也是影響機(jī)器學(xué)習(xí)落地的關(guān)鍵因素之一。在外部知識(shí)輔助的自動(dòng)機(jī)器學(xué)習(xí)中引入學(xué)件 (學(xué)件 = 模型 + 模型的規(guī)約),利用遷移學(xué)習(xí),是未來有效降低樣本復(fù)雜度的可能方向 (見圖 5)。
圖5 遷移學(xué)習(xí)與學(xué)件
2. 泛化性。目前自動(dòng)機(jī)器學(xué)習(xí)在泛化性上考慮較少,泛化性是機(jī)器學(xué)習(xí)最重要的研究方向,未來需要加強(qiáng)。
3. 全流程的優(yōu)化。與目前大部分自動(dòng)機(jī)器學(xué)習(xí)只研究機(jī)器學(xué)習(xí)的某一個(gè)階段(比如自動(dòng)特征、自動(dòng)算法選擇、自動(dòng)算法配置)不同,實(shí)際應(yīng)用需要全流程的自動(dòng)機(jī)器學(xué)習(xí)技術(shù)。
4. 面對(duì)開放世界?,F(xiàn)實(shí)世界不是一成不變的, 自動(dòng)機(jī)器學(xué)習(xí)技術(shù)需要面對(duì)開放的世界,解決數(shù)據(jù)的時(shí)序性、概念漂移、噪聲等問題。
5. 安全性和可解釋性。為使自動(dòng)機(jī)器學(xué)習(xí)具有安全性,需要解決攻擊應(yīng)對(duì)、噪聲抵抗、隱私保護(hù)等問題。如果自動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)被部署到實(shí)際系統(tǒng)中與人交互,則需要更好的可解釋性。
理論方向
在自動(dòng)機(jī)器學(xué)習(xí)理論方面,目前研究的甚少,對(duì)自動(dòng)機(jī)器學(xué)習(xí)的泛化能力及適用性也知之甚少。因而,我們一方面要回答目前自動(dòng)機(jī)器學(xué)習(xí)算法的適用性和泛化能力,另一方面也要回答哪些問題類存在通用的機(jī)器學(xué)習(xí)算法上和更廣泛?jiǎn)栴}空間上的自動(dòng)機(jī)器學(xué)習(xí)算法的可行性。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4782瀏覽量
101227 -
核心技術(shù)
+關(guān)注
關(guān)注
4文章
625瀏覽量
19677 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8445瀏覽量
133120
原文標(biāo)題:第四范式涂威威:AutoML 回顧與展望
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論