【導(dǎo)讀】如今 ICML(International Conference on Machine Learning,國(guó)際機(jī)器學(xué)習(xí)大會(huì))已經(jīng)成為有巨大影響力的會(huì)議,每年都會(huì)為我們帶來(lái)很多關(guān)于機(jī)器學(xué)習(xí)趨勢(shì)與發(fā)展方向等有意義的分享。今年的 ICML 有三個(gè)討論會(huì)都重點(diǎn)討論了遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。
本文的作者(Isaac Godfried)也是對(duì)這兩個(gè)領(lǐng)域的研究?jī)?nèi)容非常感興趣,接下來(lái) AI科技大本營(yíng)將把Isaac Godfried在這次大會(huì)上的一些見(jiàn)聞介紹給大家。
對(duì)于深度學(xué)習(xí)來(lái)說(shuō),若缺少大量帶標(biāo)簽的高質(zhì)量數(shù)據(jù),會(huì)帶來(lái)較大的困難。許多任務(wù)都全面缺乏數(shù)據(jù)點(diǎn)(如:預(yù)測(cè)選舉結(jié)果、診斷罕見(jiàn)的疾病、翻譯稀有語(yǔ)種等等)。還有一些情況,數(shù)據(jù)量是足夠的,但數(shù)據(jù)噪聲很大,或標(biāo)簽的質(zhì)量很低(如:通過(guò)關(guān)鍵詞搜索從 Google 抓取的圖片、通過(guò) NLP 技術(shù)制定標(biāo)簽的醫(yī)療案例、只有部分注釋的文本語(yǔ)料庫(kù))。但不管怎樣,找到合適的方法去學(xué)習(xí)這些低質(zhì)量或有噪聲的數(shù)據(jù)都具有切實(shí)的意義。
可行的三種方法有遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)(從技術(shù)角度來(lái)講,這個(gè)方法是一種類(lèi)似領(lǐng)域自適應(yīng)的遷移學(xué)習(xí),但在本文中我會(huì)將它們看作不同的方法來(lái)討論)以及半監(jiān)督學(xué)習(xí)。還有一些其他的解決方法(主動(dòng)學(xué)習(xí)、元學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)),但本文會(huì)以 ICML 參會(huì)文章提到的三種方法為重點(diǎn)。由于這些方法處于領(lǐng)域間的邊界,我們會(huì)也會(huì)涉及一些其它的方法,在這里先做一個(gè)簡(jiǎn)單的概述。
遷移學(xué)習(xí)
微調(diào):假設(shè)我們同時(shí)有源分布和目標(biāo)分布 S(y|x) 和 T(y2|x2),此處 x ≠ x2,y1 ≠ y2。若要進(jìn)行微調(diào),你必須具備目標(biāo)域的標(biāo)簽數(shù)據(jù)。通過(guò)遷移學(xué)習(xí),我們固定網(wǎng)絡(luò)的淺層和中間層,只對(duì)深層特別是新類(lèi)別進(jìn)行微調(diào)。
多任務(wù)學(xué)習(xí):假設(shè)我們有任務(wù) T1、T2、T3 ... Tn;這些任務(wù)同時(shí)進(jìn)行訓(xùn)練,例如:訓(xùn)練一個(gè)同時(shí)做情緒分類(lèi)和命名實(shí)體識(shí)別的多任務(wù)網(wǎng)絡(luò)。這是遷移學(xué)習(xí)的形式之一,因?yàn)閺谋举|(zhì)上來(lái)看,訓(xùn)練過(guò)程中你是在進(jìn)行知識(shí)的遷移。
域自適應(yīng):與微調(diào)很相似,唯一不同是這里是域的改變而非標(biāo)簽集。所以若給定兩種分布 S(y|x) 和 T(y|x2) x ≠ x2,但 y 是相同的。域自適應(yīng)會(huì)著重于目標(biāo)域中無(wú)標(biāo)簽數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí)。例如:適應(yīng)從模擬器(源域)的有標(biāo)簽汽車(chē)圖片到街道上(目標(biāo)域)的無(wú)標(biāo)簽汽車(chē)圖片的模型。
元學(xué)習(xí)(終身學(xué)習(xí)):元學(xué)習(xí)的目標(biāo)是學(xué)習(xí)可以高度適應(yīng)新任務(wù)的“通用”屬性(超參數(shù)或權(quán)重),它的學(xué)習(xí)過(guò)程基于大量不同任務(wù)的訓(xùn)練。某種程度上,元學(xué)習(xí)可以被看作一種“歷史性的”多任務(wù)學(xué)習(xí),因?yàn)樗诙喾N不同的任務(wù)去尋找最合適的一組屬性。由于多任務(wù)學(xué)習(xí)始終高度依賴(lài)于模型本身,所以近期元學(xué)習(xí)的趨勢(shì)更加偏向于找到一種“與模型無(wú)關(guān)”的解決方法。
無(wú)論在什么產(chǎn)業(yè)或領(lǐng)域,遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)都是非常重要的工具。無(wú)論你從事醫(yī)學(xué)、金融、旅游或是創(chuàng)作,也無(wú)論你與圖像、文本、音頻還是時(shí)間序列數(shù)據(jù)打交道,這些都是機(jī)會(huì),你可以利用已經(jīng)訓(xùn)練好的通用模型,然后將其引入你的特定領(lǐng)域進(jìn)行微調(diào)。基于你的數(shù)據(jù),你可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)去同時(shí)解決多個(gè)相關(guān)任務(wù),從而提高整體性能。
在那些專(zhuān)注于醫(yī)學(xué)領(lǐng)域的深度學(xué)習(xí)論文中,有一篇題目為 “Not to Cry Wolf: Distantly Supervised Multitask Learning Critical Care”的論文。在重癥監(jiān)護(hù)室中,常常有錯(cuò)誤警報(bào)問(wèn)題,所以很多醫(yī)生和護(hù)士可能對(duì)此變得不再敏感。這篇文章重點(diǎn)介紹如何利用多任務(wù)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)來(lái)監(jiān)測(cè)有生命危險(xiǎn)的事件,而避免錯(cuò)誤的警報(bào)。該論文的作者將輔助任務(wù)引入到多任務(wù)學(xué)習(xí)中,無(wú)需花時(shí)間去打標(biāo)簽就可以提高模型的性能。特別要提的是,為了真正減少訓(xùn)練所需的標(biāo)簽數(shù)目,他們的模型引入了大量不相關(guān)的有監(jiān)督輔助任務(wù)。另外,他們開(kāi)發(fā)了一種針對(duì)不相關(guān)的多任務(wù)有監(jiān)督學(xué)習(xí)的新方法,無(wú)論是面對(duì)多變量的時(shí)間序列,還是對(duì)有標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)結(jié)合起來(lái)學(xué)習(xí),該方法都能自動(dòng)識(shí)別大量相關(guān)的輔助任務(wù)。
論文鏈接:
https://arxiv.org/abs/1802.05027
談?wù)摃?huì)視頻(待放)
如果我們想使用多任務(wù)學(xué)習(xí),但只有一個(gè)任務(wù),該怎么辦呢?一篇名為 “Pseudo-task Augmentation: From Deep Multitask Learning to Intratask Sharing?—?and Back”的論文對(duì)這一問(wèn)題給出了答案。作者提出利用偽任務(wù)來(lái)幫助提升主任務(wù)的表現(xiàn)。這一方案是可行的,因?yàn)閺谋举|(zhì)上來(lái)看,多任務(wù)學(xué)習(xí)的工作原理基于中間層和淺層的特征共享以及特定任務(wù)的解碼器。因此,使用多種解碼器來(lái)訓(xùn)練模型可以有相同的效果,即使解碼器都在為同一個(gè)任務(wù)工作,這是因?yàn)槊總€(gè)解碼器是通過(guò)不同方式學(xué)習(xí)該任務(wù)的;這些附加的解碼器被稱(chēng)為“偽任務(wù)”。該論文的作者在 CelebrityA 數(shù)據(jù)集上得出了當(dāng)前最好的結(jié)果。我很期待能看到他們能用 IMDB 的評(píng)價(jià)數(shù)據(jù)集測(cè)試一下該方法。他們基于一個(gè)基礎(chǔ)模型,通過(guò)自主開(kāi)發(fā)的技術(shù)進(jìn)行訓(xùn)練,從而得到了巨大的提升。這體現(xiàn)了該項(xiàng)技術(shù)有應(yīng)用于不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的潛能。
論文鏈接:
https://arxiv.org/abs/1803.04062
而“GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks”這篇論文闡述了一種新的多任務(wù)神經(jīng)系統(tǒng)正規(guī)化技術(shù),可以幫助神經(jīng)系統(tǒng)更快地收斂,提升整體性能。該技術(shù)也減少了調(diào)參所需的超參數(shù)數(shù)目,僅需要一個(gè)。該論文團(tuán)隊(duì)使用梯度量化自動(dòng)均衡算法(GradNorm)在 NYU2 數(shù)據(jù)集上得出了當(dāng)前最好的結(jié)果??傮w來(lái)說(shuō),該論文真正減小了訓(xùn)練 MLT 算法模型的復(fù)雜度與難度。最后,該作者提出了一個(gè)有趣的想法,“GradNorm 或許也可以應(yīng)用于多任務(wù)學(xué)習(xí)以外的領(lǐng)域。我們希望將 GradNorm 算法拓展到類(lèi)別平衡與 seq2seq 模型上,以及所有由梯度沖突而引發(fā)模型性能不佳的問(wèn)題?!?/p>
論文鏈接:
https://arxiv.org/abs/1711.02257
到目前為止,大多數(shù)有關(guān)遷移學(xué)習(xí)的論文都只研究了從源域到目標(biāo)域的知識(shí)遷移,通過(guò)預(yù)先初始化權(quán)重并保留部分層或降低學(xué)習(xí)率的方法來(lái)實(shí)現(xiàn)??梢哉f(shuō)論文“Transfer Learning via Learning to Transfer”完美地闡釋了什么是“元-遷移學(xué)習(xí)”(meta-transfer learning) 或者說(shuō)"學(xué)習(xí)如何遷移學(xué)習(xí)" (即 L2T, learn to teach)。
論文中用以描述 L2T 工作流程的圖片
作者是這樣解釋的:
不像 L2T,所有現(xiàn)有的遷移學(xué)習(xí)算法研究的都是從零開(kāi)始遷移,例如:只考慮一對(duì)興趣領(lǐng)域,而忽略了之前的遷移學(xué)習(xí)經(jīng)驗(yàn)。但不如這樣,L2T 框架能夠?qū)⑺兴惴ǖ闹腔奂谝簧恚厦嫣岬降娜魏我环N算法都可以應(yīng)用到遷移學(xué)習(xí)經(jīng)驗(yàn)之中。
論文鏈接:
http://proceedings.mlr.press/v80/wei18a/wei18a.pdf
那么現(xiàn)在問(wèn)題來(lái)了,這一方法與“元學(xué)習(xí)”有何不同呢?實(shí)際上,L2T 可以被看作一種特殊的元學(xué)習(xí):和元學(xué)習(xí)相同的是,它利用過(guò)去的歷史經(jīng)驗(yàn)來(lái)提升學(xué)習(xí)能力。然而,這里的歷史指的是從源域到目標(biāo)域的遷移學(xué)習(xí)。
論文中引用的不同學(xué)習(xí)方法對(duì)比圖
該論文作者基于 Caltech-256 數(shù)據(jù)集對(duì) L2T 框架進(jìn)行了評(píng)估,模型在此前最好結(jié)果的基礎(chǔ)上有所提升。
我(本文作者)個(gè)人很高興看到 “Explicit Inductive Bias for Transfer Learning with Convolutional Networks”被選入 ICML,此前該論文被 ICLR(International Conference on Learning Representations)拒掉了。這篇論文描述了一種將正規(guī)化應(yīng)用于遷移學(xué)習(xí)從而代替修改學(xué)習(xí)率的方法。研究者提出了幾種新的正規(guī)化方法,可以基于預(yù)先訓(xùn)練好的模型的權(quán)重使用不同的懲罰項(xiàng)。他們得到了很好的實(shí)驗(yàn)結(jié)果,目前我也正在嘗試把這一方法應(yīng)用到我自己的幾個(gè)醫(yī)學(xué)影像模型中。
論文鏈接:
https://arxiv.org/abs/1802.01483
“Curriculum Learning by Transfer Learning: Theory and Experiments with Deep Networks”是一篇以理論為主的論文,對(duì)“課程學(xué)習(xí)” (curriculum learning) 進(jìn)行了深入研究,這一說(shuō)法來(lái)源于教育和心理學(xué)領(lǐng)域,其目的是在有一定發(fā)展前提的規(guī)則下,學(xué)習(xí)更多不同的概念。該論文還特別關(guān)注了遷移學(xué)習(xí)和課程學(xué)習(xí)之間的關(guān)系,以及課程學(xué)習(xí)和訓(xùn)練所用到例子的順序之間的關(guān)系。這里要注意的一點(diǎn)是,這種類(lèi)型的遷移與之前討論的類(lèi)型有所不同。在這篇論文中,遷移學(xué)習(xí)指的是研究“知識(shí)從一個(gè)分類(lèi)器到另一個(gè)分類(lèi)器的遷移,如從老師分類(lèi)器到學(xué)生分類(lèi)器”。作者得出的結(jié)論是,課程學(xué)習(xí)使學(xué)習(xí)速率加快了,特別在處理困難的任務(wù)時(shí),最終結(jié)果的提升尤為明顯。
論文鏈接:
https://arxiv.org/pdf/1802.03796.pdf
(無(wú)監(jiān)督)域自適應(yīng)的問(wèn)題之一是目標(biāo)域與源域的分布的一致性問(wèn)題。無(wú)監(jiān)督域自適應(yīng)是遷移學(xué)習(xí)的類(lèi)型之一。由此作者通過(guò)保證有標(biāo)簽樣本和偽標(biāo)簽樣本的一致性,開(kāi)發(fā)了一種可以學(xué)習(xí)無(wú)標(biāo)簽?zāi)繕?biāo)樣本語(yǔ)義表達(dá)的語(yǔ)義遷移網(wǎng)絡(luò)。(論文“Learning Semantic Representations for Unsupervised Domain Adaptation”)他們的方法通過(guò)基于語(yǔ)義損失函數(shù)來(lái)減小源域和目標(biāo)域的差異的方法,使源分布和目標(biāo)的分布一致。該方法在 ImageCLEF-DA 和 Office31 數(shù)據(jù)集上都取得了當(dāng)前世界上最好的表現(xiàn)。
論文中的用圖
論文鏈接:
http://proceedings.mlr.press/v80/xie18c/xie18c.pdf
github 地址:
https://github.com/Mid-Push/Moving-Semantic-Transfer-Network
論文“Detecting and Correcting for Label Shift with Blackbox Predictors”是關(guān)于域自適應(yīng)的另一篇有趣的論文。該論文的重點(diǎn)在于檢測(cè)訓(xùn)練和測(cè)試中 y 分布的變化,這一方法在醫(yī)學(xué)上尤為有用,流行病或爆發(fā)疾病會(huì)對(duì)分布產(chǎn)生明顯的影響。
面對(duì)訓(xùn)練集和測(cè)試集分布之間的變化,我們希望可以檢測(cè)和量化其間的變化,在沒(méi)有測(cè)試集標(biāo)簽的情況下就可以對(duì)我們的分類(lèi)器進(jìn)行修正。
該論文的主題主要是協(xié)變量的變化。作者設(shè)計(jì)了幾個(gè)有趣的標(biāo)簽轉(zhuǎn)換模擬器,然后應(yīng)用于 CIFAR-10 數(shù)據(jù)集與 MINST 了。相比于未修正模型,他們的方法大大提升了準(zhǔn)確性。
論文鏈接:
http://proceedings.mlr.press/v80/lipton18a/lipton18a.pdf
我發(fā)現(xiàn)論文“Rectify Heterogeneous Models with Semantic Mapping”有趣的點(diǎn)在于為了對(duì)齊分布,它引入了最優(yōu)傳輸?shù)姆椒ā?/p>
論文中描述特征空間模型的圖片
總之,該論文提出了最初的想法,并在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上都取得了較好的結(jié)果,數(shù)據(jù)集包括 Amazon 用戶(hù)點(diǎn)擊數(shù)據(jù)集和學(xué)術(shù)論文分類(lèi)數(shù)據(jù)集。
-
算法
+關(guān)注
關(guān)注
23文章
4631瀏覽量
93397 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8442瀏覽量
133103 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5590
原文標(biāo)題:ICML2018見(jiàn)聞 | 遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)領(lǐng)域的進(jìn)展
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測(cè)中的應(yīng)用
keil下的FreeRtos多任務(wù)程序學(xué)習(xí)
遷移學(xué)習(xí)
一種由數(shù)據(jù)驅(qū)動(dòng)的多任務(wù)學(xué)習(xí)煉鋼終點(diǎn)預(yù)測(cè)方法
![一種由數(shù)據(jù)驅(qū)動(dòng)的<b class='flag-5'>多任務(wù)</b><b class='flag-5'>學(xué)習(xí)</b>煉鋼終點(diǎn)預(yù)測(cè)方法](https://file.elecfans.com/web2/M00/49/73/poYBAGKhwLaAdUsWAAAle3RwRXk068.jpg)
NLP多任務(wù)學(xué)習(xí)案例分享:一種層次增長(zhǎng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
AI實(shí)現(xiàn)多任務(wù)學(xué)習(xí),究竟能做什么
機(jī)器學(xué)習(xí)方法遷移學(xué)習(xí)的發(fā)展和研究資料說(shuō)明
![機(jī)器<b class='flag-5'>學(xué)習(xí)</b>方法<b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>的發(fā)展和研究資料說(shuō)明](https://file.elecfans.com/web1/M00/C0/F7/o4YBAF8RCNqAQN8yAAFSZnOH82k975.png)
機(jī)器學(xué)習(xí)中的Multi-Task多任務(wù)學(xué)習(xí)
關(guān)于多任務(wù)學(xué)習(xí)如何提升模型性能與原則
基于特征和實(shí)例遷移的加權(quán)多任務(wù)聚類(lèi)算法
遷移學(xué)習(xí)Finetune的四種類(lèi)型招式
一個(gè)大規(guī)模多任務(wù)學(xué)習(xí)框架μ2Net
一文詳解遷移學(xué)習(xí)
![一文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>](https://file1.elecfans.com/web2/M00/90/39/wKgZomTV-IeATGr4AAAvJyDtCHY824.png)
NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問(wèn)題
![NeurIPS 2023 | 擴(kuò)散模型解決<b class='flag-5'>多任務(wù)</b>強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>問(wèn)題](https://file1.elecfans.com//web2/M00/A8/68/wKgaomUs_uiAPwcVAADyizd-MH8593.png)
評(píng)論