本文簡要介紹了提升神經(jīng)網(wǎng)絡(luò)性能的方法,如檢查過擬合、調(diào)參、超參數(shù)調(diào)節(jié)、數(shù)據(jù)增強。
神經(jīng)網(wǎng)絡(luò)是一種在很多用例中能夠提供最優(yōu)準確率的機器學(xué)習(xí)算法。但是,很多時候我們構(gòu)建的神經(jīng)網(wǎng)絡(luò)的準確率可能無法令人滿意,或者無法讓我們在數(shù)據(jù)科學(xué)競賽中拿到領(lǐng)先名次。所以,我們總是在尋求更好的方式來改善模型的性能。有很多技術(shù)可以幫助我們達到這個目標。本文將介紹這些技術(shù),幫助大家構(gòu)建更準確的神經(jīng)網(wǎng)絡(luò)。
檢查過擬合
保證神經(jīng)網(wǎng)絡(luò)在測試集上運行良好的第一步就是驗證神經(jīng)網(wǎng)絡(luò)沒有過擬合。什么是過擬合呢?當你的模型開始記錄訓(xùn)練數(shù)據(jù)而不是從中學(xué)習(xí)的時候,就發(fā)生了過擬合。然后,當你的模型遇到之前沒有見過的數(shù)據(jù)時,它就無法很好的運行。為了更好地理解,我們來看一個類比。我們有一個記性特好的同學(xué),假設(shè)一次數(shù)學(xué)考試馬上就要來臨了。你和這位擅長記憶的同學(xué)開始學(xué)習(xí)課本。這名同學(xué)記住課本中的每一個公式、問題以及問題的答案,然而你要比他來得聰明一些,所以你決定以直覺為基礎(chǔ)、解決問題、學(xué)習(xí)這些公式是如何發(fā)揮作用的??荚噥砹?,如果試卷中的問題是直接來源于課本的,那么可以想像那名記憶力超群的同學(xué)發(fā)揮得更好,但是,如果試題是涉及應(yīng)用直觀知識的全新問題,那么你將會做得更好,而你的朋友會慘敗。
如何鑒別模型是否過擬合呢?你僅僅需要交叉檢查訓(xùn)練準確率和測試準確率。如果訓(xùn)練準確率遠遠高出了測試準確率,那么可以斷定你的模型是過擬合了。你也可以在圖中畫出預(yù)測點來驗證。下面是一些避免過擬合的技術(shù):
數(shù)據(jù)正則化(L1 或 L2);
Dropout:隨機丟棄一些神經(jīng)元之間的連接,強制神經(jīng)網(wǎng)絡(luò)尋找新的路徑并泛化;
早停(Early Stopping):促使神經(jīng)網(wǎng)絡(luò)訓(xùn)練早點停止,以減少在測試集中的誤差。
超參數(shù)調(diào)節(jié)
超參數(shù)是你必須給網(wǎng)絡(luò)初始化的值,這些數(shù)值不能在訓(xùn)練的過程中學(xué)到。在卷積神經(jīng)網(wǎng)絡(luò)中,這些超參數(shù)包括:核大小、神經(jīng)網(wǎng)絡(luò)層數(shù)、激活函數(shù)、損失函數(shù)、所用的優(yōu)化器(梯度下降、RMSprop)、批大小、訓(xùn)練的 epoch 數(shù)量等等。
每個神經(jīng)網(wǎng)絡(luò)都會有最佳超參數(shù)組合,這組參數(shù)能夠得到最大的準確率。你也許會問,「有這么多超參數(shù),我如何選擇每個參數(shù)呢?」不幸的是,對每個神經(jīng)網(wǎng)絡(luò)而言,并沒有確定最佳超參數(shù)組合的直接方法,所以通常都是通過反復(fù)試驗得到的。但是也有一些關(guān)于上述超參數(shù)的最佳實踐:
學(xué)習(xí)率:選擇最優(yōu)學(xué)習(xí)率是很重要的,因為它決定了神經(jīng)網(wǎng)絡(luò)是否可以收斂到全局最小值。選擇較高的學(xué)習(xí)率幾乎從來不能到達全局最小值,因為你很可能跳過它。所以,你總是在全局最小值附近,但是從未收斂到全局最小值。選擇較小的學(xué)習(xí)率有助于神經(jīng)網(wǎng)絡(luò)收斂到全局最小值,但是會花費很多時間。這樣你必須用更多的時間來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。較小的學(xué)習(xí)率也更可能使神經(jīng)網(wǎng)絡(luò)困在局部極小值里面,也就是說,神經(jīng)網(wǎng)絡(luò)會收斂到一個局部極小值,而且因為學(xué)習(xí)率比較小,它無法跳出局部極小值。所以,在設(shè)置學(xué)習(xí)率的時候你必須非常謹慎。
神經(jīng)網(wǎng)絡(luò)架構(gòu):并不存在能夠在所有的測試集中帶來高準確率的標準網(wǎng)絡(luò)架構(gòu)。你必須實驗,嘗試不同的架構(gòu),從實驗結(jié)果進行推斷,然后再嘗試。我建議使用已經(jīng)得到驗證的架構(gòu),而不是構(gòu)建自己的網(wǎng)絡(luò)架構(gòu)。例如:對于圖像識別任務(wù),有 VGG net、Resnet、谷歌的 Inception 網(wǎng)絡(luò)等。這些都是開源的,而且已經(jīng)被證明具有較高的準確率。所以你可以把這些架構(gòu)復(fù)制過來,然后根據(jù)自己的目的做一些調(diào)整。
優(yōu)化器和損失函數(shù):這方面有很多可供選擇。事實上,如果有必要,你可以自定義損失函數(shù)。常用的優(yōu)化器有 RMSprop、隨機梯度下降和 Adam。這些優(yōu)化器貌似在很多用例中都可以起作用。如果你的任務(wù)是分類任務(wù),那么常用的損失函數(shù)是類別交叉熵。如果你在執(zhí)行回歸任務(wù),那么均方差是最常用的損失函數(shù)。你可以自由地使用這些優(yōu)化器超參數(shù)進行試驗,也可以使用不同的優(yōu)化器和損失函數(shù)。
批大小和 epoch 次數(shù):同樣,沒有適用于所有用例的批大小和 epoch 次數(shù)的標準值。你必須進行試驗,嘗試不同的選擇。在通常的實踐中,批大小被設(shè)置為 8、16、32……epoch 次數(shù)則取決于開發(fā)者的偏好以及他/她所擁有的計算資源。
激活函數(shù):激活函數(shù)映射非線性函數(shù)輸入和輸出。激活函數(shù)是特別重要的,選擇合適的激活函數(shù)有助于模型學(xué)習(xí)得更好?,F(xiàn)在,整流線性單元(ReLU)是最廣泛使用的激活函數(shù),因為它解決了梯度消失的問題。更早時候,Sigmoid 和 Tanh 函數(shù)都是最常用的激活函數(shù)。但是它們都會遇到梯度消失的問題,即在反向傳播中,梯度在到達初始層的過程中,值在變小,趨向于 0。這不利于神經(jīng)網(wǎng)絡(luò)向具有更深層的結(jié)構(gòu)擴展。ReLU 克服了這個問題,因此也就可以允許神經(jīng)網(wǎng)絡(luò)擴展到更深的層。
ReLU 激活函數(shù)
算法集成
如果單個神經(jīng)網(wǎng)絡(luò)不像你期待的那樣準確,那么你可以創(chuàng)建一個神經(jīng)網(wǎng)絡(luò)集成,結(jié)合多個網(wǎng)絡(luò)的預(yù)測能力。你可以選擇不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),在不同部分的數(shù)據(jù)集上訓(xùn)練它們,然后使用它們的集合預(yù)測能力在測試集上達到較高的準確率。假設(shè)你在構(gòu)建一個貓狗分類器,0 代表貓,1 代表狗。當組合不同的貓狗分類器時,基于單個分類器之間的皮爾遜相關(guān)系數(shù),集成算法的準確率有了提升。讓我們看一個例子,拿 3 個模型來衡量它們各自的準確率:
Ground Truth: 1111111111 Classifier 1: 1111111100 = 80% accuracy Classifier 2: 1111111100 = 80% accuracy Classifier 3: 1011111100 = 70% accuracy
3 個模型的皮爾遜相關(guān)系數(shù)很高。所以,集成它們并不會提升準確率。如果我們使用多數(shù)投票的方式來組合這三個模型,會得到下面的結(jié)果:
Ensemble Result: 1111111100 = 80% accuracy
現(xiàn)在,讓我們來看一組輸出具備較低皮爾遜相關(guān)系數(shù)的模型:
Ground Truth: 1111111111 Classifier 1: 1111111100 = 80% accuracy Classifier 2: 0111011101 = 70% accuracy Classifier 3: 1000101111 = 60% accuracy
當我們組合這三個弱學(xué)習(xí)器的時候,會得到以下結(jié)果:
Ensemble Result: 1111111101 = 90% accuracy
正如你在上面所看到的,具有低皮爾遜相關(guān)系數(shù)的弱學(xué)習(xí)器的組合優(yōu)于具有較高皮爾遜相關(guān)系數(shù)的學(xué)習(xí)器的組合。
缺乏數(shù)據(jù)
在使用了上述所有的技術(shù)以后,如果你的模型仍然沒有在測試集上表現(xiàn)得更好一些,這可能是因為缺乏數(shù)據(jù)。在很多用例中訓(xùn)練數(shù)據(jù)的數(shù)量是有限的。如果你無法收集更多的數(shù)據(jù),那么你可以采取數(shù)據(jù)增強方法。
數(shù)據(jù)增強技術(shù)
如果你正在使用的是圖像數(shù)據(jù)集,你可以通過剪切、翻轉(zhuǎn)、隨機裁剪等方法來增加新的圖像。這可以為你正在訓(xùn)練的神經(jīng)網(wǎng)絡(luò)提供不同的樣本。
結(jié)論
這些技術(shù)被認為是最佳實踐經(jīng)驗,在提升模型學(xué)習(xí)特征的能力方面通常是有效的。希望對大家有所幫助。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4783瀏覽量
101242 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8447瀏覽量
133131
發(fā)布評論請先 登錄
相關(guān)推薦
評論