在深度神經(jīng)網(wǎng)絡(luò)中,超參數(shù)的調(diào)整是一項(xiàng)必備技能,通過(guò)觀察在訓(xùn)練過(guò)程中的監(jiān)測(cè)指標(biāo)如損失loss和準(zhǔn)確率來(lái)判斷當(dāng)前模型處于什么樣的訓(xùn)練狀態(tài),及時(shí)調(diào)整超參數(shù)以更科學(xué)地訓(xùn)練模型能夠提高資源利用率。下面將分別介紹并總結(jié)不同超參數(shù)的調(diào)整規(guī)則。
(1)學(xué)習(xí)率
學(xué)習(xí)率(learning rate或作lr)是指在優(yōu)化算法中更新網(wǎng)絡(luò)權(quán)重的幅度大小。學(xué)習(xí)率可以是恒定的、逐漸降低的,基于動(dòng)量的或者是自適應(yīng)的。不同的優(yōu)化算法決定不同的學(xué)習(xí)率。當(dāng)學(xué)習(xí)率過(guò)大則可能導(dǎo)致模型不收斂,損失loss不斷上下震蕩;學(xué)習(xí)率過(guò)小則導(dǎo)致模型收斂速度偏慢,需要更長(zhǎng)的時(shí)間訓(xùn)練。通常lr取值為[0.01,0.001,0.0001]
(2)批次大小batch_size
批次大小是每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),在卷積神經(jīng)網(wǎng)絡(luò)中,大批次通??墒咕W(wǎng)絡(luò)更快收斂,但由于內(nèi)存資源的限制,批次過(guò)大可能會(huì)導(dǎo)致內(nèi)存不夠用或程序內(nèi)核崩潰。bath_size通常取值為[16,32,64,128]
(3)優(yōu)化器optimizer
目前Adam是快速收斂且常被使用的優(yōu)化器。隨機(jī)梯度下降(SGD)雖然收斂偏慢,但是加入動(dòng)量Momentum可加快收斂,同時(shí)帶動(dòng)量的隨機(jī)梯度下降算法有更好的最優(yōu)解,即模型收斂后會(huì)有更高的準(zhǔn)確性。通常若追求速度則用Adam更多。
(4)迭代次數(shù)
迭代次數(shù)是指整個(gè)訓(xùn)練集輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的次數(shù),當(dāng)測(cè)試錯(cuò)誤率和訓(xùn)練錯(cuò)誤率相差較小時(shí),可認(rèn)為當(dāng)前迭代次數(shù)合適;當(dāng)測(cè)試錯(cuò)誤率先變小后變大時(shí)則說(shuō)明迭代次數(shù)過(guò)大了,需要減小迭代次數(shù),否則容易出現(xiàn)過(guò)擬合。
(5)激活函數(shù)
在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)不是真的去激活什么,而是用激活函數(shù)給神經(jīng)網(wǎng)絡(luò)加入一些非線性因素,使得網(wǎng)絡(luò)可以更好地解決較為復(fù)雜的問(wèn)題。比如有些問(wèn)題是線性可分的,而現(xiàn)實(shí)場(chǎng)景中更多問(wèn)題不是線性可分的,若不使用激活函數(shù)則難以擬合非線性問(wèn)題,測(cè)試時(shí)會(huì)有低準(zhǔn)確率。所以激活函數(shù)主要是非線性的,如sigmoid、tanh、relu。sigmoid函數(shù)通常用于二分類,但要防止梯度消失,故適合淺層神經(jīng)網(wǎng)絡(luò)且需要配備較小的初始化權(quán)重,tanh函數(shù)具有中心對(duì)稱性,適合于有對(duì)稱性的二分類。在深度學(xué)習(xí)中,relu是使用最多的激活函數(shù),簡(jiǎn)單又避免了梯度消失。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4783瀏覽量
101240
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論