先锋影音av一区二区,亚洲人妻久久久久中文字幕

介紹

基于梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，我們將冒網(wǎng)絡(luò)落入局部極小值的風(fēng)險，網(wǎng)絡(luò)在誤差平面上停止的位置并非整個平面的最低點。這是因為誤差平面不是內(nèi)凸的，平面可能包含眾多不同于全局最小值的局部極小值。此外，盡管在訓(xùn)練數(shù)據(jù)上，網(wǎng)絡(luò)可能到達全局最小值，并收斂于所需點，我們無法保證網(wǎng)絡(luò)所學(xué)的概括性有多好。這意味著它們傾向于過擬合訓(xùn)練數(shù)據(jù)。

有一些手段有助于緩解這些問題，不過并沒有絕對地預(yù)防這些問題產(chǎn)生的方法。這是因為網(wǎng)絡(luò)的誤差平面一般很難穿越，而神經(jīng)網(wǎng)絡(luò)整體而言很難解釋。

隨機梯度下降與mini-batch隨機梯度下降

這些算法改編了標(biāo)準(zhǔn)梯度下降算法，在算法的每次迭代中使用訓(xùn)練數(shù)據(jù)的一個子集。SGD在每權(quán)重更新上使用一個樣本，mini-batch SGD使用預(yù)定義數(shù)目的樣本（通常遠(yuǎn)小于訓(xùn)練樣本的總數(shù)）。這大大加速了訓(xùn)練，因為我們在每次迭代中沒有使用整個數(shù)據(jù)集，它需要的計算量少得多。同時，它也有望導(dǎo)向更好的表現(xiàn)，因為網(wǎng)絡(luò)在訓(xùn)練中斷斷續(xù)續(xù)的移動應(yīng)該能讓它更好地避開局部極小值，而使用一小部分?jǐn)?shù)據(jù)集當(dāng)有助于預(yù)防過擬合。

正則化

正則化基本上是一個懲罰模型復(fù)雜度的機制，它是通過在損失函數(shù)中加入一個表示模型復(fù)雜度的項做到這一點的。在神經(jīng)網(wǎng)絡(luò)的例子中，它懲罰較大的權(quán)重，較大的權(quán)重可能意味著神經(jīng)網(wǎng)絡(luò)過擬合了訓(xùn)練數(shù)據(jù)。

最左：欠擬合；最右：過擬合

若網(wǎng)絡(luò)的原損失函數(shù)記為L(y, t)，正則化常數(shù)記為λ，則應(yīng)用了L2正則化后，損失函數(shù)改寫為如下形式：

正則化在損失函數(shù)中加入了網(wǎng)絡(luò)的每個權(quán)重的平方和，以懲罰給任何一個連接分配了過多權(quán)重的模型，希望能降低過擬合程度。

動量

簡單來說，動量在當(dāng)前權(quán)重更新上加上一小部分前次權(quán)重更新。這有助于預(yù)防模型陷入局部極小值，因為即使當(dāng)前梯度為0，之前梯度絕大多數(shù)情況下不為0，這樣模型就不那么容易陷入極小值。另外，使用動量也使誤差平面上的移動總體上更為平滑，而且移動得更快。

基于這一簡單的動量概念，我們可以重寫權(quán)重更新等式至如下形式（α為動量因子）：

還有其他一些更高級的動量形式，比如Nesterov方法。

學(xué)習(xí)率退火

我們可以不在整個訓(xùn)練過程中使用同一學(xué)習(xí)率，而是隨著時間的進展降低學(xué)習(xí)率，也就是退火。

最常見的退火規(guī)劃基于1/t關(guān)系，如下圖所示，其中T和μ0為給定的超參數(shù)，μ為當(dāng)前學(xué)習(xí)率：

這經(jīng)常被稱為“搜索并收斂”（search-then-converge）退火規(guī)劃，因為直到t達到T之前，網(wǎng)絡(luò)都處于“搜索”階段，學(xué)習(xí)率沒有下降很多，在此之后，學(xué)習(xí)率減慢，網(wǎng)絡(luò)進入“收斂”階段。這和探索（exploitation）與利用（exploration）間的平衡多多少少有些關(guān)系。剛開始我們優(yōu)先探索搜索空間，擴展我們關(guān)于空間的整體知識，隨著時間的推進，我們過渡到利用搜索空間中我們已經(jīng)找到的良好區(qū)域，收縮至特定的極小值。

結(jié)語

這些改進標(biāo)準(zhǔn)梯度下降算法的方法都需要在模型中加入超參數(shù)，因而會增加調(diào)整網(wǎng)絡(luò)所需的時間。最近提出的一些新算法，比如Adam、Adagrad、Adadelta，傾向于在每個參數(shù)的基礎(chǔ)上進行優(yōu)化，而不是基于全局優(yōu)化，因此它們可以基于單獨情況精細(xì)地調(diào)整學(xué)習(xí)率。在實踐中，它們往往更快、更好。下圖同時演示了之前提到的梯度下降變體的工作過程。注意看，和簡單的動量或SGD相比，更復(fù)雜的變體收斂得更快。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4781

瀏覽量
101215
動量

動量

+關(guān)注

關(guān)注
0

文章
6

瀏覽量
7948
正則化

正則化

+關(guān)注

關(guān)注
0

文章
17

瀏覽量
8154

原文標(biāo)題：如何改進梯度下降算法

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

SGD的隨機項在其選擇最終的全局極小值點的關(guān)鍵性作用

在這篇題為《將擬勢函數(shù)視為隨機梯度下降損失函數(shù)中的隱式正則項》的論文中，作者提出了一種統(tǒng)一的方法，將擬勢作為一種量化關(guān)系的橋梁，在SGD隱式正則化與SGD的隨機項的協(xié)方差結(jié)構(gòu)之間建立了聯(lián)系。

發(fā)表于 03-06 09:15 ?5444次閱讀

如何對一波形所有極大（?。?b class='flag-5'>值點用三次樣條插值函數(shù)擬...

哪位大神能幫我一下，本人在做小電流接地系統(tǒng)選線，在matlab中搭建了系統(tǒng)模型后進行了單相接地故障仿真，對于仿出來的波形要進行HHT變換，其中第一步就是要對仿真圖形所有極大值和極小值點用三次樣條插

發(fā)表于 08-09 19:10

關(guān)于檢測的離散信號求極值問題

我現(xiàn)在收集到一些離散信號，一維數(shù)組，想找到極大值與極小值，然后連線用三次樣條擬合，1、請問有沒有什么好用的控件或者算法找到這些極大極小值點2

發(fā)表于 01-03 10:55

分享一個自己寫的機器學(xué)習(xí)線性回歸梯度下降算法

單變量線性回歸算法，利用Batch梯度梯度下降算法迭代計算得到誤差最小的代價函數(shù)theta0,theta1。調(diào)節(jié)學(xué)習(xí)率a可以觀察擬合得到的函數(shù)和代價函數(shù)誤差收斂情況。

發(fā)表于 10-02 21:48

機器學(xué)習(xí)新手必學(xué)的三種優(yōu)化算法（牛頓法、梯度下降法、最速下降法）

法的問題在于，每一步都需要對 aplha_k 進行優(yōu)化，這樣做的成本相對高昂。例如，對于二次函數(shù)，每次迭代都需要計算多次矩陣乘法以及向量點乘。但對于梯度下降，每一步只需要計算導(dǎo)數(shù)并更新值

發(fā)表于 05-07 08:30

如何更新權(quán)重實現(xiàn)梯度下降

實現(xiàn)梯度下降

發(fā)表于 07-15 10:09

改進的BP網(wǎng)絡(luò)算法在圖像識別中的應(yīng)用

利用改進的BP網(wǎng)絡(luò)算法,可以有效地抑制網(wǎng)絡(luò)陷入局部極小值,提高網(wǎng)絡(luò)訓(xùn)練速度。實驗驗證表明,改進的算法對圖像識別的準(zhǔn)確率較高。

發(fā)表于 02-07 11:40 ?40次下載

機器學(xué)習(xí)：隨機梯度下降和批量梯度下降算法介紹

梯度下降和批量梯度下降是兩種迭代求解思路，下面從公式和實現(xiàn)的角度對兩者進行分析。下面的h(x)是

發(fā)表于 11-28 04:00 ?9035次閱讀

梯度下降算法及其變種：批量梯度下降，小批量梯度下降和隨機梯度下降

現(xiàn)在我們來討論梯度下降算法的三個變種，它們之間的主要區(qū)別在于每個學(xué)習(xí)步驟中計算梯度時使用的數(shù)據(jù)量，是對每個參數(shù)更新（學(xué)習(xí)步驟）時的梯度準(zhǔn)確性與時間復(fù)雜度的折衷考慮。

發(fā)表于 05-03 15:55 ?2.2w次閱讀

講解隨機梯度下降、類別數(shù)據(jù)編碼、Vowpal Wabbit機器學(xué)習(xí)庫

在數(shù)據(jù)量不大的情況下，上面的數(shù)學(xué)效果不錯（我們這里不討論局部極小值、鞍點、學(xué)習(xí)率選擇、動量等問題，請參考《深度學(xué)習(xí)》一書的數(shù)值計算那一章）。批量梯度下降有一個問題——

發(fā)表于 07-17 09:11 ?6327次閱讀

簡單的梯度下降算法，你真的懂了嗎？

梯度下降算法的公式非常簡單，”沿著梯度的反方向（坡度最陡）“是我們?nèi)粘＝?jīng)驗得到的，其本質(zhì)的原因到底是什么呢？為什么局部下降最快的方向就是梯度

發(fā)表于 09-19 00:17 ?862次閱讀

如何使用區(qū)域相似度實現(xiàn)局部擬合活動輪廓模型

針對局部二值化擬合（ＬＢＦ）模型不能分割紋理圖像和收斂速度慢等問題，提出一種結(jié)合局部擬合與區(qū)域間相似度的活動輪廓模型。該模型在ＬＢＦ模型中引

發(fā)表于 03-12 14:27 ?2次下載

基于雙曲網(wǎng)絡(luò)空間嵌入與極小值聚類的社區(qū)劃分算法

真實復(fù)雜網(wǎng)絡(luò)節(jié)點度分布服從冪律分布，而雙曲空間能夠完整表現(xiàn)這一特性。為此，提出一種基于雙曲空間嵌入與極小值聚類的社區(qū)劃分算法MHE。將建模后的復(fù)雜網(wǎng)絡(luò)嵌入龐加萊圓盤模型，保留復(fù)雜網(wǎng)絡(luò)的全局拓?fù)湫畔?/div>
發(fā)表于 04-01 15:18 ?11次下載

基于局部熵擬合與全局信息的改進活動輪廓模型

的中心點，改變輪廓半徑的大小以確定初始輪廓的位置。使用局部熵項來増強圖像邊緣處的響應(yīng)，將局部熵圖像擬合能量項與RSF模型共同構(gòu)成局部能量項，

發(fā)表于 05-26 15:31 ?5次下載

JPEG LS算法局部梯度值計算原理

如果同一個上下文中對少量元素進行編碼，通常無法獲得足夠的上下文編碼信息。但是如果對大量元素進行編碼又會帶來存儲空間變大的問題。因此要對局部梯度值進行量化處理。

發(fā)表于 04-25 10:46 ?542次閱讀