在上周的人工神經(jīng)網(wǎng)絡(luò)課程中介紹了機(jī)器學(xué)習(xí)中的支持向量機(jī)(SVM:Support Vector Machine)與前饋網(wǎng)絡(luò) RBF 的之間的聯(lián)系,而對(duì)于由傳遞函數(shù)為線性函數(shù)組成的單層網(wǎng)絡(luò)的代表自適應(yīng)線性單元(ADLINE:Adaptive Linear Element)更是和傳統(tǒng)信號(hào)處理中的自適應(yīng)濾波器相類(lèi)似。
這些都會(huì)讓我們看到神經(jīng)網(wǎng)絡(luò)算法似乎能夠與很多其他學(xué)科算法搭起聯(lián)系。下面由 Matthew P. Burruss 的博文中《 Every Machine Learning Algorithm Can Be Represented as a Neural Network》 更是將這個(gè)觀點(diǎn)進(jìn)行了詳細(xì)的梳理。
Every Machine Learning Algorithm Can Be Represented as a Neural Network》:
https://mc.ai/every-machine-learning-algorithm-can-be-represented-as-a-neural-network-2/#:~:text=Every%20Machine%20Learning%20Algorithm%20Can%20Be%20Represented%20as,cumulated%20with%20the%20creation%20of%20the%20neural%20network.
從 1950 年代的早期研究開(kāi)始,機(jī)器學(xué)習(xí)的所有工作似乎都隨著神經(jīng)網(wǎng)絡(luò)的創(chuàng)建而匯聚起來(lái)。從 Logistic 回歸到支持向量機(jī),算法層出不窮,毫不夸張的說(shuō),神經(jīng)網(wǎng)絡(luò)成為算法的算法,為機(jī)器學(xué)習(xí)的頂峰。它也從最初不斷嘗試中成為機(jī)器學(xué)習(xí)的通用表達(dá)形式。
在這個(gè)意義上,它不僅僅簡(jiǎn)單的是一個(gè)算法,而是一個(gè)框架和理念,這也為構(gòu)建神經(jīng)網(wǎng)絡(luò)提供了更加廣泛的自由空間:比如它包括不同的隱層數(shù)量和節(jié)點(diǎn)數(shù)量、各種形式的激活(傳遞)函數(shù)、優(yōu)化工具、損失函數(shù)、網(wǎng)絡(luò)類(lèi)型(卷積、遞歸等)以及一些專(zhuān)用處理層(各種批處理模式、網(wǎng)絡(luò)參數(shù)隨機(jī)丟棄:Dropout 等)。
由此,可以將神經(jīng)網(wǎng)絡(luò)從一個(gè)固定算法展拓到一個(gè)通用觀念,并得到如下有趣的推文:任何機(jī)器學(xué)習(xí)算法,無(wú)論是決策樹(shù)還是 k 近鄰,都可以使用神經(jīng)網(wǎng)絡(luò)來(lái)表示。
這個(gè)概念可以通過(guò)下面的一些舉例得到驗(yàn)證,同樣也可以使用數(shù)據(jù)進(jìn)行嚴(yán)格的證明。
1. 回歸
首先讓我們定義什么是神經(jīng)網(wǎng)絡(luò):它是一個(gè)由輸入層,隱藏層和輸出層組成的體系結(jié)構(gòu),每一層的節(jié)點(diǎn)之間都有連接。信息從輸入層輸入到網(wǎng)絡(luò),然后逐層通過(guò)隱層傳遞到輸出層。在層之間傳遞過(guò)程中,數(shù)據(jù)通過(guò)線性變換(權(quán)重和偏差)和非線性函數(shù)(激勵(lì)函數(shù))變換。存在很多算法來(lái)對(duì)網(wǎng)絡(luò)中可變參數(shù)進(jìn)行訓(xùn)練。
Logistic 回歸簡(jiǎn)單定義為標(biāo)準(zhǔn)回歸,每個(gè)輸入均具有乘法系數(shù),并添加了附加偏移量(截距),然后經(jīng)過(guò) Signmoid 型函數(shù)傳遞。這可以通過(guò)沒(méi)有隱藏層的神經(jīng)網(wǎng)絡(luò)來(lái)表示, 結(jié)果是通過(guò) Sigmoid 形式的輸出神經(jīng)元的多元回歸。
通過(guò)將輸出神經(jīng)元激活函數(shù)替換為線性激活函數(shù)(可以簡(jiǎn)單地映射輸出,換句話(huà)說(shuō),它什么都不做),就形成線性回歸。
2. 支持向量機(jī)
支持向量機(jī)(SVM)算法嘗試通過(guò)所謂的"核函數(shù)技術(shù)"將數(shù)據(jù)投影到新的高維空間中,從而提高數(shù)據(jù)的線性可分離性。轉(zhuǎn)換完數(shù)據(jù)后,算法可在高位空間獲得兩類(lèi)之間最優(yōu)的分類(lèi)超平面。超平面被簡(jiǎn)單地定義為數(shù)據(jù)維度的線性組合,非常像 2 維空間中的直線和 3 維空間中的平面。
從這個(gè)意義上講,人們可以將 SVM 算法看作是數(shù)據(jù)到新空間的投影,然后是 多重回歸。神經(jīng)網(wǎng)絡(luò)的輸出可以通過(guò)某種有界輸出函數(shù)傳遞,以實(shí)現(xiàn)概率結(jié)果。
當(dāng)然,可能需要實(shí)施一些限制,例如限制節(jié)點(diǎn)之間的連接并固定某些參數(shù),這些更改當(dāng)然不會(huì)脫離"神經(jīng)網(wǎng)絡(luò)"標(biāo)簽的完整性。也許需要添加更多的層,以確保支持向量機(jī)的這種表現(xiàn)能夠達(dá)到與實(shí)際交易一樣的效果。
3. 決策樹(shù)
諸如決策樹(shù)算法之類(lèi)的基于樹(shù)的算法有些棘手。關(guān)于如何構(gòu)建這種神經(jīng)網(wǎng)絡(luò)的答案在于分析它如何劃分其特征空間。當(dāng)訓(xùn)練點(diǎn)遍歷一系列拆分節(jié)點(diǎn)時(shí),特征空間將拆分為多個(gè)超立方體。在二維示例中,垂直線和水平線創(chuàng)建了正方形。
因此,可以通過(guò)更嚴(yán)格的激活來(lái)模擬沿特征線分割特征空間的類(lèi)似方式,例如階躍函數(shù),其中輸入是一個(gè)值或另一個(gè)值 - 本質(zhì)上是分隔線。權(quán)重和偏差可能需要實(shí)施值限制,因此僅用于通過(guò)拉伸,收縮和定位來(lái)定向分隔線。為了獲得概率結(jié)果,可以通過(guò)激活函數(shù)傳遞結(jié)果。
盡管算法的神經(jīng)網(wǎng)絡(luò)表示與實(shí)際算法之間存在許多技術(shù)差異,但重點(diǎn)是網(wǎng)絡(luò)表達(dá)的思想相同,并且可以與實(shí)際算法相同的策略和性能來(lái)解決問(wèn)題。
也許您不滿(mǎn)意將算法簡(jiǎn)單地轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)形式,也許希望看到通用過(guò)程可以將所有棘手的算法都進(jìn)行這種轉(zhuǎn)換,例如 k 近鄰算法或樸素貝葉斯算法等,而不是針對(duì)每個(gè)算法都手工進(jìn)行轉(zhuǎn)換。
這種同樣算法轉(zhuǎn)換的答案就在于通用函數(shù)逼近定理,這也是在大量神經(jīng)網(wǎng)絡(luò)工作原理背后的支撐數(shù)學(xué)原理。它的主要含義是:足夠大的神經(jīng)網(wǎng)絡(luò)可以以任意精度對(duì)任何函數(shù)建模。
假設(shè)有一些函數(shù)代表數(shù)據(jù)背后的規(guī)律:對(duì)于每個(gè)數(shù)據(jù)點(diǎn),始終返回等于或非常接近 的值。
建模的目的是找到該內(nèi)部映射關(guān)系一個(gè)有效表示,我們將其記為預(yù)測(cè)函數(shù)。所有機(jī)器學(xué)習(xí)算法對(duì)這個(gè)任務(wù)的處理方式都大不相同,采用不同用于驗(yàn)證結(jié)果有效的假設(shè)條件,并給出具體算法來(lái)獲得最優(yōu)結(jié)果。這些獲得優(yōu)化結(jié)果 p(x)的算法,可說(shuō)從在這些假設(shè)條件限制下,利用純粹的數(shù)學(xué)推導(dǎo)獲得。描述函數(shù)如何將目標(biāo)映射到輸入的函數(shù)實(shí)際上可以采用任何形式。
有的時(shí)候通過(guò)數(shù)學(xué)推導(dǎo)可以對(duì)表達(dá)式進(jìn)行求解。但面對(duì)大量待定函數(shù)參數(shù),往往需要通過(guò)不停的試湊來(lái)搜索。但是,神經(jīng)網(wǎng)絡(luò)在尋找的方式上有些不同。
任何函數(shù)都可以由許多類(lèi)似階梯的部分合理地逼近,劃分的區(qū)間步數(shù)越多,逼近的精度就越高。
每一個(gè)區(qū)間都對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò)中的一些節(jié)點(diǎn),即隱層中具有 S 型激活函數(shù)的節(jié)點(diǎn)。激活函數(shù)本質(zhì)上是概率階躍函數(shù)。實(shí)際上每個(gè)節(jié)點(diǎn)都代表函數(shù) 的一個(gè)局部。然后,通過(guò)系統(tǒng)中的權(quán)重和偏差,網(wǎng)絡(luò)為特定輸入來(lái)激活不同的神經(jīng)元,使其輸出為 1),否則輸出 0。于是便可以將不同函數(shù)的局部最后合并成整個(gè)函數(shù)。
這種處理模式不僅對(duì)應(yīng)上面的一維函數(shù)有效,在圖像中也觀察到了這種通過(guò)激活不同節(jié)點(diǎn)以尋找數(shù)據(jù)中特定的模式。
通用逼近定理已擴(kuò)展為適用于其他激活函數(shù)(如 ReLU 和神經(jīng)網(wǎng)絡(luò)類(lèi)型),但原理仍然適用。神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)通用逼近定義的最佳表現(xiàn)形式。
相對(duì)于通過(guò)復(fù)雜方程和關(guān)系數(shù)學(xué)形式來(lái)描述通用逼近定理,神經(jīng)網(wǎng)絡(luò)則通過(guò)構(gòu)建特殊的網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)訓(xùn)練數(shù)據(jù)來(lái)獲得結(jié)構(gòu)中的參數(shù)。這個(gè)過(guò)程就好像是通過(guò)蠻力記憶將函數(shù)存儲(chǔ)在網(wǎng)絡(luò)中。這個(gè)匯集眾多節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)訓(xùn)練過(guò)程來(lái)逼近任意函數(shù)過(guò)程就表現(xiàn)出具有某種聰明特征的智能系統(tǒng)了。
基于以上假設(shè),神經(jīng)網(wǎng)絡(luò)至少可以在理論上構(gòu)造出一個(gè)函數(shù),該函數(shù)基本上具有所需的精度(節(jié)點(diǎn)數(shù)越多,近似值越準(zhǔn)確,當(dāng)然不考慮過(guò)擬合的技術(shù)性),具有正確結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)可以對(duì)任何其他機(jī)器學(xué)習(xí)預(yù)測(cè)函數(shù)進(jìn)行建模,反過(guò)來(lái),其他任何機(jī)器學(xué)習(xí)算法,都不能這么說(shuō)。
神經(jīng)網(wǎng)絡(luò)使用的方法并不是對(duì)一些現(xiàn)有的優(yōu)化模型,比如多項(xiàng)式回歸或者節(jié)點(diǎn)系統(tǒng),只是對(duì)少量參數(shù)進(jìn)行優(yōu)化,它是直接去逼近數(shù)據(jù)內(nèi)部所蘊(yùn)含的規(guī)律,而不是基于某種特定的模型來(lái)描述數(shù)據(jù)。這種理念是那些常見(jiàn)到的網(wǎng)絡(luò)模型結(jié)構(gòu)與其它機(jī)器學(xué)習(xí)之間最為不同之處。
借助神經(jīng)網(wǎng)絡(luò)的力量以及對(duì)深度學(xué)習(xí)的不斷延伸領(lǐng)域的不斷研究,無(wú)論是視頻,聲音,流行病學(xué)數(shù)據(jù)還是兩者之間的任何數(shù)據(jù),都將能夠以前所未有的精度來(lái)進(jìn)行建模。神經(jīng)網(wǎng)絡(luò)確實(shí)可以被成為算法之算法。
審核編輯 黃昊宇
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4785瀏覽量
101249
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法
![<b class='flag-5'>人工</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>架構(gòu)方法](https://file1.elecfans.com/web3/M00/05/61/wKgZO2d_M_6Ad26pAAAPSvfyTCo490.png)
評(píng)論