卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是自動駕駛汽車、人臉識別系統(tǒng)等計(jì)算機(jī)視覺應(yīng)用的基礎(chǔ),其中基本的矩陣乘法運(yùn)算被卷積運(yùn)算取代。它們專門處理具有網(wǎng)格狀拓?fù)浣Y(jié)構(gòu)的數(shù)據(jù)。例如,時(shí)間序列數(shù)據(jù)和圖像數(shù)據(jù)可以看作是一個(gè)二維像素網(wǎng)格。
歷史
卷積神經(jīng)網(wǎng)絡(luò)最初是由福島核電站在1980年引入的,當(dāng)時(shí)名為Neocognitron。它的靈感來自于Hubel和Weisel提出的神經(jīng)系統(tǒng)的層次模型。但由于其復(fù)雜的無監(jiān)督學(xué)習(xí)算法,即無監(jiān)督學(xué)習(xí),該模型并不受歡迎。1989年,Yann LeCun利用反向傳播和Neocognitron的概念提出了一種名為LeNet的架構(gòu),該架構(gòu)被美國和歐洲用于手寫的郵政編碼識別。郵政服務(wù)。Yann LeCun進(jìn)一步研究了這個(gè)項(xiàng)目,最終在1998年發(fā)布了LeNet-5——第一個(gè)引入了我們今天在CNN仍然使用的一些基本概念的現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)。他還發(fā)布了MNIST手寫數(shù)字?jǐn)?shù)據(jù)集,這可能是機(jī)器學(xué)習(xí)中最著名的基準(zhǔn)數(shù)據(jù)集。在20世紀(jì)90年代,計(jì)算機(jī)視覺領(lǐng)域轉(zhuǎn)移了它的焦點(diǎn),許多研究人員停止了對CNN架構(gòu)的研究。神經(jīng)網(wǎng)絡(luò)的研究經(jīng)歷了一個(gè)寒冷的冬天,直到2012年,多倫多大學(xué)的一組研究人員在著名的ImageNet挑戰(zhàn)賽中進(jìn)入了一個(gè)基于CNN的模型(AlexNet),最終以16.4%的錯(cuò)誤率贏得了比賽。此后,卷積神經(jīng)網(wǎng)絡(luò)不斷向前發(fā)展,基于CNN的體系結(jié)構(gòu)不斷贏得ImageNet, 2015年,基于卷積神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)ResNet的誤差率超過人類水平的5.1%,誤差率為3.57%。
卷積的誤稱
在CNN中廣泛使用的卷積運(yùn)算是用詞不當(dāng)?shù)摹?yán)格地說,所使用的操作是相關(guān),而不是卷積。這兩個(gè)操作符都有一點(diǎn)不同,我們將分別討論它們,以理解它們之間的區(qū)別。
互相關(guān)
相關(guān)是在圖像上移動濾波掩碼(通常稱為核)并計(jì)算每個(gè)位置的乘積和的過程。相關(guān)是濾波器位移的函數(shù)。換句話說,相關(guān)的第一個(gè)值對應(yīng)濾波器的零位移,第二個(gè)值對應(yīng)一個(gè)位移,以此類推。
數(shù)學(xué)公式:
圖3給出了使用F濾波器與圖像I的一維互相關(guān)運(yùn)算的數(shù)學(xué)公式。假設(shè)F具有奇數(shù)個(gè)元素會很方便,因此我們可以假設(shè)F隨其中心移動。我們說F有2N+1的元素,這些索引從-N到N,F(0)是中心元素。
類似地,我們可以將這個(gè)概念擴(kuò)展到下圖所示的2d情況?;舅枷胧且粯拥?,除了圖像和濾波器現(xiàn)在是2D。我們可以假設(shè)我們的濾波器有奇數(shù)個(gè)元素,所以它由一個(gè)(2N+1)x(2N+1)矩陣表示。
二維的相關(guān)運(yùn)算非常簡單。我們只是取一個(gè)給定大小的濾波器,然后把它放在與濾波器大小相同的圖像的一個(gè)局部區(qū)域上。我們繼續(xù)這個(gè)操作,在整個(gè)圖像中移動相同的濾波器。這也幫助我們實(shí)現(xiàn)了兩個(gè)非常受歡迎的屬性:
平移不變性:我們的視覺系統(tǒng)應(yīng)該感知、響應(yīng)或檢測相同的物體,而不管它出現(xiàn)在圖像的什么地方。
局部性:我們的視覺系統(tǒng)聚焦于局部區(qū)域,而不考慮圖像的其他部分發(fā)生了什么。
互相關(guān)函數(shù)具有一個(gè)特性,當(dāng)它應(yīng)用于離散的單位脈沖(一個(gè)二維矩陣,其中只有一個(gè)1,其他都是0)時(shí),得到的結(jié)果是濾波器的副本,但旋轉(zhuǎn)了180度。
卷積:
卷積運(yùn)算與互相關(guān)運(yùn)算非常相似,但有細(xì)微的區(qū)別。在卷積運(yùn)算中,首先將核翻轉(zhuǎn)180度,然后應(yīng)用于圖像。卷積的基本性質(zhì)是將一個(gè)核與一個(gè)離散的單位脈沖進(jìn)行卷積,在脈沖的位置上得到一個(gè)核的拷貝。
我們在互相關(guān)部分看到,一個(gè)互相關(guān)操作產(chǎn)生一個(gè)脈沖的拷貝,但是旋轉(zhuǎn)了180度。因此,如果我們預(yù)先旋轉(zhuǎn)濾波器并執(zhí)行相同的乘積滑動和運(yùn)算,我們應(yīng)該能夠得到期望的結(jié)果。
數(shù)學(xué)公式:利用核函數(shù)F對圖像I進(jìn)行的卷積運(yùn)算由一維的公式給出。卷積就像相關(guān)一樣,只是我們在互相關(guān)之前先把濾波器翻轉(zhuǎn)一下
在二維卷積的情況下,我們水平和垂直翻轉(zhuǎn)濾波器。這可以寫成:
卷積運(yùn)算同樣遵循平移不變性和局部性的性質(zhì)。
注意:盡管這兩個(gè)操作稍有不同,但是所使用的核是否對稱并不重要。
結(jié)論:
在這篇文章中,我們簡要討論了卷積神經(jīng)網(wǎng)絡(luò)的歷史和一些特性。我們討論了卷積這個(gè)錯(cuò)誤的說法,即在各種文本中經(jīng)常提到的卷積運(yùn)算其實(shí)是互相關(guān)運(yùn)算。這種差別很細(xì)微,但卻很有用,每個(gè)進(jìn)入、練習(xí)或經(jīng)驗(yàn)豐富的計(jì)算機(jī)視覺領(lǐng)域的人都應(yīng)該知道。
-
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22354 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
367瀏覽量
11931
發(fā)布評論請先 登錄
相關(guān)推薦
評論