我們?nèi)祟愑兄S富的生活經(jīng)驗(yàn)和生物直覺,可以在只看到物體的一部分時(shí)就能在大腦中補(bǔ)全整個(gè)對象的全貌,也可以通過幾次對于目標(biāo)的部分觀測“拼接”出物體的全貌。人類的這種能力源于我們對于空間坐標(biāo)的深入理解和把握,可以將不同區(qū)域的觀測放置到相應(yīng)的位置上以識別整體環(huán)境。但目前大部分的計(jì)算機(jī)視覺系統(tǒng)都是以整張圖片作為輸入,隨后利用下采樣和特征抽取來實(shí)現(xiàn)一系列視覺任務(wù)。但這種方式限制了算法對于大場景高像素圖像的處理。我們不禁要問:“計(jì)算機(jī)是不是也可以像人類一樣由局部到整體的理解圖像呢?我們能不能訓(xùn)練出一個(gè)生成模型,可以利用坐標(biāo)信息生成局域圖像并組合成連續(xù)的全局圖像呢?”
帶著這個(gè)問題,研究人員們對生成對抗網(wǎng)絡(luò)進(jìn)行了深入地探索。典型的GAN通常是將隱空間的分布映射到真實(shí)數(shù)據(jù)空間中去。為了從部分圖片生成高質(zhì)量的圖像,研究人員在圖像中引入了坐標(biāo)系統(tǒng)的概念,并將圖像生成分解為一系列并行的子過程。最后得到一個(gè)能通過空間條件坐標(biāo)和隱變量生成圖像片、并合成完整圖片的網(wǎng)絡(luò)模型。
這一名為條件坐標(biāo)生成對抗網(wǎng)絡(luò)(COnditional COordinate GAN ,COCO-GAN)的模型目標(biāo)是學(xué)習(xí)出一個(gè)與隱空間分布流型正交的坐標(biāo)流型。對隱空間采樣后,生成器以每個(gè)空間坐標(biāo)為條件在每個(gè)對應(yīng)位置生成圖像片。與此同時(shí)判別器則學(xué)會判斷相鄰圖像片的結(jié)構(gòu)是否合理,在視覺上是否勻稱、在邊緣處是否連續(xù)。
上圖中我們可以看到COCO-GAN的訓(xùn)練架構(gòu),最坐標(biāo)綠色的隱變量復(fù)制后分別與不同的坐標(biāo)表達(dá)銜接,隨后送入生成器中生成微圖像片。而后將多個(gè)不同的像素片進(jìn)行拼接得到宏圖像片。而判別器測復(fù)雜分辨真實(shí)的和生成的宏圖像片,并在右上角的分支中輔助預(yù)測宏圖像片的空間坐標(biāo)。而完整的圖像則會在測試階段生成。
在測試時(shí),生成的微圖像片直接拼接成最后的圖像輸出。
具體實(shí)現(xiàn)
在前文的架構(gòu)圖中我們已經(jīng)看到它由生成器和判別器兩個(gè)網(wǎng)絡(luò)和兩套坐標(biāo)系統(tǒng)組成,其中包括了細(xì)粒度的局域圖像片坐標(biāo)系統(tǒng)和粗粒度的宏圖像片坐標(biāo)系統(tǒng)。整個(gè)過程中包含了三種圖像,整幅圖、宏圖像片層、微圖像片層構(gòu)成。其中生成器主要基于空間條件,從隱變量中生成出維圖像片,并將多個(gè)圖像片拼接生成高質(zhì)量的輸出。并通過判別器對于宏圖像片的判斷來指導(dǎo)生成器對于圖像片的生成。最終生成器的損失包含了空間連續(xù)性損失和Wasserstein損失,而判別器還增加了一項(xiàng)梯度懲罰損失。
生成器和判別器其都是基于殘差塊和卷積實(shí)現(xiàn)的。
生成器和判別器的架構(gòu)
基于這樣的損失,生成器生成的每個(gè)圖像片邊緣會變得更加平滑,基于空間坐標(biāo)生成更為連續(xù)的結(jié)果。下圖是一些網(wǎng)絡(luò)得到的結(jié)果。這些全局連續(xù)平滑的圖像直接由網(wǎng)絡(luò)輸出,其中最頂一行是完整的圖像,中間一行是宏圖像片,而最下一行是生成器得到的為圖像片。每一列(同一個(gè)圖像)都是利用同一個(gè)隱變量得到的結(jié)果。由于大小不均,所以排列有些錯(cuò)位。我們用不同顏色的箭頭分別標(biāo)出。
研究人員基于這一網(wǎng)絡(luò)模型還進(jìn)行了一系列實(shí)驗(yàn),都達(dá)到了十分優(yōu)秀的結(jié)果。研究人員在CelebA和LSUN上分別將原始圖像分成2*2個(gè)宏圖像片,將每個(gè)宏圖像片分成了2*2個(gè)微圖像片,每個(gè)微圖像片由32*32個(gè)像素組成,這樣的配置記為:(N2,M2,S32)。下圖展示了不同配置的效果,宏圖像片可以由不同大小的微圖像片構(gòu)成。
我們可以看到在不同像素配置下的微圖像片都可以生成較為完整的圖像。
甚至達(dá)到4*4時(shí)(N16,M16,S4)生成的圖像還比較合理。將1024個(gè)獨(dú)立圖像片進(jìn)行拼接同樣可以保持輸出人臉的連續(xù)性。
空間連續(xù)性
為了更好地研究空間連續(xù)性,研究人員還進(jìn)行了兩項(xiàng)插值實(shí)驗(yàn),分別是全圖插值和坐標(biāo)插值。
在全圖插值中,研究人員隨即的從隱空間中選取兩個(gè)隱變量,在兩個(gè)隱變量之間的差值隱變量可以生成連續(xù)的全圖。在這一過程中所有的微圖像片都在同時(shí)改變以適應(yīng)隱變量的變化。
在坐標(biāo)插值的實(shí)驗(yàn)中,利用固定的隱變量在空間坐標(biāo)從[-1,1]區(qū)間變化的過程中生成微圖像片,在下圖中可以看到空間連續(xù)性在微圖像片中依然表現(xiàn)良好。一個(gè)有趣的現(xiàn)象是模型沒有真正的學(xué)習(xí)到眉間的結(jié)構(gòu),而是通過對左右眼直接變形來實(shí)現(xiàn)左眼到右眼的變化,這說明模型沒有真正的理解場景背后的內(nèi)在聯(lián)系。
由于這一網(wǎng)絡(luò)學(xué)習(xí)到了圖像片的坐標(biāo)流型,在坐標(biāo)條件下進(jìn)行外插生成器可以生成超過原始圖像大小的結(jié)果?;?56*256訓(xùn)練的模型可以得到384*384的生成圖像,實(shí)現(xiàn)超越原始圖像邊界的生成,并且生成的都是新的樣本。下圖中紅色框外的是外插的結(jié)果,提高了原有圖像的分辨率。
隨后,研究人員還探索了如何利用這種方法生成全景圖像、如何利用局部信息并行化地生成整體圖像、實(shí)現(xiàn)圖像片引導(dǎo)的生成。
COCO-GAN從新的角度揭示了GAN在條件坐標(biāo)下的強(qiáng)大生成能力,不僅拓展了GAN的生成能力同時(shí)并行化的處理和分治設(shè)計(jì)十分適用于計(jì)算受限設(shè)備的使用。相信COCO-GAN將為為GAN的研究帶來更寬廣的視野!
-
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40585 -
生成器
+關(guān)注
關(guān)注
7文章
320瀏覽量
21147 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1701瀏覽量
46142
原文標(biāo)題:國立清華與谷歌AI聯(lián)合提出新型生成模型COCO-GAN,讓計(jì)算機(jī)像人類一樣由局部到整體理解圖像
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于網(wǎng)絡(luò)數(shù)據(jù)庫技術(shù)的空間坐標(biāo)測量機(jī)應(yīng)用系統(tǒng)研究
![基于<b class='flag-5'>網(wǎng)絡(luò)</b>數(shù)據(jù)庫技術(shù)的<b class='flag-5'>空間</b><b class='flag-5'>坐標(biāo)</b>測量機(jī)應(yīng)用系統(tǒng)研究](https://file1.elecfans.com//web2/M00/A4/DB/wKgZomUMNfiACdBXAABLbEgnM6c944.jpg)
基于改進(jìn)空間約束貝葉斯網(wǎng)絡(luò)模型的圖像分割
![基于改進(jìn)<b class='flag-5'>空間</b>約束貝葉斯<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>分割](https://file.elecfans.com/web2/M00/49/73/poYBAGKhwLaAP6eWAAASQ80V9B8046.jpg)
面向評分?jǐn)?shù)據(jù)中用戶偏好發(fā)現(xiàn)的隱變量模型構(gòu)建
![面向評分?jǐn)?shù)據(jù)中用戶偏好發(fā)現(xiàn)的<b class='flag-5'>隱</b><b class='flag-5'>變量</b><b class='flag-5'>模型</b>構(gòu)建](https://file.elecfans.com/web2/M00/49/74/poYBAGKhwLeAZi_RAAAUAbSOx_Y345.jpg)
隱回歸的用戶關(guān)系強(qiáng)度模型
探討條件GAN在圖像生成中的應(yīng)用
![探討<b class='flag-5'>條件</b>GAN在<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>中的應(yīng)用](https://file1.elecfans.com//web2/M00/A7/27/wKgZomUMQrOAWyowAAAfzkUA5Qk137.png)
基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法
![基于<b class='flag-5'>隱</b>馬爾科夫<b class='flag-5'>模型</b>和卷積神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>圖像</b>標(biāo)注方法](https://file.elecfans.com/web1/M00/6F/35/pIYBAFvukNSABWazAABOVTCJREk766.png)
條件生成對抗模型生成數(shù)字圖片的教程
高斯過程隱變量模型及相關(guān)實(shí)踐
基于譜歸一化條件生成對抗網(wǎng)絡(luò)的圖像修復(fù)算法
![基于譜歸<b class='flag-5'>一</b>化<b class='flag-5'>條件</b><b class='flag-5'>生成</b>對抗<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>圖像</b>修復(fù)算法](https://file.elecfans.com/web1/M00/E4/96/o4YBAGBK2DKASd8SAANdXnz5x5s021.png)
評論