摘要
背景介紹:去噪擴(kuò)散概率模型DDPM最近受到了很多研究關(guān)注,因?yàn)樗鼈儍?yōu)于其他方法,如GAN,并且目前提供了最先進(jìn)的生成性能。差分融合模型的優(yōu)異性能使其在修復(fù)、超分辨率和語(yǔ)義編輯等應(yīng)用中成為一個(gè)很有吸引力的工具。
研究方法:作者為了證明擴(kuò)散模型也可以作為語(yǔ)義分割的工具,特別是在標(biāo)記數(shù)據(jù)稀缺的情況下。對(duì)于幾個(gè)預(yù)先訓(xùn)練的擴(kuò)散模型,作者研究了網(wǎng)絡(luò)中執(zhí)行逆擴(kuò)散過(guò)程馬爾可夫步驟的中間激活。結(jié)果表明這些激活有效地從輸入圖像中捕獲語(yǔ)義信息,并且似乎是分割問(wèn)題的出色像素級(jí)表示。基于這些觀察結(jié)果,作者描述了一種簡(jiǎn)單的分割方法,即使只提供了少量的訓(xùn)練圖像也可以使用。
實(shí)驗(yàn)結(jié)果:提出的算法在多個(gè)數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有的替代方法。
算法
首先,簡(jiǎn)要概述DDPM框架。然后,我們描述了如何使用DDPM提取特征,并研究這些特征可能捕獲的語(yǔ)義信息。
表征分析
作者分析了噪聲預(yù)測(cè)器θ(xt,t)對(duì)不同 t 產(chǎn)生的表示。考慮了在LSUN Horse和FFHQ-256數(shù)據(jù)集上訓(xùn)練的最先進(jìn)的DDPM checkpoints。
來(lái)自噪聲預(yù)測(cè)器的中間激活捕獲語(yǔ)義信息:對(duì)于這個(gè)實(shí)驗(yàn),從LSUN Horse和FFHQ數(shù)據(jù)集中獲取了一些圖像,并分別手動(dòng)將每個(gè)像素分配給21和34個(gè)語(yǔ)義類(lèi)中的一個(gè)。目標(biāo)是了解DDPM生成的像素級(jí)表示是否有效地捕獲了有關(guān)語(yǔ)義的信息。為此,訓(xùn)練多層感知器(MLP),以根據(jù)特定擴(kuò)散步驟t上18個(gè)UNet解碼器塊中的一個(gè)生成的特征來(lái)預(yù)測(cè)像素語(yǔ)義標(biāo)簽。
請(qǐng)注意,只考慮解碼器激活圖,因?yàn)樗鼈冞€通過(guò)跳躍連接聚合編碼器激活圖。MLP在20張圖片上接受訓(xùn)練,并在20張圖片上進(jìn)行評(píng)估。預(yù)測(cè)性能以平均IoU衡量。
圖2顯示了不同解碼塊和擴(kuò)散步驟t的預(yù)測(cè)性能演變。解碼塊從深到淺依次編號(hào)。圖2顯示了噪聲預(yù)測(cè)器θ(xt,t)產(chǎn)生特征的IoU隨不同的塊和擴(kuò)散步驟而變化。
特別是,對(duì)應(yīng)于反向擴(kuò)散過(guò)程后續(xù)步驟的特征通常更有效地捕獲語(yǔ)義信息。相比之下,早期步驟相對(duì)應(yīng)的特征通常沒(méi)有什么信息。在不同的解碼塊中,UNet解碼器中間層產(chǎn)生的特征似乎是所有擴(kuò)散步驟中信息最豐富的。
此外,根據(jù)標(biāo)注數(shù)據(jù)集中的目標(biāo)的平均面積分別考慮小型和大型語(yǔ)義類(lèi)。然后,獨(dú)立評(píng)估不同UNet解碼塊和擴(kuò)散步驟中這些類(lèi)的平均IoU。LSUN Horse的結(jié)果如圖3所示。
正如預(yù)期的那樣,在相反的過(guò)程中,大型對(duì)象的預(yù)測(cè)性能開(kāi)始提前增長(zhǎng)。對(duì)于較小的對(duì)象,淺層解碼塊的信息量更大,而對(duì)于較大的對(duì)象,深層解碼塊的信息更大。在這兩種情況下,最有區(qū)別的特征仍然對(duì)應(yīng)于中間塊。
圖4顯示了由FFHQ checkpoint從擴(kuò)散步驟{50,200,400,600,800}的解碼塊{6,8,10,12}中提取的特征形成的k-means聚類(lèi)(k=5),并確認(rèn)聚類(lèi)可以跨越連貫的語(yǔ)義對(duì)象和對(duì)象部分。
在塊B=6中,特征對(duì)應(yīng)于粗糙的語(yǔ)義掩碼。在另一個(gè)極端,B=12的特征可以區(qū)分細(xì)粒度的面部部位,但對(duì)于粗碎片來(lái)說(shuō),語(yǔ)義意義較小。在不同的擴(kuò)散步驟中,最有意義的特征對(duì)應(yīng)于后面的步驟。
將這種行為歸因于這樣一個(gè)事實(shí),即在反向過(guò)程的早期步驟中,DDPM樣本的全局結(jié)構(gòu)尚未出現(xiàn),因此,在這個(gè)階段幾乎不可能預(yù)測(cè)分段掩碼。圖4中的掩碼定性地證實(shí)了這種直覺(jué)。對(duì)于t=800,掩碼很難反映實(shí)際圖像的內(nèi)容,而對(duì)于較小的t值,掩碼和圖像在語(yǔ)義上是一致的。
基于DDPM的few-shot語(yǔ)義分割
上述觀察到的中間DDPM激活的潛在有效性表明,它們可以被用作密集預(yù)測(cè)任務(wù)的圖像表示。圖1展示了整體圖像分割方法,該方法利用了這些代表的可辨別性。更詳細(xì)地說(shuō),當(dāng)存在大量未標(biāo)記圖像{X1,…,XN}?時(shí),考慮了few-shot半監(jiān)督設(shè)置。
第一步,以無(wú)監(jiān)督的方式對(duì)整個(gè){X1,…,XN}訓(xùn)練擴(kuò)散模型。然后使用該擴(kuò)散模型提取標(biāo)記圖像的像素級(jí)表示。在本工作中,使用UNet解碼器中間塊B={5,6,7,8,12}的表示,以及反向擴(kuò)散過(guò)程的步驟t={50,150,250}。
實(shí)驗(yàn)
審核編輯:劉清
-
解碼器
+關(guān)注
關(guān)注
9文章
1152瀏覽量
40957 -
感知器
+關(guān)注
關(guān)注
0文章
34瀏覽量
11865 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4300
原文標(biāo)題:ICLR 2022 | 基于擴(kuò)散模型(DDPM)的語(yǔ)義分割
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于OWL屬性特征的語(yǔ)義檢索研究
模擬電路故障診斷中的特征提取方法
如何提取顏色特征?
基于已知特征項(xiàng)和環(huán)境相關(guān)量的特征提取算法
基于OWL屬性特征的語(yǔ)義檢索研究
故障特征提取的方法研究
![故障<b class='flag-5'>特征提取</b>的方法<b class='flag-5'>研究</b>](https://file1.elecfans.com//web2/M00/A4/2D/wKgZomUMMv6AVq9YAAAYf0DMmz8571.gif)
特征量的選擇和提取
![<b class='flag-5'>特征</b>量的選擇和<b class='flag-5'>提取</b>](https://file1.elecfans.com//web2/M00/A4/9B/wKgZomUMNPOAWJZqAACLxP6V9Rg880.jpg)
顏色特征提取方法
基于小波脊線的特征提取算法
![基于小波脊線的<b class='flag-5'>特征提取</b>算法](https://file.elecfans.com/web2/M00/49/88/poYBAGKhwMSAUD3KAAASs-Prk28219.jpg)
結(jié)合雙目圖像的深度信息跨層次特征的語(yǔ)義分割模型
![結(jié)合雙目圖像的深度<b class='flag-5'>信息</b>跨層次<b class='flag-5'>特征</b>的<b class='flag-5'>語(yǔ)義</b>分割模型](https://file.elecfans.com/web1/M00/E6/49/pIYBAGBUSGOASzX8AAJa2Lz0x9Y804.png)
基于自編碼特征的語(yǔ)音聲學(xué)綜合特征提取
結(jié)合詞特征與語(yǔ)義特征的網(wǎng)絡(luò)評(píng)價(jià)對(duì)象識(shí)別
將高級(jí)語(yǔ)義信息隱式地嵌入到檢測(cè)和描述過(guò)程中來(lái)提取全局可靠的特征
![將高級(jí)<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>信息</b>隱式地嵌入到檢測(cè)和描述過(guò)程中來(lái)<b class='flag-5'>提取</b>全局可靠的<b class='flag-5'>特征</b>](https://file1.elecfans.com/web2/M00/8B/BE/wKgZomSeQrCAW25QAACIF7ghRjI556.png)
評(píng)論