本文是西安交通大學(xué)&蘇黎世聯(lián)邦理工學(xué)院的趙子祥博士在ICCV2023上關(guān)于多模態(tài)圖像融合的最新工作,題目為:DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion。本文首次在多模態(tài)圖像融合領(lǐng)域采用了擴(kuò)散模型,很精彩的一篇工作,就是數(shù)學(xué)推導(dǎo)難住了我這個(gè)工科生。本文提出的模型DDFM的完整流程是通過圖1的c來實(shí)現(xiàn),而具體到每一步從fT到fT?1的過程是通過圖3的流程實(shí)現(xiàn),也就是本文的核心之一:傳統(tǒng)vanilla DDPM模型中有ft→f~0|t→ft?1的過程,而本文會(huì)在f~0|t到ft?1之間通過EM算法增加一個(gè)中間量f^0|t來解決最大化似然問題(即解決下文中公式13),整個(gè)過程變?yōu)閒t→f~0|t→f^0|t→ft?1。而這個(gè)過程是為了解決本文另一個(gè)核心,即條件生成問題。具體則是將圖像融合損失函數(shù)優(yōu)化問題轉(zhuǎn)化為最大似然問題。綜上所述,可以這樣理解本文DDFM的融合思想:首先通過自然圖像預(yù)訓(xùn)練的DDPM模型進(jìn)行無條件生成,得到初步結(jié)果(目的使融合結(jié)果符合自然圖像的生成先驗(yàn))。隨后對(duì)初步生成結(jié)果進(jìn)行條件生成(似然修正)。通過將融合問題轉(zhuǎn)化為一個(gè)含隱變量的極大似然估計(jì)問題(公式8轉(zhuǎn)換為公式13),再通過EM算法來解決該極大似然估計(jì)問題,完成條件生成。以上兩步,構(gòu)成ft→ft?1的單次迭代,而最終經(jīng)過T次迭代后,得到融合圖像f0。
本文:https://https://arxiv.org/abs/2303.06840
代碼:https://github.com/Zhaozixiang1228/MMIF-DDFM
文章題目與作者信息:
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion
在CVer微信公眾號(hào)后臺(tái)回復(fù):DDFM,可以下載本論文pdf、代碼
下面是正文部分。
多模態(tài)圖像融合目的在于組合不同模態(tài)下的圖像并保留互補(bǔ)信息,為了避免GAN模型諸如訓(xùn)練不穩(wěn)定和缺少解釋性這類問題,同時(shí)利用好強(qiáng)大的生成先驗(yàn),本文提出了基于去噪擴(kuò)散概率模型 Denoising diffusion probabilistic model (DDPM) 的融合算法。融合任務(wù)會(huì)在DDPM采樣框架下設(shè)計(jì)為條件生成問題,并被分成無條件生成子問題和最大似然子問題。其中最大似然子問題通過具有隱變量的分層貝葉斯方式建模,并使用期望最大化算法進(jìn)行推理。通過將推理解決方法整合進(jìn)擴(kuò)散采樣迭代中,本文方法可以生成高質(zhì)量的融合圖像,使其具備自然的圖像生成先驗(yàn)和來自源圖像的跨模態(tài)信息。需要注意的是本文方法需要無條件預(yù)訓(xùn)練生成模型,不過不需要fine-tune。實(shí)驗(yàn)表明本文在紅外-可見光融合以及醫(yī)學(xué)影像融合中效果很好。
紅外-可見光融合IVF就是要避免融合圖像對(duì)可見光的光照敏感,避免對(duì)紅外的噪聲和低分辨率敏感?;贕AN的融合方法如下圖a,會(huì)有一個(gè)生成器得到融合圖像,然后判別器來決定融合圖像和哪個(gè)模態(tài)的源圖像更接近。基于GAN的方法容易出現(xiàn)訓(xùn)練不穩(wěn)定的問題,同時(shí)有缺少解釋性等問題。另外由于基于GAN的方法是一個(gè)黑箱,很難理解GAN的內(nèi)在機(jī)制和行為,讓可控的融合變得困難。
近來去噪擴(kuò)散概率模型 Denoising diffusion probabilistic model (DDPM)在圖像生成中獲得很多進(jìn)步,通過對(duì)一張noise-corrupted圖像恢復(fù)為干凈圖像的擴(kuò)散過程進(jìn)行建模, 可以生成質(zhì)量很好的圖像?;贚angevin擴(kuò)散過程的DDPM利用一系列逆擴(kuò)散步驟來生成效果很好的合成圖像。對(duì)比GAN的方法,DDPM不需要判別器,因此緩解了基于GAN方法諸如訓(xùn)練不穩(wěn)定和模式崩潰等問題。另外,由于這類方法是基于擴(kuò)散過程的,所以基于DDPM的生成過程具有可解釋性,可以更好地理解圖像生成過程。
因此本文提出了 Denoising Diffusion image Fusion Model (DDFM),其結(jié)構(gòu)如上圖的c,本文將條件生成任務(wù)設(shè)計(jì)為基于DDPM的后驗(yàn)采樣模型,進(jìn)一步可以被分為無條件生成擴(kuò)散問題和最大似然估計(jì)問題,第一個(gè)問題可以滿足自然圖像先驗(yàn),第二個(gè)問題通過似然矯正來限制生成圖像和源圖像之間的相似性。和判別式方法相比,用DDPM對(duì)自然圖像先驗(yàn)建??梢缘玫礁玫募?xì)節(jié)生成,這點(diǎn)很難通過損失函數(shù)的設(shè)計(jì)來達(dá)到。作為生成模型,DDFM效果穩(wěn)定,生成效果可控。綜合來說本文貢獻(xiàn)如下:1.引入基于DDPM的后驗(yàn)采樣模型來進(jìn)行多模態(tài)圖像法融合任務(wù),包含無條件生成模塊和條件似然矯正模塊,采樣的圖像只通過一個(gè)預(yù)訓(xùn)練的DDPM完成,不需要fine-tune;2.似然矯正中,由于顯式獲得似然不可行,因此將優(yōu)化損失表示為包含隱變量的概率推理問題,可以通過 EM 算法來解決,然后這個(gè)方法整合進(jìn)DDPM回路中完成條件圖像生成;3.實(shí)驗(yàn)表明本文方法在IVF和醫(yī)學(xué)影像融合中都可以獲得很好的結(jié)果。
Score-based擴(kuò)散模型:首先看score SDE 方程。擴(kuò)散模型目標(biāo)是通過反轉(zhuǎn)一個(gè)預(yù)定義的前向過程來生成樣本,這個(gè)前向過程就是將干凈的樣本x0通過多個(gè)加噪過程,逐步轉(zhuǎn)換成接近高斯信號(hào)的樣本xT,其過程可以用隨機(jī)微分方程表示,如下式。
其中dw是標(biāo)準(zhǔn)Wiener過程,β(t)是有利于variance-preserving SDE 的預(yù)定義噪聲表。
該前向過程可以被反轉(zhuǎn)并保持SDE的形式,如下式。
下來是使用擴(kuò)散模型采樣。無條件擴(kuò)散生成過程從一個(gè)隨機(jī)噪聲向量xT開始,根據(jù)式2的離散化形式進(jìn)行更新。也可以將DDIM的方式理解采樣過程,即score函數(shù)可以被看做一個(gè)去噪器,在迭代t中,從狀態(tài)xt預(yù)測(cè)去噪結(jié)果x~0|t,如下式。
這樣x~0|t就可以表示給定xt時(shí),x0的估計(jì)。
具體更新的方式如下。
使用上面的方式,直到x0被生成。
本文基于DDPM和以往方法的對(duì)比:傳統(tǒng)基于優(yōu)化的方法主要是收到人工設(shè)計(jì)損失函數(shù)的限制,這可能會(huì)讓這類方法在數(shù)據(jù)分布發(fā)生改變時(shí)融合效果不佳。雖然整合自然圖像先驗(yàn)可以提供額外的知識(shí),但是只用損失函數(shù)來建模是遠(yuǎn)遠(yuǎn)不足的。和GAN方法相比,本文的擴(kuò)散模型方法可以避免不穩(wěn)定的訓(xùn)練和模式坍塌,通過每次迭代過程中對(duì)源圖像生成過程的矯正和基于似然的優(yōu)化就可以得到穩(wěn)定的訓(xùn)練和可控融合了。
模型結(jié)構(gòu)
通過擴(kuò)散后驗(yàn)采樣來融合圖像:使用i、v、f分別表示紅外、可見光、融合圖像,其中融合圖像與可見光圖像均為RGB彩圖。期望f的后驗(yàn)分布可以通過i和v建模,這樣f就可以通過后驗(yàn)分布中采樣得到了。受到式2的啟發(fā),擴(kuò)散過程的逆SDE可以用下式表示。
score函數(shù)可以通過下式計(jì)算。
其中f~0|t是給定ft后,從無條件DDPM中對(duì)f0的估計(jì)。上式來源于貝葉斯理論,其近似方程可以看原文引用的文獻(xiàn)。上式中的第一項(xiàng)表示無條件擴(kuò)散采樣的score函數(shù),可以通過預(yù)先訓(xùn)練的 DDPM 輕松推到出來。下一節(jié)將解釋第二項(xiàng)的獲得方式。
圖像融合的似然矯正:傳統(tǒng)圖像退化反轉(zhuǎn)問題,如下式。
x是groundtruth,y是測(cè)量方法,A是已知的,可以顯式地獲得其后驗(yàn)分布,然后在圖像融合問題中,想要在給定ft或者f~0|t情況下,獲得i和v的后驗(yàn)分布是不可能的。為了解決這個(gè)問題,首先需要建立優(yōu)化函數(shù)和概率模型的似然之間的關(guān)系。下面使用 f 來表示f~0|t。
圖像融合通常使用的損失函數(shù)如下式。
使用x=f-v和y=i-v來替換變量,可以得到下式。
由于y已知,而x未知,那么上式中的第一項(xiàng)就對(duì)應(yīng)于下式k恒為1的回歸模型。
而根據(jù)正則項(xiàng)和噪聲先驗(yàn)分布之間的關(guān)系,?必須是拉普拉斯噪聲,x則是服從拉普拉斯分布。那么根據(jù)貝葉斯準(zhǔn)則,有下式。
因此式10中的p(x)和p(y|x)可以被寫為下面的分層貝葉斯框架。
其中i和j分別表示圖像的高和寬。通過上式,就可以將式9中的優(yōu)化問題轉(zhuǎn)換為一個(gè)最大似然推理問題。
另外,全變分懲罰項(xiàng)也可以加到融合圖像f中,以更好地從可見光圖像v中保留紋理信息,其形式如下,先對(duì)x求梯度后再計(jì)算L2范數(shù)。
最終,概率推理問題的對(duì)數(shù)似然函數(shù)用下式表示。
這個(gè)分層貝葉斯模型的概率圖即為圖1的b形式。
這里將式8的優(yōu)化問題轉(zhuǎn)換為了式13最大似然問題的概率模型。另外和傳統(tǒng)方法中人工調(diào)整參數(shù)懲罰項(xiàng)參數(shù)?不同,本文方法可以通過推理隱變量,自適應(yīng)地更新參數(shù)?,讓模型可以更好地?cái)M合不同數(shù)據(jù)分布。
下面是通過EM算法推理似然模型。為了解決式13的最大對(duì)數(shù)似然問題,也就是可以被看做包含隱變量的優(yōu)化問題,本文使用Expectation Maximization, EM算法來獲得x。EM步驟如下。
在E步驟中,由下面的命題2來計(jì)算隱變量條件期望的計(jì)算結(jié)果,并得到Q方程的推導(dǎo)。
命題2:隱變量1/m和1/n的條件期望計(jì)算如下式,證明過程可以看原文。
然后,可以通過貝葉斯理論得到m的后驗(yàn)概率,如下。
同時(shí)m的后驗(yàn)概率可以通過下式計(jì)算。
其中IN是逆高斯分布。
對(duì)于n也可以用式17相同的方式計(jì)算,如下式。
那么n也可以轉(zhuǎn)換為使用逆高斯分布計(jì)算的方式,如下式。
最終,1/m和1/n的條件期望就是式18和20中逆高斯分布的平均參數(shù)。
那么Q方程就可以通過下式推到得到。
M步驟中,需要最小化關(guān)于 x 的負(fù) Q 函數(shù),用half-quadratic splitting算法來處理該問題,如下式。
可以進(jìn)一步轉(zhuǎn)化為如下無約束優(yōu)化問題。
式中的未知變量k、u、 x 可以通過坐標(biāo)下降方式迭代求解。
k的更新是反卷積過程,如下式。
可以采用快速傅里葉變換及其逆變換算子來得到,如下式。
u的更新是L2范數(shù)懲罰回歸問題,如下式。
其計(jì)算方式如下。
x的更新是最小二乘問題,如下式。
其計(jì)算方式如下。
DDFM:前面部分描述是從已有損失函數(shù)中獲得分層貝葉斯模型,通過EM算法來進(jìn)行推理。下面講述本文DDFM將推理方法和擴(kuò)散采樣整合到同一個(gè)框架內(nèi),根據(jù)輸入v和i獲得融合圖像f,算法流程如下。
DDFM中包含兩個(gè)模塊,一個(gè)是無條件擴(kuò)散采樣模塊unconditional diffusion sampling (UDS) ,一個(gè)是似然矯正,也就是EM模塊。UDS模塊用來提供自然圖像先驗(yàn),給融合圖像提供較好的視覺效果。EM模塊通過似然來保護(hù)源圖像的更多信息,用于對(duì)UDS輸出進(jìn)行矯正。
EM模塊用來將f~0|t更新為f^0|t,在上圖算法中對(duì)應(yīng)藍(lán)色和黃色部分。使用DDPM采樣(第五行)得到的f~0|t作為EM的起始輸入,獲得f^0|t(第6到13行),是經(jīng)過似然校正的融合圖像的估計(jì)??傮w來說,EM模塊就是將f~0|t更新為f^0|t來滿足似然。
為什么單步EM可以work:本文DDFM和傳統(tǒng)EM算法最大不同就是傳統(tǒng)方法需要多部迭代來獲得x,也就是上圖算法中的第6到13行需要多次循環(huán)。本文的DDFM只需要單階段EM迭代,可以直接嵌入到DDPM框架中完成采樣。下面給出命題3來解釋這種合理性。
命題3:?jiǎn)尾綗o條件擴(kuò)散采樣結(jié)合了單步EM迭代等價(jià)于單步有條件擴(kuò)散采樣。下面是證明過程結(jié)論。
也就是說,條件采樣可以被分為無條件擴(kuò)散采樣和單步EM算法,這就對(duì)應(yīng)了本文的UDS模塊和EM模塊。
實(shí)驗(yàn)部分
首先是IVF的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)在TNO、RoadScene、MSRS、M3FD四個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,需要注意的是由于本文方法不需要針對(duì)特定任務(wù)進(jìn)行fine-tune,所以不需要訓(xùn)練集,直接使用預(yù)訓(xùn)練過的DDPM方法即可。本文采用的是在imagenet上預(yù)訓(xùn)練的模型。對(duì)比實(shí)驗(yàn)結(jié)果如下。
消融實(shí)驗(yàn)一個(gè)針對(duì)UDS模塊,一個(gè)針對(duì)EM模塊。對(duì)于UDS模塊,去掉去噪擴(kuò)散生成網(wǎng)絡(luò),只用EM算法來解決式8的優(yōu)化問題來獲得融合結(jié)果(實(shí)驗(yàn)I)。為了公平對(duì)比,將總體的迭代次數(shù)設(shè)置的和DDFM相同。EM模塊是去除了式13中的總變分懲罰項(xiàng),然后再去除貝葉斯推理模型(實(shí)驗(yàn)II)。而前文也說過式8中的參數(shù)?可以在分層貝葉斯模型中推理,因此這里將參數(shù)?分別設(shè)置為0.1和1(實(shí)驗(yàn)III和IV),使用ADMM來推理模型。以上設(shè)置的實(shí)驗(yàn)結(jié)果如下表。
下一組實(shí)驗(yàn)是醫(yī)學(xué)影像融合的結(jié)果,在 Harvard Medical Image Dataset 上進(jìn)行測(cè)試,包含MRI-CT、MRI-PET、MRI-SPECT三種,實(shí)驗(yàn)結(jié)果如下圖。
-
算法
+關(guān)注
關(guān)注
23文章
4631瀏覽量
93400 -
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40582 -
生成器
+關(guān)注
關(guān)注
7文章
320瀏覽量
21141
原文標(biāo)題:ICCV 2023 Oral | DDFM:首個(gè)使用擴(kuò)散模型進(jìn)行多模態(tài)圖像融合的方法
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論