欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DDFM:首個(gè)使用擴(kuò)散模型進(jìn)行多模態(tài)圖像融合的方法

CVer ? 來源:CVer ? 2023-09-19 16:02 ? 次閱讀

本文是西安交通大學(xué)&蘇黎世聯(lián)邦理工學(xué)院的趙子祥博士在ICCV2023上關(guān)于多模態(tài)圖像融合的最新工作,題目為:DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion。本文首次在多模態(tài)圖像融合領(lǐng)域采用了擴(kuò)散模型,很精彩的一篇工作,就是數(shù)學(xué)推導(dǎo)難住了我這個(gè)工科生。本文提出的模型DDFM的完整流程是通過圖1的c來實(shí)現(xiàn),而具體到每一步從fT到fT?1的過程是通過圖3的流程實(shí)現(xiàn),也就是本文的核心之一:傳統(tǒng)vanilla DDPM模型中有ft→f~0|t→ft?1的過程,而本文會(huì)在f~0|t到ft?1之間通過EM算法增加一個(gè)中間量f^0|t來解決最大化似然問題(即解決下文中公式13),整個(gè)過程變?yōu)閒t→f~0|t→f^0|t→ft?1。而這個(gè)過程是為了解決本文另一個(gè)核心,即條件生成問題。具體則是將圖像融合損失函數(shù)優(yōu)化問題轉(zhuǎn)化為最大似然問題。綜上所述,可以這樣理解本文DDFM的融合思想:首先通過自然圖像預(yù)訓(xùn)練的DDPM模型進(jìn)行無條件生成,得到初步結(jié)果(目的使融合結(jié)果符合自然圖像的生成先驗(yàn))。隨后對(duì)初步生成結(jié)果進(jìn)行條件生成(似然修正)。通過將融合問題轉(zhuǎn)化為一個(gè)含隱變量的極大似然估計(jì)問題(公式8轉(zhuǎn)換為公式13),再通過EM算法來解決該極大似然估計(jì)問題,完成條件生成。以上兩步,構(gòu)成ft→ft?1的單次迭代,而最終經(jīng)過T次迭代后,得到融合圖像f0。

本文:https://https://arxiv.org/abs/2303.06840
代碼:https://github.com/Zhaozixiang1228/MMIF-DDFM

文章題目與作者信息

DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion

b82a60a8-56aa-11ee-939d-92fbcf53809c.png

在CVer微信公眾號(hào)后臺(tái)回復(fù):DDFM,可以下載本論文pdf、代碼

下面是正文部分。

多模態(tài)圖像融合目的在于組合不同模態(tài)下的圖像并保留互補(bǔ)信息,為了避免GAN模型諸如訓(xùn)練不穩(wěn)定和缺少解釋性這類問題,同時(shí)利用好強(qiáng)大的生成先驗(yàn),本文提出了基于去噪擴(kuò)散概率模型 Denoising diffusion probabilistic model (DDPM) 的融合算法。融合任務(wù)會(huì)在DDPM采樣框架下設(shè)計(jì)為條件生成問題,并被分成無條件生成子問題和最大似然子問題。其中最大似然子問題通過具有隱變量的分層貝葉斯方式建模,并使用期望最大化算法進(jìn)行推理。通過將推理解決方法整合進(jìn)擴(kuò)散采樣迭代中,本文方法可以生成高質(zhì)量的融合圖像,使其具備自然的圖像生成先驗(yàn)和來自源圖像的跨模態(tài)信息。需要注意的是本文方法需要無條件預(yù)訓(xùn)練生成模型,不過不需要fine-tune。實(shí)驗(yàn)表明本文在紅外-可見光融合以及醫(yī)學(xué)影像融合中效果很好。

紅外-可見光融合IVF就是要避免融合圖像對(duì)可見光的光照敏感,避免對(duì)紅外的噪聲和低分辨率敏感?;贕AN的融合方法如下圖a,會(huì)有一個(gè)生成器得到融合圖像,然后判別器來決定融合圖像和哪個(gè)模態(tài)的源圖像更接近。基于GAN的方法容易出現(xiàn)訓(xùn)練不穩(wěn)定的問題,同時(shí)有缺少解釋性等問題。另外由于基于GAN的方法是一個(gè)黑箱,很難理解GAN的內(nèi)在機(jī)制和行為,讓可控的融合變得困難。

b8477486-56aa-11ee-939d-92fbcf53809c.png

近來去噪擴(kuò)散概率模型 Denoising diffusion probabilistic model (DDPM)在圖像生成中獲得很多進(jìn)步,通過對(duì)一張noise-corrupted圖像恢復(fù)為干凈圖像的擴(kuò)散過程進(jìn)行建模, 可以生成質(zhì)量很好的圖像?;贚angevin擴(kuò)散過程的DDPM利用一系列逆擴(kuò)散步驟來生成效果很好的合成圖像。對(duì)比GAN的方法,DDPM不需要判別器,因此緩解了基于GAN方法諸如訓(xùn)練不穩(wěn)定和模式崩潰等問題。另外,由于這類方法是基于擴(kuò)散過程的,所以基于DDPM的生成過程具有可解釋性,可以更好地理解圖像生成過程。

因此本文提出了 Denoising Diffusion image Fusion Model (DDFM),其結(jié)構(gòu)如上圖的c,本文將條件生成任務(wù)設(shè)計(jì)為基于DDPM的后驗(yàn)采樣模型,進(jìn)一步可以被分為無條件生成擴(kuò)散問題和最大似然估計(jì)問題,第一個(gè)問題可以滿足自然圖像先驗(yàn),第二個(gè)問題通過似然矯正來限制生成圖像和源圖像之間的相似性。和判別式方法相比,用DDPM對(duì)自然圖像先驗(yàn)建??梢缘玫礁玫募?xì)節(jié)生成,這點(diǎn)很難通過損失函數(shù)的設(shè)計(jì)來達(dá)到。作為生成模型,DDFM效果穩(wěn)定,生成效果可控。綜合來說本文貢獻(xiàn)如下:1.引入基于DDPM的后驗(yàn)采樣模型來進(jìn)行多模態(tài)圖像法融合任務(wù),包含無條件生成模塊和條件似然矯正模塊,采樣的圖像只通過一個(gè)預(yù)訓(xùn)練的DDPM完成,不需要fine-tune;2.似然矯正中,由于顯式獲得似然不可行,因此將優(yōu)化損失表示為包含隱變量的概率推理問題,可以通過 EM 算法來解決,然后這個(gè)方法整合進(jìn)DDPM回路中完成條件圖像生成;3.實(shí)驗(yàn)表明本文方法在IVF和醫(yī)學(xué)影像融合中都可以獲得很好的結(jié)果。

Score-based擴(kuò)散模型:首先看score SDE 方程。擴(kuò)散模型目標(biāo)是通過反轉(zhuǎn)一個(gè)預(yù)定義的前向過程來生成樣本,這個(gè)前向過程就是將干凈的樣本x0通過多個(gè)加噪過程,逐步轉(zhuǎn)換成接近高斯信號(hào)的樣本xT,其過程可以用隨機(jī)微分方程表示,如下式。

b8724148-56aa-11ee-939d-92fbcf53809c.png

其中dw是標(biāo)準(zhǔn)Wiener過程,β(t)是有利于variance-preserving SDE 的預(yù)定義噪聲表。

該前向過程可以被反轉(zhuǎn)并保持SDE的形式,如下式。

b87b4de2-56aa-11ee-939d-92fbcf53809c.png

b889caf2-56aa-11ee-939d-92fbcf53809c.png

b898739a-56aa-11ee-939d-92fbcf53809c.png

b8a38ffa-56aa-11ee-939d-92fbcf53809c.png

下來是使用擴(kuò)散模型采樣。無條件擴(kuò)散生成過程從一個(gè)隨機(jī)噪聲向量xT開始,根據(jù)式2的離散化形式進(jìn)行更新。也可以將DDIM的方式理解采樣過程,即score函數(shù)可以被看做一個(gè)去噪器,在迭代t中,從狀態(tài)xt預(yù)測(cè)去噪結(jié)果x~0|t,如下式。

b8b2218c-56aa-11ee-939d-92fbcf53809c.png

這樣x~0|t就可以表示給定xt時(shí),x0的估計(jì)。

具體更新的方式如下。

b8ca3772-56aa-11ee-939d-92fbcf53809c.png

使用上面的方式,直到x0被生成。

本文基于DDPM和以往方法的對(duì)比:傳統(tǒng)基于優(yōu)化的方法主要是收到人工設(shè)計(jì)損失函數(shù)的限制,這可能會(huì)讓這類方法在數(shù)據(jù)分布發(fā)生改變時(shí)融合效果不佳。雖然整合自然圖像先驗(yàn)可以提供額外的知識(shí),但是只用損失函數(shù)來建模是遠(yuǎn)遠(yuǎn)不足的。和GAN方法相比,本文的擴(kuò)散模型方法可以避免不穩(wěn)定的訓(xùn)練和模式坍塌,通過每次迭代過程中對(duì)源圖像生成過程的矯正和基于似然的優(yōu)化就可以得到穩(wěn)定的訓(xùn)練和可控融合了。

模型結(jié)構(gòu)

通過擴(kuò)散后驗(yàn)采樣來融合圖像:使用i、v、f分別表示紅外、可見光、融合圖像,其中融合圖像與可見光圖像均為RGB彩圖。期望f的后驗(yàn)分布可以通過i和v建模,這樣f就可以通過后驗(yàn)分布中采樣得到了。受到式2的啟發(fā),擴(kuò)散過程的逆SDE可以用下式表示。

b8d94b18-56aa-11ee-939d-92fbcf53809c.png

score函數(shù)可以通過下式計(jì)算。

b8f8ba66-56aa-11ee-939d-92fbcf53809c.png

其中f~0|t是給定ft后,從無條件DDPM中對(duì)f0的估計(jì)。上式來源于貝葉斯理論,其近似方程可以看原文引用的文獻(xiàn)。上式中的第一項(xiàng)表示無條件擴(kuò)散采樣的score函數(shù),可以通過預(yù)先訓(xùn)練的 DDPM 輕松推到出來。下一節(jié)將解釋第二項(xiàng)的獲得方式。

圖像融合的似然矯正:傳統(tǒng)圖像退化反轉(zhuǎn)問題,如下式。

b9061102-56aa-11ee-939d-92fbcf53809c.png

x是groundtruth,y是測(cè)量方法,A是已知的,可以顯式地獲得其后驗(yàn)分布,然后在圖像融合問題中,想要在給定ft或者f~0|t情況下,獲得i和v的后驗(yàn)分布是不可能的。為了解決這個(gè)問題,首先需要建立優(yōu)化函數(shù)和概率模型的似然之間的關(guān)系。下面使用 f 來表示f~0|t。

圖像融合通常使用的損失函數(shù)如下式。

b91e447a-56aa-11ee-939d-92fbcf53809c.png

使用x=f-v和y=i-v來替換變量,可以得到下式。

b9298bfa-56aa-11ee-939d-92fbcf53809c.png

由于y已知,而x未知,那么上式中的第一項(xiàng)就對(duì)應(yīng)于下式k恒為1的回歸模型。

b9357e06-56aa-11ee-939d-92fbcf53809c.png

而根據(jù)正則項(xiàng)和噪聲先驗(yàn)分布之間的關(guān)系,?必須是拉普拉斯噪聲,x則是服從拉普拉斯分布。那么根據(jù)貝葉斯準(zhǔn)則,有下式。

b9581006-56aa-11ee-939d-92fbcf53809c.png

b96796c0-56aa-11ee-939d-92fbcf53809c.png

b976de00-56aa-11ee-939d-92fbcf53809c.png

因此式10中的p(x)和p(y|x)可以被寫為下面的分層貝葉斯框架。

b981892c-56aa-11ee-939d-92fbcf53809c.png

其中i和j分別表示圖像的高和寬。通過上式,就可以將式9中的優(yōu)化問題轉(zhuǎn)換為一個(gè)最大似然推理問題。

另外,全變分懲罰項(xiàng)也可以加到融合圖像f中,以更好地從可見光圖像v中保留紋理信息,其形式如下,先對(duì)x求梯度后再計(jì)算L2范數(shù)。

b998781c-56aa-11ee-939d-92fbcf53809c.png

最終,概率推理問題的對(duì)數(shù)似然函數(shù)用下式表示。

b9a5353e-56aa-11ee-939d-92fbcf53809c.png

這個(gè)分層貝葉斯模型的概率圖即為圖1的b形式。

這里將式8的優(yōu)化問題轉(zhuǎn)換為了式13最大似然問題的概率模型。另外和傳統(tǒng)方法中人工調(diào)整參數(shù)懲罰項(xiàng)參數(shù)?不同,本文方法可以通過推理隱變量,自適應(yīng)地更新參數(shù)?,讓模型可以更好地?cái)M合不同數(shù)據(jù)分布。

下面是通過EM算法推理似然模型。為了解決式13的最大對(duì)數(shù)似然問題,也就是可以被看做包含隱變量的優(yōu)化問題,本文使用Expectation Maximization, EM算法來獲得x。EM步驟如下。

b9b4832c-56aa-11ee-939d-92fbcf53809c.png

在E步驟中,由下面的命題2來計(jì)算隱變量條件期望的計(jì)算結(jié)果,并得到Q方程的推導(dǎo)。

命題2:隱變量1/m和1/n的條件期望計(jì)算如下式,證明過程可以看原文。

b9c73864-56aa-11ee-939d-92fbcf53809c.png

然后,可以通過貝葉斯理論得到m的后驗(yàn)概率,如下。

b9dc6e3c-56aa-11ee-939d-92fbcf53809c.png

同時(shí)m的后驗(yàn)概率可以通過下式計(jì)算。

b9e96d58-56aa-11ee-939d-92fbcf53809c.png

其中IN是逆高斯分布。

對(duì)于n也可以用式17相同的方式計(jì)算,如下式。

b9f3c370-56aa-11ee-939d-92fbcf53809c.png

那么n也可以轉(zhuǎn)換為使用逆高斯分布計(jì)算的方式,如下式。

ba0d93a4-56aa-11ee-939d-92fbcf53809c.png

最終,1/m和1/n的條件期望就是式18和20中逆高斯分布的平均參數(shù)。

那么Q方程就可以通過下式推到得到。

ba18882c-56aa-11ee-939d-92fbcf53809c.png

M步驟中,需要最小化關(guān)于 x 的負(fù) Q 函數(shù),用half-quadratic splitting算法來處理該問題,如下式。

ba271554-56aa-11ee-939d-92fbcf53809c.png

可以進(jìn)一步轉(zhuǎn)化為如下無約束優(yōu)化問題。

ba398f68-56aa-11ee-939d-92fbcf53809c.png

式中的未知變量k、u、 x 可以通過坐標(biāo)下降方式迭代求解。

k的更新是反卷積過程,如下式。

ba4985d0-56aa-11ee-939d-92fbcf53809c.png

可以采用快速傅里葉變換及其逆變換算子來得到,如下式。

ba55036a-56aa-11ee-939d-92fbcf53809c.png

u的更新是L2范數(shù)懲罰回歸問題,如下式。

ba654d06-56aa-11ee-939d-92fbcf53809c.png

其計(jì)算方式如下。

ba7ecdbc-56aa-11ee-939d-92fbcf53809c.png

x的更新是最小二乘問題,如下式。

ba8ad5a8-56aa-11ee-939d-92fbcf53809c.png

其計(jì)算方式如下。

ba97e842-56aa-11ee-939d-92fbcf53809c.png

baa97760-56aa-11ee-939d-92fbcf53809c.png

DDFM:前面部分描述是從已有損失函數(shù)中獲得分層貝葉斯模型,通過EM算法來進(jìn)行推理。下面講述本文DDFM將推理方法和擴(kuò)散采樣整合到同一個(gè)框架內(nèi),根據(jù)輸入v和i獲得融合圖像f,算法流程如下。

babc1cb2-56aa-11ee-939d-92fbcf53809c.png

bacf2190-56aa-11ee-939d-92fbcf53809c.png

DDFM中包含兩個(gè)模塊,一個(gè)是無條件擴(kuò)散采樣模塊unconditional diffusion sampling (UDS) ,一個(gè)是似然矯正,也就是EM模塊。UDS模塊用來提供自然圖像先驗(yàn),給融合圖像提供較好的視覺效果。EM模塊通過似然來保護(hù)源圖像的更多信息,用于對(duì)UDS輸出進(jìn)行矯正。

bae4a0c4-56aa-11ee-939d-92fbcf53809c.png

bafa7a20-56aa-11ee-939d-92fbcf53809c.png

EM模塊用來將f~0|t更新為f^0|t,在上圖算法中對(duì)應(yīng)藍(lán)色和黃色部分。使用DDPM采樣(第五行)得到的f~0|t作為EM的起始輸入,獲得f^0|t(第6到13行),是經(jīng)過似然校正的融合圖像的估計(jì)??傮w來說,EM模塊就是將f~0|t更新為f^0|t來滿足似然。

為什么單步EM可以work:本文DDFM和傳統(tǒng)EM算法最大不同就是傳統(tǒng)方法需要多部迭代來獲得x,也就是上圖算法中的第6到13行需要多次循環(huán)。本文的DDFM只需要單階段EM迭代,可以直接嵌入到DDPM框架中完成采樣。下面給出命題3來解釋這種合理性。

命題3:?jiǎn)尾綗o條件擴(kuò)散采樣結(jié)合了單步EM迭代等價(jià)于單步有條件擴(kuò)散采樣。下面是證明過程結(jié)論。

bb0b0ca0-56aa-11ee-939d-92fbcf53809c.png

也就是說,條件采樣可以被分為無條件擴(kuò)散采樣和單步EM算法,這就對(duì)應(yīng)了本文的UDS模塊和EM模塊。

實(shí)驗(yàn)部分

首先是IVF的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)在TNO、RoadScene、MSRS、M3FD四個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,需要注意的是由于本文方法不需要針對(duì)特定任務(wù)進(jìn)行fine-tune,所以不需要訓(xùn)練集,直接使用預(yù)訓(xùn)練過的DDPM方法即可。本文采用的是在imagenet上預(yù)訓(xùn)練的模型。對(duì)比實(shí)驗(yàn)結(jié)果如下。

bb217990-56aa-11ee-939d-92fbcf53809c.png

bb463de8-56aa-11ee-939d-92fbcf53809c.png

消融實(shí)驗(yàn)一個(gè)針對(duì)UDS模塊,一個(gè)針對(duì)EM模塊。對(duì)于UDS模塊,去掉去噪擴(kuò)散生成網(wǎng)絡(luò),只用EM算法來解決式8的優(yōu)化問題來獲得融合結(jié)果(實(shí)驗(yàn)I)。為了公平對(duì)比,將總體的迭代次數(shù)設(shè)置的和DDFM相同。EM模塊是去除了式13中的總變分懲罰項(xiàng),然后再去除貝葉斯推理模型(實(shí)驗(yàn)II)。而前文也說過式8中的參數(shù)?可以在分層貝葉斯模型中推理,因此這里將參數(shù)?分別設(shè)置為0.1和1(實(shí)驗(yàn)III和IV),使用ADMM來推理模型。以上設(shè)置的實(shí)驗(yàn)結(jié)果如下表。

bb6054bc-56aa-11ee-939d-92fbcf53809c.png

下一組實(shí)驗(yàn)是醫(yī)學(xué)影像融合的結(jié)果,在 Harvard Medical Image Dataset 上進(jìn)行測(cè)試,包含MRI-CT、MRI-PET、MRI-SPECT三種,實(shí)驗(yàn)結(jié)果如下圖。

bb78306e-56aa-11ee-939d-92fbcf53809c.png

bb8f109a-56aa-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4631

    瀏覽量

    93400
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40582
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    320

    瀏覽量

    21141

原文標(biāo)題:ICCV 2023 Oral | DDFM:首個(gè)使用擴(kuò)散模型進(jìn)行多模態(tài)圖像融合的方法

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型圖像生成過程

    近年來,擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以激發(fā)擴(kuò)展創(chuàng)作靈感。 不過僅憑文本來控制圖像
    的頭像 發(fā)表于 07-17 11:00 ?2871次閱讀
    基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    。 模態(tài)融合的創(chuàng)新與突破 機(jī)器人控制技術(shù)的另一個(gè)重要突破在于模態(tài)模型的應(yīng)用。相比于僅通過文
    發(fā)表于 12-29 23:04

    基于小波變換的圖像數(shù)據(jù)融合與邊緣檢測(cè)方法

    提出基于小波變換的圖像數(shù)據(jù)融合和邊緣檢測(cè)的方法,對(duì)圖像
    發(fā)表于 08-21 12:10 ?7次下載

    模態(tài)中NLP與CV融合的方式有哪些?

    test 看文本部分在其中起到的作用為0... ( ) ? 現(xiàn)在看來還是wide and deep這種方式太粗暴了(對(duì)于復(fù)雜信息的融合),本文寫寫模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像
    的頭像 發(fā)表于 12-31 10:12 ?5113次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>中NLP與CV<b class='flag-5'>融合</b>的方式有哪些?

    基于雙殘差超密集網(wǎng)絡(luò)的模態(tài)醫(yī)學(xué)圖像融合方法

    Networks, DRHDNS)的模態(tài)醫(yī)學(xué)圖像融合方法。 DRHDNS分為特征提取和特征融合
    發(fā)表于 04-14 11:18 ?19次下載
    基于雙殘差超密集網(wǎng)絡(luò)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>醫(yī)學(xué)<b class='flag-5'>圖像</b><b class='flag-5'>融合</b><b class='flag-5'>方法</b>

    基于聯(lián)合壓縮感知的模態(tài)目標(biāo)統(tǒng)一跟蹤方法

    針對(duì)模態(tài)目標(biāo)跟蹤中大多僅考慮單個(gè)圖像的異種特征融合或不同模態(tài)圖像的同種特征
    發(fā)表于 04-27 15:59 ?0次下載
    基于聯(lián)合壓縮感知的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>目標(biāo)統(tǒng)一跟蹤<b class='flag-5'>方法</b>

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法

    模態(tài)MR和特征融合的GBM自動(dòng)分割算法
    發(fā)表于 06-27 11:45 ?32次下載

    簡(jiǎn)述文本與圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問題

    模型中的幾個(gè)分支角度,簡(jiǎn)述文本與圖像領(lǐng)域的模態(tài)學(xué)習(xí)有關(guān)問題。 1. 引言 近年來,計(jì)算機(jī)視覺和自然語(yǔ)言處理方向均取得了很大進(jìn)展。而融合二者
    的頭像 發(fā)表于 08-26 16:29 ?6934次閱讀

    模態(tài)圖像合成與編輯方法

    本篇綜述通過對(duì)現(xiàn)有的模態(tài)圖像合成與編輯方法的歸納總結(jié),對(duì)該領(lǐng)域目前的挑戰(zhàn)和未來方向進(jìn)行了探討和分析。
    的頭像 發(fā)表于 08-23 09:12 ?1325次閱讀

    圖像對(duì)齊所有模態(tài),Meta開源感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

    最近,很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的
    的頭像 發(fā)表于 05-26 15:45 ?924次閱讀
    用<b class='flag-5'>圖像</b>對(duì)齊所有<b class='flag-5'>模態(tài)</b>,Meta開源<b class='flag-5'>多</b>感官AI基礎(chǔ)<b class='flag-5'>模型</b>,實(shí)現(xiàn)大一統(tǒng)

    VisCPM:邁向多語(yǔ)言模態(tài)模型時(shí)代

    可以大致分為兩類: 1. 在圖生文(image-to-text generation)方面,以 GPT-4 為代表的模態(tài)模型,可以面向圖像進(jìn)行
    的頭像 發(fā)表于 07-10 10:05 ?754次閱讀
    VisCPM:邁向多語(yǔ)言<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時(shí)代

    模態(tài)模型最全綜述來了!

    其中最后一個(gè)表示監(jiān)督信號(hào)是從圖像本身中挖掘出來的,流行的方法包括對(duì)比學(xué)習(xí)、非對(duì)比學(xué)習(xí)和masked image建模。在這些方法之外,文章也進(jìn)一步討論了
    的頭像 發(fā)表于 09-26 16:42 ?2536次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>最全綜述來了!

    模型+模態(tài)的3種實(shí)現(xiàn)方法

    我們知道,預(yù)訓(xùn)練LLM已經(jīng)取得了諸多驚人的成就, 然而其明顯的劣勢(shì)是不支持其他模態(tài)(包括圖像、語(yǔ)音、視頻模態(tài))的輸入和輸出,那么如何在預(yù)訓(xùn)練LLM的基礎(chǔ)上引入跨模態(tài)的信息,讓其變得更強(qiáng)
    的頭像 發(fā)表于 12-13 13:55 ?1834次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實(shí)現(xiàn)<b class='flag-5'>方法</b>

    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)首個(gè)面向金融行業(yè)的模態(tài)全棧式大模型

    4月23日,商湯科技正式推出“日日新SenseNova 5.0”大模型體系,并與海通證券聯(lián)合發(fā)布業(yè)內(nèi)首個(gè)面向金融行業(yè)的模態(tài)全棧式大模型。
    的頭像 發(fā)表于 04-26 09:48 ?512次閱讀
    商湯科技聯(lián)合海通證券發(fā)布業(yè)內(nèi)<b class='flag-5'>首個(gè)</b>面向金融行業(yè)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>全棧式大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同
    的頭像 發(fā)表于 10-18 09:39 ?566次閱讀