介紹一下我們最新開源的工作:FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators. 給定部分重疊的圖像和點云,F(xiàn)reeReg能夠估計可靠的像素-三維點同名關(guān)系并解算圖像-點云相對位姿關(guān)系。值得注意的是,F(xiàn)reeReg不需要任何訓(xùn)練/微調(diào)!
基于FreeReg估計的準確的同名關(guān)系,我們可以把圖像patch投影到點云的對應(yīng)位置:
主頁:https://whu-usi3dv.github.io/FreeReg/
代碼:github.com/WHU-USI3DV/FreeReg
論文:https://arxiv.org/abs/2310.03420
太長不看(TL,DR):
區(qū)別于現(xiàn)有方法利用Metric Learning直接學(xué)習(xí)跨模態(tài)(圖像和點云)一直特征,F(xiàn)reeReg提出首先進行基于預(yù)訓(xùn)練大模型的模態(tài)對齊,隨后進行同模態(tài)同名估計:
-
Diffusion大模型實現(xiàn)點云到圖像模態(tài)的統(tǒng)一并構(gòu)建跨模態(tài)數(shù)據(jù)的粗粒度魯棒語義特征,
-
單目深度估計大模型實現(xiàn)圖像到點云模態(tài)的統(tǒng)一并刻畫跨模態(tài)數(shù)據(jù)的細粒度顯著幾何特征,
-
FreeReg通過融合兩種特征,無需任何針對圖像-點云配準任務(wù)的訓(xùn)練,實現(xiàn)室內(nèi)外圖像-點云配準SoTA表現(xiàn)。
任務(wù)概述:圖像-點云(Image-to-point cloud, I2P)配準
![fbcd02aa-7632-11ee-939d-92fbcf53809c.jpg](https://file1.elecfans.com/web2/M00/AC/EB/wKgZomU-IreAP7eeAADsOkmPu84050.jpg)
-
輸入:部分重疊的圖像和點云
-
輸出:圖像相機相對于點云的位置姿態(tài)
-
典型框架:
-
Step I (關(guān)鍵) : 構(gòu)建圖像-點云跨模態(tài)一致特征
-
Step II: 基于特征一致性的 pixel(from 圖像)-point(from 點云) 同名估計
-
Step III: 基于所構(gòu)建同名匹配的相對姿態(tài)估計 (PnP+RANSAC)
-
-
現(xiàn)有方法往往是:用一個2D特征提取網(wǎng)絡(luò)提取圖像特征;用一個3D特征提取網(wǎng)絡(luò)提取點云特征;然后根據(jù)pixel-to-point對應(yīng)關(guān)系真值通過Metric Learning (Triplet/Batch hard/Circle loss/InfoCE...)的方式訓(xùn)練網(wǎng)絡(luò)去提取跨模態(tài)一致的特征,這存在幾個問題:
-
圖像和點云存在故有的模態(tài)差異:圖像-紋理、點云-幾何,這給網(wǎng)絡(luò)可靠收斂帶來了困難,而影響特征的魯棒性(Wang et al, 2021);
-
需要長時間的訓(xùn)練 (Pham,2020);
-
場景間泛化能力弱 (Li,2023)。
-
FreeReg:
-
通過預(yù)訓(xùn)練大模型實現(xiàn)模態(tài)對齊,消除模態(tài)差異,顯著提升特征魯棒性;
-
不需要任何針對I2P配準任務(wù)的訓(xùn)練/微調(diào);
-
能夠處理室內(nèi)外等多類型場景。
FreeReg pipeline:
![fbdb41bc-7632-11ee-939d-92fbcf53809c.jpg](https://file1.elecfans.com/web2/M00/AC/EB/wKgZomU-IreALXa3AAEKEszlqSo358.jpg)
Section I: FreeReg-D
在這一部分,我們首先利用Diffusion大模型將點云對齊到圖像模態(tài),然后基于圖像模態(tài)下的特征進行同名估計。Naive Solution:利用現(xiàn)在圖像生成大殺器的ControlNet (Zhang et al, 2023; depth-to-image diffusion model)實現(xiàn)從點云(深度圖)中渲染出一個圖像,然后和query圖像做match不就行了?不行!如下圖,一個depth map可能對應(yīng)各種各樣的RGB圖像,ControlNet基于點云渲染出來的圖像合理,但是和query input image差異忒大,match不起來。
![fbea54e0-7632-11ee-939d-92fbcf53809c.jpg](https://file1.elecfans.com/web2/M00/AC/EB/wKgZomU-IreAfTtKAAE84Wg7uLo858.jpg)
但是,我們注意到,ControlNet雖然生成的紋理和query差異很大,但是語義很正確而且和query RGB是對應(yīng)的,那么我們怎么提取這種跨模態(tài)一致的語義特征呢?受到相關(guān)研究的啟發(fā)(Mingi et al, 2022)一種基于Diffusion大模型的多模特Diffusion Feature
-
RGB image diffusion feature:預(yù)訓(xùn)練圖像生成大模型Stable Diffusion (SD,Dhariwal et al,2022)能夠通過迭代T步去噪的方式從純噪聲生成一張符合某種text-prompt(包含一些代表語義的名詞)的圖像,證明它能認識、區(qū)分和表征這些語義。而我們就把圖像加上一些噪聲讓SD去處理,然后看看哪些SD深層特征具有語義性。
-
Depth diffusion feature:我們用預(yù)訓(xùn)練的ControlNet處理來自點云投影的深度圖,并基于其引導(dǎo)SD的圖像生成(迭代去噪)過程使生成的圖像符合深度圖,當去噪到某種程度時候我們把SD的中間層特征拿出來,看看哪些特征保證了生成圖像不僅符合深度圖而且語義性也是對的。
-
如上圖的c,我們發(fā)現(xiàn),SD的0-6層輸出特征具有可靠的語義性和跨模態(tài)一致性!后面的特征才關(guān)注紋理。所以我們之用0-6層的特征(我們最終選擇concate0,4,6層的特征)作為我們的語義特征就好了,叫做Diffusion Feature!
Section II: FreeReg-G
在這一部分,我們利預(yù)訓(xùn)練的單目深度估計網(wǎng)絡(luò)Zoe-Depth (Bhat et al, 2023)去恢復(fù)input RGB的深度,并將其恢復(fù)到3D點云分布,然后對RGB恢復(fù)的點云和input點云分別提取幾何特征(Geometric feature, Choy et al, 2019)用于match。此外,由于match得到的同名關(guān)系存在于點云空間,我們的變換估計可以采用Kabsch算法而非PnP方法,Kabsch利用Zoe-depth預(yù)測深度的約束可以僅使用3對同名關(guān)系就實現(xiàn)變換解算,更高效、更可靠,但是受到Zoe的影響不太精準(具體可以間我們的原文)。
Section III: FreeReg = FreeReg-D + FreeReg-G
在這一部分,我們?nèi)诤锨懊嬖诓煌B(tài)空間中提取的Diffusion Feature和Geometric Feature,作為我們最終的跨模特特征。如下圖所示:
![fc0a6c1c-7632-11ee-939d-92fbcf53809c.jpg](https://file1.elecfans.com/web2/M00/AC/EB/wKgZomU-IreAO_ZHAAFAG6ErgFw472.jpg)
-
Diffusion Feature具有很強的語義相關(guān)性和跨模特一致的可靠性,但是因為語義信息關(guān)聯(lián)自圖像的比較大的區(qū)域,這種大感受野使得基于特征相似性和雙向最近鄰篩選得到的pixel-to-point同名對準確但是稀疏。
-
Geometric Feature能夠關(guān)注幾何細節(jié)構(gòu)建更加dense的pixel-to-point correspondences,但是很容易受到zoe-depth預(yù)測誤差和噪聲的影響,導(dǎo)致得到的pixel-to-point同名對存在大量的outliers。
-
通過Fuse兩種特征(L2 normalization + weighted concatenate, Zhang et al, 2023),F(xiàn)reeReg特征兼具語義可靠性和幾何顯著性,得到了更加可靠且dense的pixel-to-point correspondences!
實驗結(jié)果:
定性評價:得益于大模型模態(tài)對齊,F(xiàn)reeReg-D/G在沒有任何訓(xùn)練和微調(diào)的情況下,就在室內(nèi)外三個數(shù)據(jù)集上取得了SoTA表現(xiàn),而FreeReg進一步提升算法表現(xiàn),取得了平均20%的內(nèi)點比例提升和48.6%的配準成功率提升!
![fc2d10f0-7632-11ee-939d-92fbcf53809c.jpg](https://file1.elecfans.com/web2/M00/AC/EB/wKgZomU-IreASkJwAAEQQgAQuSw128.jpg)
定量評價:
![fc420f50-7632-11ee-939d-92fbcf53809c.jpg](https://file1.elecfans.com/web2/M00/AC/EB/wKgZomU-IriAMtbPAAKsQq4ewPQ855.jpg)
更多的結(jié)果:實現(xiàn)細節(jié)、消融實驗、精度評價、同模態(tài)配準表現(xiàn)(也是SoTA?。?、和同期工作的比較(FreeReg更優(yōu))、尚存問題請見我們的論文!
-
圖像
+關(guān)注
關(guān)注
2文章
1089瀏覽量
40582 -
點云
+關(guān)注
關(guān)注
0文章
58瀏覽量
3822 -
大模型
+關(guān)注
關(guān)注
2文章
2567瀏覽量
3191
原文標題:武大&港大提出FreeReg:預(yù)訓(xùn)練擴散大模型取得點云-圖像配準SoTA!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于擴散模型的圖像生成過程
![基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程](https://file1.elecfans.com/web2/M00/8C/E2/wKgaomS0rtWABJl7AAAWIxBb_zY535.png)
如何在PyTorch中使用擴散模型生成圖像
![如何在PyTorch中使用<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>生成<b class='flag-5'>圖像</b>](https://file1.elecfans.com/web2/M00/B0/3B/wKgaomVds4SASj0xAAD9t55NJBw984.png)
【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練
基于GPU加速的醫(yī)學(xué)圖像配準技術(shù)
![基于GPU加速的醫(yī)學(xué)<b class='flag-5'>圖像</b><b class='flag-5'>配</b><b class='flag-5'>準</b>技術(shù)](https://file.elecfans.com/web2/M00/49/88/poYBAGKhwMOAU9vdAAAjJ4RKb3s068.jpg)
評論