最新SOTA!隱式學(xué)習(xí)場景幾何信息進行全局定位
1. 論文淺談
全局視覺定位是指利用單張圖像,根據(jù)已有的地圖,估計相機的絕對姿態(tài)(位置和方向)。這種技術(shù)可以應(yīng)用于機器人和增強/虛擬現(xiàn)實等領(lǐng)域。這篇文章的主要貢獻是提出了一種利用姿態(tài)標(biāo)簽來學(xué)習(xí)場景的三維幾何信息,并利用幾何信息來估計相機姿態(tài)的方法。具體來說,作者設(shè)計了一個學(xué)習(xí)模型,它可以從圖像中預(yù)測兩種三維幾何表示(X, Y, Z坐標(biāo)),一種是相機坐標(biāo)系下的,另一種是全局坐標(biāo)系下的。然后,通過將這兩種表示進行剛性對齊,就可以得到與姿態(tài)標(biāo)簽匹配的姿態(tài)估計。這種方法還可以引入額外的學(xué)習(xí)約束,比如最小化兩種三維表示之間的對齊誤差,以及全局三維表示和圖像像素之間的重投影誤差,從而提高定位精度。在推理階段,模型可以實時地從單張圖像中估計出場景的三維幾何信息,并通過對齊得到姿態(tài)。作者在三個常用的視覺定位數(shù)據(jù)集上進行了實驗,進行了消融分析,并證明了他們的方法在所有數(shù)據(jù)集上都超過了現(xiàn)有的回歸方法的姿態(tài)精度,并且可以實時地從單張圖像中估計出場景的三維幾何信息,并通過對齊得到姿態(tài)。
圖1:我們在劍橋地標(biāo)數(shù)據(jù)集(醫(yī)院場景)的樣本上的視覺定位方案的示意圖。我們的方法只需要一組圖像及其對應(yīng)的姿態(tài)作為訓(xùn)練的標(biāo)簽。左側(cè):給定單個圖像,我們的方法估計相機在給定場景中的全局姿態(tài)。右側(cè):我們展示了我們方案的中間輸出,這些輸出用于估計姿態(tài)。對于輸入圖像,所提出的過程估計兩個點云和一組權(quán)重。第一個點云表示相機坐標(biāo)系中的場景幾何(X,Y,Z 坐標(biāo)),而第二個點云表示全局坐標(biāo)系中的場景幾何。這兩個點云及預(yù)測的權(quán)重用于估計相機的全局姿態(tài)。在圖 1 的右側(cè),我們可視化了三個樣本輸入圖像,它們相應(yīng)的間接估計的 場景表示(點云)和權(quán)重。在右上方,我們可以看到只有一個 點云,它對應(yīng)于三個重疊的點云在全局坐標(biāo)系中,也是由我們的算法估計的。盡管我們的方法隱式地估計場景在局部和全局參考系中的 點云表示,但它不是一個建圖或 重建算法,而是一個定位算法,隱式地學(xué)習(xí)和使用 場景幾何。
2. 原文摘要
全局視覺定位是在先前建模的區(qū)域中,從單個圖像估計相機的絕對姿態(tài)。從單個圖像獲得姿態(tài)對于許多機器人和增強/虛擬現(xiàn)實應(yīng)用具有重要意義。近年來,深度學(xué)習(xí)在計算機視覺領(lǐng)域取得了顯著的進展,促進了許多方法的發(fā)展,這些方法直接從輸入圖像中回歸出 自由度姿態(tài)。然而,這些方法忽略了基礎(chǔ)場景幾何對于姿態(tài)回歸的重要作用。單目重定位面臨的一個主要困難是,可用于監(jiān)督訓(xùn)練的數(shù)據(jù)非常稀少,只有圖像對應(yīng)的 自由度姿態(tài)。為了解決這個問題,我們提出了一種新穎的方法,它能夠利用這些極少的可用標(biāo)簽(即姿態(tài))來學(xué)習(xí)場景的 幾何,并利用幾何信息來估計相機的 自由度姿態(tài)。我們提出了一種基于學(xué)習(xí)的方法,它利用這些姿態(tài)標(biāo)簽和剛性配準來學(xué)習(xí)兩個 場景幾何表示,分別是相機坐標(biāo)系下的(X,Y,Z)坐標(biāo)和全局坐標(biāo)系下的(X,Y,Z)坐標(biāo)。給定單個圖像,我們的方法可以估計出這兩個 場景表示,然后通過將它們配準來估計出與姿態(tài)標(biāo)簽一致的姿態(tài)。這種表達方式使我們能夠引入額外的學(xué)習(xí)約束,以最小化兩個 場景表示之間的 配準誤差和全局 場景表示與 圖像像素之間的 重投影誤差,從而提高定位精度。在推理階段,我們的模型可以估計出相機和全局坐標(biāo)系下的 場景幾何,并通過剛性配準它們來實時地獲得姿態(tài)。我們在三個公開的視覺定位數(shù)據(jù)集上評估了我們的方法,進行了消融實驗,并展示了我們的方法在所有數(shù)據(jù)集上都優(yōu)于現(xiàn)有的姿態(tài)回歸方法的姿態(tài)精度。
3. 方法詳解
圖2:我們的方法的流程圖。
我們的方法使用全局相機姿態(tài) 作為輸入圖像 的監(jiān)督標(biāo)簽,來訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò),以學(xué)習(xí)場景的表示。
為此,我們將定位過程定義為獲取一張圖像作為輸入,生成兩組 點,每組在不同的坐標(biāo)系統(tǒng)中。第一組是全局參考系中的一組 坐標(biāo) 。這些是由網(wǎng)絡(luò)直接預(yù)測的。第二組是相機坐標(biāo)系中的一組 坐標(biāo) 。對于后者,網(wǎng)絡(luò)預(yù)測深度,然后使用內(nèi)參通過方程(6)進行反向投影以獲得相機坐標(biāo)系中的 坐標(biāo)。通過圖像像素坐標(biāo),這兩個 點云內(nèi)在匹配。
使用剛性配準,可以通過對齊兩個點云來估計姿態(tài) 。為此,我們利用 Kabsch 算法。它是可微的,無參數(shù)的,并以閉式解的形式在單步中獲得解決方案。這使得過程端到端可訓(xùn)練。
為了考慮預(yù)測的不完美性,網(wǎng)絡(luò)預(yù)測一組權(quán)重 ,用于評估每個 對應(yīng)點對剛性配準的貢獻大小。給定這樣的對應(yīng)關(guān)系,然后應(yīng)用加權(quán) Kabsch 算法來估計從相機坐標(biāo)系統(tǒng)到全局坐標(biāo)系統(tǒng)的相對姿態(tài)。給定 個 坐標(biāo),該加權(quán)最小化目標(biāo)定義為:
,(1)
可以描述為:平移 通過居中兩個點云來消除姿態(tài)的平移部分:。
然后通過奇異值分解(SVD)恢復(fù)旋轉(zhuǎn) 和平移 :。
我們應(yīng)用姿態(tài)損失以引導(dǎo)剛性配準,以使網(wǎng)絡(luò)學(xué)習(xí) 幾何表示。給定地面真實姿態(tài) ,由旋轉(zhuǎn) 和平移 組件組成,可以定義一個成本函數(shù)來最小化估計分量和地面真實分量之間的差異。我們將損失定義為位置損失和旋轉(zhuǎn)損失的總和:,(2)其中,,(3)
定義了計算出的平移 與實際平移 之間的位置誤差,且(4)
度量計算出的旋轉(zhuǎn) 與地面真實旋轉(zhuǎn) 之間的角度誤差。
通過梯度下降預(yù)測的姿態(tài)被調(diào)整,在訓(xùn)練過程中,由姿態(tài)損失方程(2)引導(dǎo),以匹配地面真實姿態(tài),從而間接調(diào)整兩個幾何表示(3D 云)。所提出的表達方式允許包含額外的約束,這些約束可主動指導(dǎo)從姿態(tài)進行隱含 3D 幾何表示的優(yōu)化。因此,我們引入一致性損失來約束幾何預(yù)測根據(jù)地面真實姿態(tài)對齊。我們首先使用地面真實姿態(tài)將相機坐標(biāo)系中的 3D 點轉(zhuǎn)換到全局坐標(biāo)系中。一致性損失測量全局坐標(biāo)系中的 3D 點 與從相機坐標(biāo)系轉(zhuǎn)換的 3D 點 之間的誤差,使用地面真實姿態(tài),我們將其稱為一致性損失。我們將其定義為:
,(5)
而不是直接預(yù)測 坐標(biāo),我們可以調(diào)整網(wǎng)絡(luò)以預(yù)測深度。給定深度,其形成相機透視圖中的 Z 坐標(biāo),給定相機內(nèi)參,X 和 Y 直接從圖像像素和深度獲得。因此,相機坐標(biāo)系中的 3D 點 是通過根據(jù)方程(6)反投影深度獲得的:
,(6)
其中 、、 和 分別表示同質(zhì)像素坐標(biāo)、相機內(nèi)參矩陣、深度和相應(yīng)的相機坐標(biāo)系中的點。
此外,通過利用重投影損失來最小化重新投影全局坐標(biāo)系中的 3D 坐標(biāo)與圖像框架中的 2D 圖像像素之間的誤差,以進一步約束全局坐標(biāo)中的 3D 坐標(biāo)。其定義為:
,(7)
其中 將點從 3D 全局坐標(biāo)系投影到圖像坐標(biāo)系中。
利用姿態(tài)標(biāo)簽和定義的表達方式,我們的方法隱式學(xué)習(xí)場景的幾何表示。在推理時給定圖像,所提出的方法估計場景的幾何并將其用于姿態(tài)計算。
然后總損失是姿態(tài)損失、重投影損失和一致性損失的加權(quán)組合:
,(8)
其中 、 和 是損失加權(quán)因子。
4. 實驗結(jié)果
本文在三個常用的視覺定位數(shù)據(jù)集上進行了實驗,分別是劍橋地標(biāo)數(shù)據(jù)集,7場景數(shù)據(jù)集和12場景數(shù)據(jù)集。這些數(shù)據(jù)集包含了不同的場景,如室內(nèi)、室外、動態(tài)、靜態(tài)等,以及不同的姿態(tài)變化,如旋轉(zhuǎn)、平移、縮放等。本文使用了兩種評價指標(biāo),分別是位置誤差和方向誤差。位置誤差是指估計的相機位置和真實位置之間的歐氏距離,方向誤差是指估計的相機方向和真實方向之間的角度差。實驗結(jié)果表明,本文的方法在所有數(shù)據(jù)集上都超過了現(xiàn)有的回歸方法的姿態(tài)精度。并且可以實時地從單張圖像中估計出場景的三維幾何信息,并通過對齊得到姿態(tài)。
表I:我們的方法和最先進的定位方法在劍橋地標(biāo)數(shù)據(jù)集和7場景數(shù)據(jù)集上的姿態(tài)誤差的比較。
表II:我們的方法在劍橋地標(biāo)數(shù)據(jù)集、7場景數(shù)據(jù)集和12場景數(shù)據(jù)集上的消融實驗結(jié)果。
表III:不同的過濾方法對我們的方法的姿態(tài)精度的影響。
圖3:在7Scenes數(shù)據(jù)集上的預(yù)測結(jié)果的可視化示例。
5. 結(jié)論
我們提出了一種新穎的方法,它可以從單個 RGB 圖像進行全局 6 自由度姿態(tài)估計。我們的方法與大多數(shù)現(xiàn)有的姿態(tài)回歸方法有相同的約束條件,即:從一組圖像姿態(tài)對進行訓(xùn)練,從單個圖像估計姿態(tài),僅保存網(wǎng)絡(luò)權(quán)重,并在實時內(nèi)輸出姿態(tài)。然而,我們的方法能夠獲得更準確的姿態(tài)估計,這是因為我們將幾何信息納入了姿態(tài)估計過程中。要實現(xiàn)這一點,我們面臨的挑戰(zhàn)是,如何利用僅給出的標(biāo)簽(姿態(tài))來學(xué)習(xí)這種幾何,以及如何在實時內(nèi)利用幾何來估計姿態(tài)。
我們方法的主要創(chuàng)新之處在于,我們使用姿態(tài)目標(biāo)來指導(dǎo)深度神經(jīng)網(wǎng)絡(luò),通過可微分的剛性配準,學(xué)習(xí)場景幾何,而不需要在訓(xùn)練時提供這種幾何的顯式地面真值。我們的方法接收單個圖像作為輸入,并僅使用姿態(tài)標(biāo)簽來隱式地學(xué)習(xí)場景的幾何表示。這些隱式學(xué)習(xí)的幾何表示是場景在兩個參考系(全局坐標(biāo)系和相機坐標(biāo)系)下的三維坐標(biāo)(X,Y,Z 坐標(biāo))。
我們使用無參數(shù)和可微分的剛性配準,通過深度神經(jīng)網(wǎng)絡(luò)傳遞梯度,以調(diào)整其權(quán)重并持續(xù)地學(xué)習(xí)這些表示,而不需要這些量的顯式地面真值標(biāo)簽。除了姿態(tài)損失之外,我們方法的另一個創(chuàng)新之處在于,它允許引入額外的學(xué)習(xí)損失,而這在僅進行姿態(tài)回歸的定位過程中是不可行的。我們引入了一致性損失,使兩個幾何表示與幾何姿態(tài)保持一致,并引入了重投影損失,以將全局坐標(biāo)下的三維坐標(biāo)約束到二維圖像像素上。通過大量的實驗,我們展示了我們的方法在定位精度上優(yōu)于當(dāng)前最先進的回歸方法,并且可以實時運行。
最后,我們展示了我們的方法可以利用部分標(biāo)簽(僅位置標(biāo)簽)來對預(yù)訓(xùn)練模型進行微調(diào),從而改善定位和定向的性能。在未來的工作中,我們希望利用基礎(chǔ)模型生成的嵌入,并將其集成到我們學(xué)習(xí)的三維表示中,以利用場景語義進行更精確的姿態(tài)估計。
審核編輯:黃飛
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4781瀏覽量
101215 -
視覺定位
+關(guān)注
關(guān)注
5文章
53瀏覽量
12436
原文標(biāo)題:最新SOTA!隱式學(xué)習(xí)場景幾何信息進行全局定位
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于labview機器視覺的圖像定位
想設(shè)計炫酷的移動機器人?視覺定位設(shè)計方案分享給你!
LabVIEW 的Tripod 機器人視覺處理和定位研究
嵌入式軟件新途徑是什么
幾何校正自動化中的相機自動定位方法
實現(xiàn)汽車內(nèi)部照明的新途徑
中國平板顯示產(chǎn)業(yè)發(fā)展新途徑
如何使用結(jié)合全局信息進行局部圖像灰度擬合模型
![如何使用結(jié)合<b class='flag-5'>全局</b><b class='flag-5'>信息</b>進行局部<b class='flag-5'>圖像</b>灰度擬合模型](https://file.elecfans.com/web1/M00/7E/DE/o4YBAFwgkVuATtWVAAC-vP-j9XA480.png)
VPLC系列視覺運控一體機實現(xiàn)圖像的幾何變換
![VPLC系列<b class='flag-5'>視覺</b>運控一體機<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>圖像</b>的<b class='flag-5'>幾何</b>變換](https://file.elecfans.com/web2/M00/30/C9/pYYBAGIMeOSAUNkjAAE19gYQCjM869.png)
基于單張RGB圖像定位被遮擋行人設(shè)計案例
![基于<b class='flag-5'>單張</b>RGB<b class='flag-5'>圖像</b><b class='flag-5'>定位</b>被遮擋行人設(shè)計案例](https://file1.elecfans.com/web2/M00/A2/19/wKgZomT6eWKAVMtvAAFhd0ERKJ4805.jpg)
評論