作者:一杯紅茶?
首先,視覺定位指估計拍攝一幅圖像時相機(jī)的位姿,這可以是六自由度、三自由度或者兩自由度的位姿,要想獲得準(zhǔn)確的位姿估計結(jié)果,一般都需要一個地圖先驗,發(fā)展研究至今,出現(xiàn)了許許多多的地圖形式,這包括傳統(tǒng)的點(diǎn)云地圖(稀疏/稠密)、壓縮后的點(diǎn)云地圖、Mesh地圖、CAD地圖、線地圖、神經(jīng)網(wǎng)絡(luò)隱式表征的地圖、平面圖、無地圖等等各種形式地圖,所以最近一直在思考什么樣的地圖形式對于視覺定位來說才是最好的最優(yōu)的呢?
地圖分類:
我自己根據(jù)我所讀到的視覺定位相關(guān)的文章,對所用到的各種地圖形式整理在如下表格中,可能有所不全,歡迎補(bǔ)充。
對各種地圖形式的分析:
點(diǎn)云地圖:
首先是點(diǎn)云地圖,這是目前視覺定位中最常見的一種地圖形式,一般由SFM或者SLAM生成構(gòu)造。
優(yōu)點(diǎn)是:發(fā)展起步很早,各種相關(guān)算法都比較成熟,比如點(diǎn)的特征提取、匹配、對極幾何、三角化、BA、PNP等等;所以以此為基礎(chǔ)的視覺定位算法精度、魯棒性都很高。
缺點(diǎn)是:由于點(diǎn)云地圖中三維點(diǎn)數(shù)量龐大,其實相對于視覺定位任務(wù)來說是冗余的,所以其地圖的存儲消耗比較大,計算效率往往不高,這限制了在移動端的應(yīng)用部署。
相關(guān)算法參考文獻(xiàn)如下:
(1)Sattler?T,?Leibe?B,?Kobbelt?L.?Efficient?&?effective?prioritized?matching?for?large-scale?image-based?localization[J].?IEEE?transactions?on?pattern?analysis?and?machine?intelligence,?2016,?39(9):?1744-1756. (2)Sv?rm?L,?Enqvist?O,?Kahl?F,?et?al.?City-scale?localization?for?cameras?with?known?vertical?direction[J].?IEEE?transactions?on?pattern?analysis?and?machine?intelligence,?2016,?39(7):?1455-1461. (3)Dusmanu?M,?Miksik?O,?Sch?nberger?J?L,?et?al.?Cross-descriptor?visual?localization?and?mapping[C]//Proceedings?of?the?IEEE/CVF?International?Conference?on?Computer?Vision.?2021:?6058-6067. (4)Liu?L,?Li?H,?Dai?Y.?Efficient?global?2d-3d?matching?for?camera?localization?in?a?large-scale?3d?map[C]//Proceedings?of?the?IEEE?International?Conference?on?Computer?Vision.?2017:?2372-2381. (5)Sattler?T,?Leibe?B,?Kobbelt?L.?Improving?image-based?localization?by?active?correspondence?search[C]//Computer?Vision–ECCV?2012:?12th?European?Conference?on?Computer?Vision,?Florence,?Italy,?October?7-13,?2012,?Proceedings,?Part?I?12.?Springer?Berlin?Heidelberg,?2012:?752-765. (6)Taira?H,?Okutomi?M,?Sattler?T,?et?al.?InLoc:?Indoor?visual?localization?with?dense?matching?and?view?synthesis[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?2018:?7199-7209. (7)Camposeco?F,?Sattler?T,?Cohen?A,?et?al.?Toroidal?constraints?for?two-point?localization?under?high?outlier?ratios[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?2017:?4545-4553. (8)Geppert?M,?Larsson?V,?Speciale?P,?et?al.?Privacy?preserving?localization?and?mapping?from?uncalibrated?cameras[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2021:?1809-1819. (9)Yu?H,?Feng?Y,?Ye?W,?et?al.?Improving?Feature-based?Visual?Localization?by?Geometry-Aided?Matching[J].?arXiv?preprint?arXiv:2211.08712,?2022.
壓縮后的點(diǎn)云地圖:
由于點(diǎn)云地圖存在的限制,基于壓縮后的點(diǎn)云地圖進(jìn)行定位的算法被廣泛研究,這類地圖的最終目標(biāo)就是為定位服務(wù),即在最大限度壓縮點(diǎn)云的同時精度不至于損失太多。
優(yōu)點(diǎn)是:確實可以很大程度降低地圖的內(nèi)存大小
缺點(diǎn)是:定位精度往往與壓縮量成負(fù)相關(guān),很自然,越大的壓縮量意味著越低的定位精度。從根本上說并沒有擺脫點(diǎn)云地圖的缺陷。
相關(guān)算法參考文獻(xiàn)如下:
(1)Mera-Trujillo?M,?Smith?B,?Fragoso?V.?Efficient?scene?compression?for?visual-based?localization[C]//2020?International?Conference?on?3D?Vision?(3DV).?IEEE,?2020:?1-10. (2)Camposeco?F,?Cohen?A,?Pollefeys?M,?et?al.?Hybrid?scene?compression?for?visual?localization[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2019:?7653-7662. (3)Yang?L,?Shrestha?R,?Li?W,?et?al.?Scenesqueezer:?Learning?to?compress?scene?for?camera?relocalization[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2022:?8259-8268.
線地圖:
通過提取圖像中的線段構(gòu)建3D線地圖來執(zhí)行后續(xù)的定位,主要針對點(diǎn)云地圖存在的限制提出。線段在某些方面相比于點(diǎn)有諸多好處,比如在光照、環(huán)境變換下線段仍可以穩(wěn)定檢測到,其次線段固有的方向及其空間結(jié)構(gòu)信息對定位來說如果利用得當(dāng)會很有幫助,此外,線地圖中3D線段相比于點(diǎn)云地圖來說會更少,所占用的內(nèi)存空間更低。
優(yōu)點(diǎn)是:輕量緊湊,富含空間中場景結(jié)構(gòu)化信息。
缺點(diǎn)是:只能在人造環(huán)境,即建筑物線條豐富的地方執(zhí)行,目前來看,其精度相比點(diǎn)云地圖有待提高。
相關(guān)算法參考文獻(xiàn)如下:
Micusik?B,?Wildenauer?H.?Descriptor?free?visual?indoor?localization?with?line?segments[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?2015:?3165-3173. Yoon?S,?Kim?A.?Line?as?a?visual?sentence:?context-aware?line?descriptor?for?visual?localization[J].?IEEE?Robotics?and?Automation?Letters,?2021,?6(4):?8726-8733.
平面圖:
場景的平面圖在我們?nèi)粘I钪衅鋵嵤呛艹R姷?,比如我們在逛商場時或者瀏覽某個景點(diǎn)時,在入口處都可以看到關(guān)于這個場景的二維的平面圖。
優(yōu)點(diǎn)是:地圖足夠抽象,所以往往很輕很小,而且容易獲得。
缺點(diǎn)是:由于信息不夠豐富,定位精度往往不高。
相關(guān)算法參考文獻(xiàn)如下:LaLaLoc:?Latent?Layout?Localisation?in?Dynamic,?Unvisited?Environments(ICCV?2021)
神經(jīng)網(wǎng)絡(luò)隱式表征的地圖:
此類指代基于深度學(xué)習(xí)的視覺定位算法,比如通過網(wǎng)絡(luò)直接回歸查詢圖像的相機(jī)姿態(tài)信息或者通過網(wǎng)絡(luò)密集預(yù)測查詢圖像像素的3D坐標(biāo),然后放在RANSAC-PNP loop中估計相機(jī)姿態(tài)。
優(yōu)點(diǎn)是:通過網(wǎng)絡(luò)隱式表征場景三維結(jié)構(gòu),省去了顯式構(gòu)建場景地圖的開銷。
缺點(diǎn)是:需要較高的硬件資源和大量的數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)泛化問題,精度相比于點(diǎn)云地圖還有差距。
相關(guān)算法參考文獻(xiàn)如下:
Kendall?A,?Grimes?M,?Cipolla?R.?Posenet:?A?convolutional?network?for?real-time?6-dof?camera?relocalization[C]//Proceedings?of?the?IEEE?international?conference?on?computer?vision.?2015:?2938-2946. Brachmann?E,?Rother?C.?Expert?sample?consensus?applied?to?camera?re-localization[C]//Proceedings?of?the?IEEE/CVF?International?Conference?on?Computer?Vision.?2019:?7525-7534. Brachmann?E,?Krull?A,?Nowozin?S,?et?al.?Dsac-differentiable?ransac?for?camera?localization[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?2017:?6684-6692. Huang?Z,?Zhou?H,?Li?Y,?et?al.?Vs-net:?Voting?with?segmentation?for?visual?localization[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2021:?6101-6111. Von?Stumberg?L,?Wenzel?P,?Yang?N,?et?al.?LM-Reloc:?Levenberg-Marquardt?based?direct?visual?relocalization[C]//2020?International?Conference?on?3D?Vision?(3DV).?IEEE,?2020:?968-977.
高精地圖:
這類地圖多用在汽車上,多在自動駕駛場景中見到。
優(yōu)點(diǎn)是:因為偏向于商業(yè)應(yīng)用,定位精度一般很高。
缺點(diǎn)是:制作地圖的成本很高,一般多由大公司搞了。
相關(guān)算法參考文獻(xiàn)如下:
Qin?T,?Chen?T,?Chen?Y,?et?al.?Avp-slam:?Semantic?visual?mapping?and?localization?for?autonomous?vehicles?in?the?parking?lot[C]//2020?IEEE/RSJ?International?Conference?on?Intelligent?Robots?and?Systems?(IROS).?IEEE,?2020:?5939-5945. Jeong?J,?Cho?Y,?Kim?A.?Hdmi-loc:?Exploiting?high?definition?map?image?for?precise?localization?via?bitwise?particle?filter[J].?IEEE?Robotics?and?Automation?Letters,?2020,?5(4):?6310-6317. Guo?X,?Hu?J,?Chen?J,?et?al.?Semantic?histogram?based?graph?matching?for?real-time?multi-robot?global?localization?in?large?scale?environment[J].?IEEE?Robotics?and?Automation?Letters,?2021,?6(4):?8349-8356. Zhang?C,?Liu?H,?Xie?Z,?et?al.?AVP-Loc:?Surround?view?localization?and?relocalization?based?on?HD?vector?map?for?automated?valet?parking[C]//2021?IEEE/RSJ?International?Conference?on?Intelligent?Robots?and?Systems?(IROS).?IEEE,?2021:?5552-5559.
2D導(dǎo)航地圖:
這種地圖就是我們平時導(dǎo)航用的地圖,比如百度地圖、高德地圖這些。
優(yōu)點(diǎn)是:因為其地圖也足夠抽象,其地圖內(nèi)存占用也很小,而且這種地圖形式更符合我們直觀上的理解。
缺點(diǎn)是:估計的自由度不高,一般為兩自由度。精度也有待提升。
相關(guān)算法參考文獻(xiàn)如下:
Sarlin?P?E,?DeTone?D,?Yang?T?Y,?et?al.?OrienterNet:?Visual?Localization?in?2D?Public?Maps?with?Neural?Matching[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2023:?21632-21642.
總結(jié)
根據(jù)以上的分類,用于視覺定位的地圖形式多種多樣,到底哪一種最優(yōu),或者還有其他新穎的地圖形式可以被使用?
我個人認(rèn)為:用于視覺定位的地圖不用像點(diǎn)云地圖那樣冗余,即當(dāng)?shù)貓D足夠抽象,而且對時間變化、環(huán)境變換又具有魯棒性,同時地圖中保留了足夠的幾何和語義信息可以與場景產(chǎn)生高質(zhì)量的對應(yīng)關(guān)系時,這種地圖對于視覺定位來說是最有用的。而且目前視覺定位很多是應(yīng)用在移動機(jī)器人、汽車、消費(fèi)電子產(chǎn)品上,這類應(yīng)用更多注重算法的效率、地圖的輕量、魯棒性、實用性、泛化性這些。
而且,從目前頂會頂刊視覺定位相關(guān)的研究論文來看,大方向也是朝著這方面發(fā)展,即研究基于新穎地圖的視覺定位算法以適應(yīng)各種生產(chǎn)生活需要。
審核編輯:黃飛
?
評論