国产精品久久免费观看勾搭,动漫精品中文字幕三区

基于視覺的自動駕駛系統(tǒng)需要基于單目攝像頭獲取的圖像，判斷當前車輛與周圍車輛、行人和障礙物的距離，距離判斷的精度對自動駕駛系統(tǒng)的安全性有著決定性的影響，商湯科技在CVPR 2018發(fā)表亮點報告（Spotlight）論文，提出基于單目圖像的深度估計算法，大幅度提升基于單目圖像深度估計的精度，進一步提升自動駕駛系統(tǒng)的安全性。該論文由商湯科技見習(xí)研究員羅越在研究院研究員任思捷指導(dǎo)下完成。本文為商湯科技CVPR 2018論文解讀第5期。

簡介

基于單目圖像的深度估計算法具有方便部署、計算成本低等優(yōu)點，受到了學(xué)術(shù)界和工業(yè)界日益增長的關(guān)注?，F(xiàn)有的單目深度估計方法通常利用單一視角的圖像數(shù)據(jù)作為輸入，直接預(yù)測圖像中每個像素對應(yīng)的深度值，這種解決方案導(dǎo)致現(xiàn)有方法通常需要大量的深度標注數(shù)據(jù)，而這類數(shù)據(jù)通常需要較高的采集成本。近年來的改進思路主要是在訓(xùn)練過程中引入隱式的幾何約束，通過幾何變換，使用一側(cè)攝像機圖像（以下稱右圖）監(jiān)督基于另一側(cè)攝像機圖像（以下稱左圖）預(yù)測的深度圖，從而減少對數(shù)據(jù)的依賴。但這類方法在測試過程中仍然缺乏顯式的幾何約束。為了解決上述問題，本文提出單視圖雙目匹配模型(Single View Stereo Matching, SVS)，該模型把單目深度估計分解為兩個子過程，視圖合成過程和雙目匹配過程，其算法框架如圖1所示。

圖1：

單視圖雙目匹配模型的示意圖

通過這樣的分解，使得提出的模型有如下兩個優(yōu)點：

極大地減少深度標注數(shù)據(jù)的依賴；

在測試階段顯式地引入幾何約束。

實驗證明，本文提出的模型僅用少量的深度標注數(shù)據(jù)就可以在KITTI數(shù)據(jù)集上超過之前的所有單目深度估計方法，并首次僅靠單目圖像數(shù)據(jù)就超過了雙目匹配算法Block Matching的深度估計精度。

SVS模型

現(xiàn)有基于深度學(xué)習(xí)的單目深度估計方法，通常把CNN作為黑盒使用，學(xué)習(xí)圖像塊至深度值的直接映射，這類方法完全依賴高級語義信息作為預(yù)測深度的依據(jù)，盡管有些方法在損失函數(shù)上引入一些特殊的約束條件，學(xué)習(xí)這樣的語義信息仍然是非常困難的。另一方面，即使這樣的映射能夠被成功訓(xùn)練，算法通常也需要大量帶深度值標簽的真實數(shù)據(jù)，而這類數(shù)據(jù)的采集成本非常高且耗時，極大的限制了這類技術(shù)的適用場景。

基于上述分析，本文方法提出了一種新穎的面向單目深度估計的算法框架，把單目深度估計分解為兩個過程，即視圖合成過程和雙目匹配過程。模型的主要設(shè)計思路在于：

把雙目深度估計模型中有效的幾何約束顯式地結(jié)合到單目深度估計模型中，提高模型的可解釋性；

減少使用難以采集的真實深度數(shù)據(jù)，從而擴大模型的適用范圍；

整個模型以端到端的的方式訓(xùn)練，從而提升深度估計準確性。

模型的視圖合成過程由視圖合成網(wǎng)絡(luò)完成，輸入一張左圖，網(wǎng)絡(luò)合成該圖像對應(yīng)的右圖；而雙目匹配過程由雙目匹配網(wǎng)絡(luò)完成，接收左圖以及合成的右圖，預(yù)測出左圖每一個像素的視差值,詳細的網(wǎng)絡(luò)結(jié)構(gòu)（如圖2所示）。

圖2：

算法網(wǎng)絡(luò)結(jié)構(gòu)圖

上半部分網(wǎng)絡(luò)對應(yīng)視圖合成網(wǎng)絡(luò)

下半部分網(wǎng)絡(luò)對應(yīng)雙目匹配網(wǎng)絡(luò)

視圖合成網(wǎng)絡(luò)：

一般情況下，左圖中的像素均可以在右圖中找到匹配的像素，因此可以首先把左圖平移多個不同像素距離，得到多張不同的圖片，再使用神經(jīng)網(wǎng)絡(luò)預(yù)測組合系數(shù)，把多張平移后的左圖和預(yù)測的系數(shù)組合得到預(yù)測的右圖。具體地，視圖合成網(wǎng)絡(luò)基于Deep3D [1] 模型，圖2 中的上半部分展示了視圖合成網(wǎng)絡(luò)的示意圖。輸入一張左圖，首先主干網(wǎng)絡(luò)對其提取不同尺度的特征，再經(jīng)過上采樣層把不同尺度的特征統(tǒng)一至同一個尺寸，然后經(jīng)過累加操作融合成輸出特征并預(yù)測出概率視差圖，最后經(jīng)過選擇模塊（selection module）結(jié)合概率視差圖以及輸入的左圖，得到預(yù)測的右圖。本文采用L1 損失函數(shù)訓(xùn)練這個網(wǎng)絡(luò)。

雙目匹配網(wǎng)絡(luò)：

雙目匹配需要把左圖像素和右圖中其對應(yīng)像素進行匹配，再由匹配的像素差算出左圖像素對應(yīng)的深度，而之前的單目深度估計方法均不能顯式引入類似的幾何約束。由于深度學(xué)習(xí)模型的引入，雙目匹配算法的性能近年來得到了極大的提升。本文的雙目匹配網(wǎng)絡(luò)基于DispNetC [2] 模型, 該模型目前在KITTI雙目匹配數(shù)據(jù)集上能夠達到理想的精度，其網(wǎng)絡(luò)如圖2的下半部分所示，左圖以及合成的右圖經(jīng)過幾個卷積層之后，得到的特征會經(jīng)過1D相關(guān)操作（correlation）。相關(guān)操作被證明在雙目匹配深度學(xué)習(xí)算法中起關(guān)鍵性的作用，基于相關(guān)操作，本文方法顯式地引入幾何約束；其得到的特征圖和左圖提取到的特征圖進行拼接作為編碼-解碼網(wǎng)絡(luò)（encoder-decoder network）的輸入，并最終預(yù)測視差圖。該網(wǎng)絡(luò)的訓(xùn)練也同樣使用L1損失函數(shù)。

實驗結(jié)果

本文在KITTI公開數(shù)據(jù)集上對提出的模型進行驗證，遵循Eigen等人[3]的實驗設(shè)置，把697張圖片作為測試圖片，其余的數(shù)據(jù)作為訓(xùn)練圖片，從定量和定性兩方面對所提出的模型進行驗證。

數(shù)值結(jié)果

表1總結(jié)了本文模型和其他現(xiàn)有方法結(jié)果的對比，可以看出，本文模型在大多數(shù)指標上均達到世界領(lǐng)先水平。其中，就ARD指標來說，提出的模型比之前最好的方法誤差減小16.8%（0.094 vs. 0.113）；表中同時也顯示，經(jīng)過端到端優(yōu)化之后，SVS模型的性能能夠進一步得到提升。

表1：

KITTI數(shù)據(jù)集上SVS模型和其他方法的數(shù)值結(jié)果

表中加粗表示性能最好的結(jié)果

可視化結(jié)果對比

圖3顯示了在KITTI Eigen測試集上的深度估計結(jié)果的可視化效果，從圖中可以看出本文提出的SVS模型能夠得到更加精準的深度圖。

圖3：

在KITTI Eigen測試集上的深度估計結(jié)果的可視化

提出的SVS模型能夠得到更加準確的深度圖

在其他數(shù)據(jù)集上結(jié)果的可視化

為了驗證SVS模型在其他數(shù)據(jù)集上的泛化能力，本文將在KITTI數(shù)據(jù)集上訓(xùn)練好的SVS模型直接應(yīng)用至Cityscape和 Make3D數(shù)據(jù)集上，結(jié)果可視化效果分別展示在圖4及圖5中?？梢钥吹郊词乖谟?xùn)練數(shù)據(jù)集中沒有出現(xiàn)過的場景，本文方法仍然可以得到合理準確的深度估計結(jié)果，證實了本文方法較為強大的泛化能力。

圖4：

在Cityscape數(shù)據(jù)集上深度估計結(jié)果的可視化

SVS模型能夠生成理想的深度圖

圖5：

在Make3D數(shù)據(jù)集上深度估計結(jié)果的可視化

本文提出的SVS模型可以得到較為準確的結(jié)果

與雙目匹配算法Block-Matching的對比：

為了進一步確認目前性能最優(yōu)異的單目深度估計方法和雙目深度估計方法的差距，本文在KITTI 2015雙目匹配測試集上對比了SVS模型與現(xiàn)有最優(yōu)性能的單目深度估計方法以及雙目匹配Block-Matching方法 (OCV-BM)，相關(guān)結(jié)果總結(jié)在表2中，本文的SVS模型首次超越了雙目匹配Block-Matching算法。

表2：

在KITTI 2015雙目匹配測試集上的數(shù)值結(jié)果

技術(shù)潛在應(yīng)用

單目深度估計對比雙目深度估計具有方便部署、成本低等優(yōu)點，在很多領(lǐng)域有著豐富的潛在應(yīng)用場景，如三維重建、增強現(xiàn)實等。

a) 三維重建

b) 增強現(xiàn)實

結(jié)論

本文提出一種簡單而有效的單目深度估計模型——單視圖雙目匹配(SVS)。該模型通過把單目深度估計問題分解為兩個子問題，即視圖合成問題和雙目匹配問題，避免把神經(jīng)網(wǎng)絡(luò)模型直接作為黑盒使用，提高了模型的可解釋性。同時，為了更好的解決這兩個子問題，顯式地把幾何變換編碼到兩個子網(wǎng)絡(luò)中，提升網(wǎng)絡(luò)模型的表達能力。實驗結(jié)果表明，該方法僅使用少量帶深度標簽的訓(xùn)練數(shù)據(jù)，就能夠超越所有之前的單目深度估計方法，并且首次僅使用單目數(shù)據(jù)就超過雙目匹配算法Block-Matching的性能，在眾多領(lǐng)域中有著豐富的潛在應(yīng)用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴