摘要
準(zhǔn)確地感知物體實例并預(yù)測它們未來的運(yùn)動是自動駕駛車輛的關(guān)鍵任務(wù),使它們能夠在復(fù)雜的城市交通中安全導(dǎo)航。雖然鳥瞰圖(BEV)表示在自動駕駛感知中是常見的,但它們在運(yùn)動預(yù)測中的潛力尚未得到充分探索。現(xiàn)有的從環(huán)繞攝像頭進(jìn)行BEV實例預(yù)測的方法依賴于多任務(wù)自回歸設(shè)置以及復(fù)雜的后處理,以便以時空一致的方式預(yù)測未來的實例。在本文中,我們不同于這中范例,提出了一個名為PowerBEV的高效新型端到端框架,采用了幾種旨在減少先前方法中固有冗余的設(shè)計選擇。首先,與其按自回歸方式預(yù)測未來,PowerBEV采用了由輕量級2D卷積網(wǎng)絡(luò)構(gòu)建的并行多尺度模塊。其次,我們證明,分割和向心反向流對于預(yù)測是足夠的,通過消除冗余輸出形式簡化了先前的多任務(wù)目標(biāo)?;诖溯敵霰硎?,我們提出了一種簡單的基于流變形的后處理方法,可在時間上產(chǎn)生更穩(wěn)定的實例關(guān)聯(lián)。通過這種輕量化但強(qiáng)大的設(shè)計,PowerBEV在NuScenes數(shù)據(jù)集上勝過了最先進(jìn)的方法,并為BEV實例預(yù)測提供了一種替代范例。
主要貢獻(xiàn)
我們提出了PowerBEV,一個新穎而優(yōu)雅的基于視覺的端到端框架,它只由2D卷積層組成,用于在BEV中執(zhí)行多個對象的感知和預(yù)測。
我們證明,由于冗余表示引起的過度監(jiān)督會影響模型的預(yù)測能力。相比之下,我們的方法通過簡單地預(yù)測分割和向心反向流來實現(xiàn)語義和實例級別的代理預(yù)測。
我們提出的基于向心反向流的提議分配優(yōu)于以前的前向流結(jié)合傳統(tǒng)的匈牙利匹配算法。
主要方法
我們的方法的框架如圖1所示。它主要由三個部分組成:感知模塊、預(yù)測模塊和后處理階段。感知模塊將M個多視角相機(jī)圖像作為個時間戳的輸入,并將他們轉(zhuǎn)換為個BEV特征圖。然后,預(yù)測模塊融合提取的BEV特征中包含的時空信息,并同時預(yù)測一系列分割地圖和向心反向流,用于未來幀。最后,通過基于變形的后處理。從預(yù)測的分割和流中恢復(fù)未來的實例預(yù)測。
圖1:PowerBEV的框架
1、基于LSS的感知模塊
為了獲取用于預(yù)測的視覺特征,我們遵循之前的工作,并在LSS的基礎(chǔ)上建立起從環(huán)繞攝像機(jī)中提取BEV特征網(wǎng)格。對于每個時間t的每個相機(jī)圖像,我們應(yīng)用共享的EfficientNet網(wǎng)絡(luò)來提取透視特征,其中我們將的前個通道指定為上下文特征,后面的個通道表示分類深度分布。通過外積構(gòu)造一個三維特征張量。
其中,根據(jù)估計的深度分布置信度將上下文特征提升到不同的深度中。然后,每個時間戳的每個相機(jī)特征分布映射基于對應(yīng)相機(jī)的已知內(nèi)部參數(shù)和外部參數(shù)被投影到以車輛為中心的坐標(biāo)系中。隨后,它們沿著高度維度加權(quán),以獲得時間戳t處的全局BEV狀態(tài),其中是狀態(tài)通道數(shù)量,(H,W)是BEV狀態(tài)地圖的網(wǎng)格大小。最后,所有的BEV狀態(tài)合并到當(dāng)前幀中,并像FIERY一樣堆疊,因此這追蹤表示是獨(dú)立于自車位置的當(dāng)前全局動態(tài)。
2、多尺度預(yù)測模塊
圖2:多尺度預(yù)測模塊的結(jié)構(gòu)
獲得過去環(huán)境的簡潔表示S后,我們使用一個多尺度U-Net類編碼器解碼器架構(gòu),將觀察到的BEV特征圖作為輸入,并預(yù)測未來的分割地圖和向心反向流場,如圖2所示。為了僅使用2D卷積進(jìn)行時空特征處理,我們將時間和特征維度折疊成一個單一的維度,從而得到輸入張量。編碼器首先逐步在空間上對進(jìn)行下采樣,生成多尺度BEV特征,其中。在一個中間的預(yù)測器階段,將特征從映射到,獲取。最后,解碼器鏡像編碼器,在原始尺度上重建出未來的BEV特征。每個分支分別被監(jiān)督以預(yù)測未來的分割地圖或向心反向流場??紤]到任務(wù)和監(jiān)督的差異,我們?yōu)槊總€分支使用相同的架構(gòu)但不共享權(quán)重。與以前基于空間LSTM或空間GRU的工作相比,我們的架構(gòu)只利用2D卷積,在解決長程時間依賴性方面大大緩解了空間RNN的限制。
3、多任務(wù)的設(shè)置
現(xiàn)有的方法遵循自下而上的原則,為每個幀生成實例分割,然后根據(jù)前向流使用匈牙利匹配算法在幀之間關(guān)聯(lián)實例。因此,需要四個不同的頭部:語義分割、中心性、未來前向流和BEV中的每像素向心偏移。這導(dǎo)致由于多任務(wù)訓(xùn)練而產(chǎn)生模型冗余和不穩(wěn)定性。相比之下,我們首先發(fā)現(xiàn),流和向心偏移都是實例掩模內(nèi)的回歸任務(wù),并且流可以理解為運(yùn)動偏移量。此外,這兩個量與中心性在兩個階段中組合:(1)向心偏移將像素分組到每個幀中預(yù)測的實例中心,以將像素分配給實例ID;(2)流用于匹配兩個連續(xù)幀中的中心以進(jìn)行實例ID關(guān)聯(lián)?;谝陨戏治?,使用統(tǒng)一表示形式直觀地解決這兩個任務(wù)。為此,我們提出了向心反向流場,它是從時間t處的每個前景像素到時間t?1處關(guān)聯(lián)實例標(biāo)識的對象中心的位移向量。這將像素到像素的反向流向量和向心偏移向量統(tǒng)一為單一表示形式。使用我們提出的流,可以直接將每個占用的像素關(guān)聯(lián)到上一幀中的實例ID。這消除了將像素分配給實例的額外聚類步驟,將先前工作中使用的兩階段后處理簡化為單階段關(guān)聯(lián)任務(wù)。此外,我們發(fā)現(xiàn)語義分割地圖和中心性的預(yù)測非常相似,因為中心基本對應(yīng)于語義實例的中心位置。因此,我們建議直接從預(yù)測的分割地圖中提取局部最大值來推斷對象中心。這消除了分別預(yù)測中心的需要,如圖3所示。
圖3:多任務(wù)設(shè)置
總的來說,我們的網(wǎng)絡(luò)僅僅產(chǎn)生兩個輸出,語義分割和向心反向流。我們使用top-k,k=25%的交叉熵作為語義分割損失函數(shù),平滑的L1距離作為流動損失函數(shù)??偟膿p失函數(shù)為。
,和使用不確定性權(quán)重自動的更新。
4、實例關(guān)聯(lián)
圖4:實例關(guān)聯(lián)
對于實例預(yù)測,我們需要隨著時間推移將未來的實例相互關(guān)聯(lián)?,F(xiàn)有的方法使用前向流將實例中心投影到下一幀,然后使用匈牙利匹配將最近的代理中心進(jìn)行匹配,如圖4.a所示。這種方法執(zhí)行實例級別的關(guān)聯(lián),其中實例身份由其中心表示。因此,僅使用位于對象中心上的流向量用于運(yùn)動預(yù)測。這有兩個缺點(diǎn):首先,沒有考慮對象旋轉(zhuǎn);其次,單個位移向量比覆蓋整個實例的多個位移向量更容易出錯。在實踐中,這可能導(dǎo)致重疊的預(yù)測實例,導(dǎo)致錯誤的ID分配。這在長期預(yù)測范圍內(nèi)的近距離物體上尤為明顯。利用我們提出的向心反向流,我們進(jìn)一步提出了基于變形的像素級關(guān)聯(lián)來解決上述問題。我們的關(guān)聯(lián)方法的說明如圖4.b所示。對于每個前景網(wǎng)格單元,該操作將實例ID直接從前一個幀中流向量目標(biāo)處的像素傳播到當(dāng)前幀。使用此方法,每個像素的實例ID都被單獨(dú)分配,從而產(chǎn)生像素級關(guān)聯(lián)。與實例級別關(guān)聯(lián)相比,我們的方法對嚴(yán)重的流預(yù)測錯誤更具有容忍度,因為真實中心周圍的相鄰網(wǎng)格單元傾向于共享相同的身份,而錯誤往往發(fā)生在單個外圍像素上。此外,通過使用向后流變形,可以將多個未來位置與前一幀中的一個像素關(guān)聯(lián)起來。這對于多模式未來預(yù)測是有益的。正如所述,向后關(guān)聯(lián)需要在前一幀中的實例ID。特殊情況是第一個幀(t = 0)的實例分割生成,其沒有其前一幀(t = -1)的實例信息可用。因此,僅針對時間戳t = 0,我們通過將像素分組到過去實例中心來分配實例ID。
主要結(jié)果
我們首先將我們的方法與其他baseline相比較,結(jié)果如表1所示。我們的方法在感知范圍設(shè)置下的評估指標(biāo)IoU(Intersection-over-Union)和VPQ(video panoptic quality)均取得了顯著的改進(jìn)。在長距離設(shè)置中,PowerBEV的表現(xiàn)優(yōu)于重新生成的FIERY,在IoU方面提高了1.1%,在VPQ方面提高了2.9%。此外,盡管使用較低的輸入圖像分辨率和更少的參數(shù),PowerBEV在所有指標(biāo)上的表現(xiàn)都優(yōu)于BEVerse。與其他引入模型隨機(jī)過程的方法相比,PowerBEV是一種確定性方法,能夠?qū)崿F(xiàn)準(zhǔn)確的預(yù)測。這也展示了反向流在捕捉多模態(tài)未來方面的能力。
圖5:定量評估解決
下圖展示了我們方法的定性結(jié)果。我們展示了在三種典型駕駛場景中(城市道路上交通密集的情況、停車場中靜態(tài)車輛眾多的情況和雨天駕駛場景)與FIERY的比較。我們的方法為最常見的交通密集場景提供了更精確、更可靠的軌跡預(yù)測,這在第一個例子中變得特別明顯,其中車輛轉(zhuǎn)向自車左側(cè)的側(cè)街。而FIERY只對車輛位置作出了一些模糊的猜測,并且難以處理它們的動態(tài)特征,與之相反,我們的方法提供了更好地匹配真實車輛形狀以及未來可能軌跡的清晰物體邊界。此外,從第二個例子的比較中可以看出,我們的框架可以檢測到位于較遠(yuǎn)距離的車輛,而FIERY則失敗了。此外,我們的方法還可以檢測到在雨天場景中被墻壁遮擋的卡車,即使對于人眼來說也很難發(fā)現(xiàn)。
圖6:可視化對比結(jié)果
責(zé)任編輯:彭菁
-
模塊
+關(guān)注
關(guān)注
7文章
2736瀏覽量
47780 -
框架
+關(guān)注
關(guān)注
0文章
403瀏覽量
17553 -
自動駕駛
+關(guān)注
關(guān)注
785文章
13940瀏覽量
167074
原文標(biāo)題:IJCAI2023|PowerBEV:一個強(qiáng)大且輕量的環(huán)視圖像BEV實例預(yù)測框架
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
TCP端到端等效噪聲模型及擁塞控制方法研究
SDN中的端到端時延
![SDN中的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>時延](https://file.elecfans.com/web2/M00/49/75/poYBAGKhwLeAPdNLAAAQ4hOIkTE865.jpg)
端到端的自動駕駛研發(fā)系統(tǒng)介紹
![<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的自動駕駛研發(fā)系統(tǒng)介紹](https://file.elecfans.com/web1/M00/9C/8D/o4YBAF0oYReAdBxyAAARETciizc917.jpg)
基于深度神經(jīng)網(wǎng)絡(luò)的端到端圖像壓縮方法
![基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>圖像壓縮<b class='flag-5'>方法</b>](https://file.elecfans.com/web1/M00/E9/D1/pIYBAGBuXYOAffnPAALhvgVTIK0712.png)
基于幀級特征的端到端說話人識別方法
采用帶有transformer的端到端框架獲取對應(yīng)集合結(jié)果
![采用帶有transformer的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>框架</b>獲取對應(yīng)集合結(jié)果](https://file.elecfans.com/web2/M00/6E/B8/poYBAGNCbMuAYRZmAAOs94WL0KY415.png)
使用FastDeploy在英特爾CPU和獨(dú)立顯卡上端到端高效部署AI模型
新型的端到端弱監(jiān)督篇幅級手寫中文文本識別方法PageNet
PVT++:通用的端對端預(yù)測性跟蹤框架
![PVT++:通用的<b class='flag-5'>端</b>對<b class='flag-5'>端</b>預(yù)測性跟蹤<b class='flag-5'>框架</b>](https://file1.elecfans.com/web2/M00/90/5C/wKgaomTYhfqAfP-BAAAYkKuJRn0286.png)
評論