一、研究背景:
現(xiàn)代自動駕駛系統(tǒng)包含多個順序執(zhí)行的任務(wù),即感知、預(yù)測及規(guī)劃。隨著傳感器和硬件的進(jìn)步,設(shè)計一種可以執(zhí)行各種任務(wù)的智能系統(tǒng)成為一種趨勢。之前的設(shè)計方案可概括為兩類:1)為每個任務(wù)部署獨(dú)立的模型;2)組建包含多個獨(dú)立任務(wù)頭的多任務(wù)學(xué)習(xí)模型。然而,這些方法都可能會受到累積誤差以及在下游規(guī)劃上較差的遷移效果的影響。
近期,arXiv 中收錄了上海人工智能實驗室OpenDriveLab團(tuán)隊聯(lián)合武漢大學(xué)、商湯科技的一篇文章——Goal-oriented Autonomous Driving,其提出良好的自動駕駛系統(tǒng)應(yīng)該以最終任務(wù)——安全的路線規(guī)劃為導(dǎo)向。該研究對感知與預(yù)測中的關(guān)鍵組成部分進(jìn)行分析與研究,并按照一定優(yōu)先級進(jìn)行組建,以便所有的子任務(wù)都有助于規(guī)劃,并提出了統(tǒng)一自動駕駛框架 (UniAD) ,這是第一個將全棧駕駛?cè)蝿?wù)整合到一個深度神經(jīng)網(wǎng)絡(luò)中的框架,并可以發(fā)揮每個子任務(wù)以及各個模塊的優(yōu)勢,以執(zhí)行安全的規(guī)劃。
隨著深度學(xué)習(xí)的成功發(fā)展,自動駕駛算法由一系列子任務(wù)組成,包括感知中的物體檢測、多目標(biāo)跟蹤、地圖分割;預(yù)測任務(wù)中的軌跡預(yù)測和占用柵格預(yù)測。如圖1(a)所示,大多數(shù)工業(yè)解決方案是為每個任務(wù)部署獨(dú)立模型。盡管簡化了多任務(wù)模型的設(shè)計,但由于不同子任務(wù)優(yōu)化方向的不同,這樣的設(shè)計面臨著信息丟失、錯誤累積和特征未對齊的風(fēng)險。
圖1:自動駕駛算法框架的各種設(shè)計比較。(a)大多數(shù)工業(yè)解決方案是對不同的任務(wù)部署不同的模型。(b)多任務(wù)學(xué)習(xí)架構(gòu),多個任務(wù)頭共享一個主干網(wǎng)絡(luò)(特征提取器)。(c)端到端學(xué)習(xí)范式,其聯(lián)合了感知與規(guī)劃模塊?,F(xiàn)有工作或如(c.1)采用直接從感知結(jié)果進(jìn)行規(guī)劃,或如(c.2)中采用多模塊級聯(lián)的系統(tǒng)。
除了上述工業(yè)方案,更為先進(jìn)的設(shè)計是將不同的任務(wù)整合到多任務(wù)學(xué)習(xí)(MTL)范式中,如圖1(b)所示,例如BEVerse,以及部分工業(yè)化架構(gòu),例如Mobileye、Tesla、Nvidia等。在MTL中,多任務(wù)的協(xié)同訓(xùn)練利用同一個特征提取器,可以方便地拓展至多個子任務(wù)并節(jié)省芯片的計算。然而,這樣的方法仍未解決不同任務(wù)優(yōu)化方向不一致的問題,同時不同任務(wù)的監(jiān)督信息也未得到充分的交互,以更好作用于規(guī)劃。相比之下,端到端自動駕駛架構(gòu)(如圖1(c)所示)將感知、決策和規(guī)劃結(jié)合為一個整體。前序任務(wù)(模塊)的組合應(yīng)當(dāng)有利于最終的規(guī)劃,同時應(yīng)該盡量避免誤差累計的問題。(c.1)中采用直接從感知結(jié)果進(jìn)行規(guī)劃,(c.2)中采用模塊級聯(lián)的方式。在(c.3)中,UniAD以良好的規(guī)劃為導(dǎo)向,通過層級結(jié)構(gòu)對不同任務(wù)進(jìn)行組建以達(dá)到更好的規(guī)劃結(jié)果。
表1:UniAD 與之前方案的對比,包含了更多的任務(wù)以輔助下游規(guī)劃,包含檢測 (Detection),跟蹤 (Tracking),地圖生成 (Mapping),軌跡預(yù)測 (Motion Forecasting),占用柵格預(yù)測 (Occupancy prediction) 與規(guī)劃 (Planning)。
二、研究內(nèi)容
如圖2所示,UniAD是由四個基于Transformer解碼器的感知預(yù)測模塊以及一個規(guī)劃模塊組成。多組查詢向量 (query) 用于連接整個架構(gòu)以及學(xué)習(xí)多個智能體與周圍環(huán)境的交互。具體而言,多個環(huán)視攝像頭采集的圖像將首先通過特征提取器轉(zhuǎn)化為圖像特征,再通過 BEV(Bird’s-Eye-View,鳥瞰圖視角)編碼器將圖像特征轉(zhuǎn)化為 BEV 特征。在 TrackFormer 中,用一組跟蹤查詢向量 (Track query) 從 BEV 特征中檢測新出現(xiàn)的物體(智能體)并持續(xù)跟蹤已經(jīng)檢測到的物體。MapFormer 是通過地圖查詢向量 (Map query) 對不同類別的地圖元素進(jìn)行分割,比如車道線與人行道。MotionFormer 通過建模物體與環(huán)境之間的交互關(guān)系對每個物體的未來軌跡進(jìn)行預(yù)測。同時引入自車查詢向量 (Sdc query) 對自車的運(yùn)動進(jìn)行建模,自車查詢向量將用于后續(xù)的自車規(guī)劃中。OccFormer 用于進(jìn)行占用柵格預(yù)測,以 BEV 特征為查詢向量,物體特征為鍵 (key) 與值 (value),對未來的 BEV 特征進(jìn)行不斷地更新,進(jìn)而解碼為占用柵格。規(guī)劃模塊 (Planner) 將自車查詢向量解碼,生成規(guī)劃路徑,并利用占用柵格預(yù)測對路徑進(jìn)行優(yōu)化,使其避免障礙物。
圖2. 統(tǒng)一的自動駕駛(UniAD)的整體框架。UniAD通過多個 Transformer 模塊將各個任務(wù)進(jìn)行層級式的結(jié)合,并對不同任務(wù)間的信息進(jìn)行了充分的交互。UniAD使用多組查詢向量對物體與地圖進(jìn)行建模,并將預(yù)測結(jié)果傳遞至規(guī)劃模塊,用于進(jìn)行安全的路徑規(guī)劃。
(1)感知:跟蹤與地圖分割
TrackFormer 可以同時進(jìn)行檢測與多目標(biāo)跟蹤,通過引入一組 Track query 去建模追蹤物體在場景中的整個生命周期(即從出現(xiàn)到完全消失)。Track query 通過與 BEV 特征進(jìn)行注意力機(jī)制運(yùn)算并通過多層感知機(jī) (MLP) 進(jìn)行解碼,最終得到跟蹤物體的邊界框與速度等屬性。MapFormer 是將 2D 全景分割的經(jīng)典方案 Panoptic Segformer 遷移至 3D 場景,并用于在線地圖分割。具體而言,用一組 Map query 表示地圖中的不同元素,比如車道線、人行道等,這些地圖元素將有利于下游任務(wù)對周圍環(huán)境信息的學(xué)習(xí)。Map query 經(jīng)過 MapFormer 的更新后,將被傳送至 MotionFormer 進(jìn)行物體與地圖元素的交互。
(2)預(yù)測:軌跡預(yù)測
MotionFormer 以信息豐富的物體特征和地圖特征為輸入,輸出場景中所有智能體在多種模態(tài)下的未來軌跡。這種范式只需要進(jìn)行一次網(wǎng)絡(luò)的前向傳播便能輸出所有智能體的未來軌跡,相較于之前以智能體為中心(agent-centric)的方法,節(jié)省了每步對坐標(biāo)空間進(jìn)行對齊的計算消耗。同時為了持續(xù)建模自車運(yùn)動信息,利用 TrackFormer 中的自車查詢向量 (Sdc query) 學(xué)習(xí)自車的未來軌跡。MotionFormer 由多層交叉注意力 (cross-attention) 模塊組成,以達(dá)到不斷精細(xì)化的目的。每層模塊包含三次不同的注意力計算以建模不同類型的交互,分別是智能體-智能體,智能體-地圖,智能體-軌跡目標(biāo),具體交互表示如下:
其中 MHCA、MHSA 與 DeformAttn 分別表示多頭交叉注意力,多頭自注意力與可變形注意力。交互結(jié)束后得到的軌跡查詢向量 (Motion query) 將繼續(xù)傳遞給占用柵格預(yù)測與規(guī)劃模塊。
圖3. MotionFormer。它由N個堆疊的交互模塊組成,每個模塊內(nèi)會進(jìn)行agent-agent,agent-map 和 agent-goal point(軌跡終點(diǎn))的關(guān)系建模。agent-agent 和 agent-map 交互模塊使用標(biāo)準(zhǔn)的Transformer解碼器層,agent-goal交互模塊構(gòu)是建在可變形的交叉注意力模塊上。
(3)預(yù)測:占用柵格預(yù)測
占用柵格圖是一種離散化的BEV 表示形式,其中每個格子代表的值代表當(dāng)前位置是否被物體占用。占用柵格預(yù)測任務(wù)是指預(yù)測未來多步的占用柵格圖,即未來 BEV 的占用情況。之前的方法通常會利用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 與遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 逐步預(yù)測未來多步 BEV 特征圖并解碼,但是卻忽略了場景中物體的運(yùn)動信息,這些信息與未來場景的占用柵格有很強(qiáng)的關(guān)聯(lián)。為了引入稀疏的物體運(yùn)動信息,本文在 OccFormer 中利用注意力機(jī)制,將場景中密集的各柵格表示為查詢向量 (query),將物體特征表示為鍵 (key) 與值 (value)。通過多層 Transformer 的解碼器,查詢向量將多次更新,用于表示未來時序的 BEV 特征圖。為了更好地對齊物體與各柵格的位置關(guān)系,本文引入了一個基于占用柵格的注意力掩碼,該掩碼使得注意力計算只在位置對應(yīng)的柵格-物體特征之間進(jìn)行。查詢向量的更新過程如下:
(4)自車規(guī)劃
為了規(guī)劃自車未來的運(yùn)動軌跡,將 MotionFormer 更新后的自車查詢向量 (Sdc query) 與 BEV 特征進(jìn)行注意力機(jī)制交互,讓 Sdc query 感知整個 BEV 環(huán)境,隱式地學(xué)習(xí)周圍環(huán)境與其他智能體。為了更顯式地避免與周圍車的碰撞,作者利用占用柵格預(yù)測模塊的輸出對自車路徑進(jìn)行優(yōu)化,避免未來可能有物體占用的區(qū)域。
三、實驗結(jié)果
1. 各模塊實驗結(jié)果
感知結(jié)果
預(yù)測結(jié)果
規(guī)劃結(jié)果
與 ST-P3 相比,UniAD 將規(guī)劃L2誤差和碰撞率分別降低了51.2%和56.3%,并優(yōu)于其它基于 LiDAR 輸入的方案。
2. 消融研究
為了驗證以目標(biāo)為導(dǎo)向的設(shè)計理念是否真正發(fā)揮作用,本文對感知及預(yù)測中的各個模塊進(jìn)行了廣泛的消融研究,如表7所示,以證明前序模塊的有效性和必要性。 表7:感知及預(yù)測中的各個模塊對下游任務(wù)的幫助。
3. 可視化
圖7:在市區(qū)駕駛的可視化表示。UniAD 可以生成高質(zhì)量的感知和預(yù)測結(jié)果,并進(jìn)行安全的路徑規(guī)劃。前三列顯示六個攝像機(jī)的視角,最后兩列分別是 BEV 預(yù)測結(jié)果和來自規(guī)劃模塊的注意力掩碼。每個智能體都用單獨(dú)的顏色表示。
圖8:關(guān)鍵案例可視化。第一個場景(上圖)顯示自車正在讓兩個過馬路的行人,第二個場景(下圖)顯示自車正在讓側(cè)方一輛快速行駛的汽車。從最右圖可以觀察到規(guī)劃模塊對最關(guān)鍵的智能體給予更多的關(guān)注度。
圖9:避障可視化。在這兩種情況下,自車正在進(jìn)行變道以避開障礙物車輛。從最右注意力掩碼中,可以觀察到UniAD可以關(guān)注障礙物以及前后的道路
四、總結(jié)
UniAD 設(shè)計是以安全的路徑規(guī)劃為導(dǎo)向,對多個必需的自動駕駛?cè)蝿?wù)進(jìn)行層級化設(shè)計,以多組查詢向量 (query) 對物體與環(huán)境之間的多種交互進(jìn)行建模。通過大量實驗驗證了模型設(shè)計的有效性,并相對之前的方案取得了更好的性能。UniAD 是一種統(tǒng)一的自動駕駛算法框架,可以以高精度執(zhí)行包含跟蹤、地圖生成、軌跡預(yù)測、占用預(yù)測與規(guī)劃任務(wù),是首個全面探索自動駕駛系統(tǒng)各模塊必要性的工作,作者通過進(jìn)行廣泛的消融和實驗,驗證了 UniAD 在各感知預(yù)測任務(wù)對最終規(guī)劃的幫助。
審核編輯:劉清
-
解碼器
+關(guān)注
關(guān)注
9文章
1152瀏覽量
40955 -
自動駕駛系統(tǒng)
+關(guān)注
關(guān)注
0文章
66瀏覽量
6844 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4299
原文標(biāo)題:All in One | UniAD:一種包含全棧自動駕駛算法的統(tǒng)一架構(gòu)設(shè)計
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
自動駕駛全棧自研可行嗎?
基于改進(jìn)ResNet50網(wǎng)絡(luò)的自動駕駛場景天氣識別算法
![基于改進(jìn)ResNet50網(wǎng)絡(luò)的<b class='flag-5'>自動駕駛</b>場景天氣識別<b class='flag-5'>算法</b>](https://file1.elecfans.com/web1/M00/F4/A6/wKgaoWcu1K6ACeoZAAAxzx2oy-Y945.png)
智能駕駛與自動駕駛的關(guān)系
![](https://file1.elecfans.com/web2/M00/0A/49/wKgaomcKSRKARKGCAADn4aW4wSM974.jpg)
FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?
FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?
自動駕駛的傳感器技術(shù)介紹
中級自動駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識
初級自動駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識
自動駕駛:揭秘高精度時間同步技術(shù)(一)
![<b class='flag-5'>自動駕駛</b>:揭秘高精度時間同步技術(shù)(<b class='flag-5'>一</b>)](https://file1.elecfans.com/web2/M00/EC/CA/wKgaomZgIbuAefh6AAS-6jM8Rt4492.png)
移動端芯片性能提升,Armv9架構(gòu)新升級引發(fā)關(guān)注
智行者聯(lián)合清華完成國內(nèi)首套全棧式端到端自動駕駛系統(tǒng)的開放道路測試
![智行者聯(lián)合清華完成國內(nèi)首套<b class='flag-5'>全</b><b class='flag-5'>棧</b>式端到端<b class='flag-5'>自動駕駛</b>系統(tǒng)的開放道路測試](https://file1.elecfans.com/web2/M00/D5/44/wKgaomYlvJmAdFDQAAAe1YtYbSc681.jpg)
未來已來,多傳感器融合感知是自動駕駛破局的關(guān)鍵
一種靈活可擴(kuò)展的自動駕駛解決方案
![<b class='flag-5'>一種</b>靈活可擴(kuò)展的<b class='flag-5'>自動駕駛</b>解決方案](https://file1.elecfans.com/web2/M00/C6/CD/wKgaomYDg46AGcWaAAAdNzZNCkw385.png)
評論