作者 |Jone
出品 | 焉知汽車
現(xiàn)代自動駕駛系統(tǒng)的特點是按順序排列的模塊化任務(wù),傳統(tǒng)的方法是基于標(biāo)準(zhǔn)的感知-規(guī)劃-控制這種序列式架構(gòu)的主流處理方式。即首先將感知信息處理成人類可以理解的語義信息和道路交通信息,然后基于常態(tài)化知識和規(guī)則進(jìn)行決策規(guī)劃,這種處理方式在先前常規(guī)的高速路、快速路上實現(xiàn)L2級以后以下的駕駛輔助而言是基本沒有問題的。然而,針對高階自動駕駛而言,這類專家和規(guī)則的處理方式卻難以勝任在復(fù)雜不確定的城市甚至鄉(xiāng)村場景中需要執(zhí)行的自動給駕駛?cè)蝿?wù)。
最近,自動駕駛領(lǐng)域無論是在CVPR上發(fā)表的論文還是工程化實踐中,最火的專業(yè)領(lǐng)域莫過于端到端End to End的大模型了。該模型實際上是一個抽象的概念,即只需要輸入原始數(shù)據(jù)到模型端,即可得出對應(yīng)期待的輸出。實際上,隱藏在大模型背后的便是以人工智能基礎(chǔ)深度學(xué)習(xí)之上的強化深度學(xué)習(xí)。
那么什么是強化深度學(xué)習(xí)呢,實際上,這是一種將感知、規(guī)劃、決策能力相結(jié)合的計算能力。且這種學(xué)習(xí)方式根據(jù)輸入的圖像為基礎(chǔ),輸出段以最大限度地模仿真人思考對環(huán)境的判斷和處理,使得駕駛體驗具備靈活性、自適應(yīng)、擬人化程度更佳。更進(jìn)一步講,強化深度學(xué)習(xí)實際是一種以時間線為決策基準(zhǔn)的方式,智能體通過與環(huán)境的交互獲得必要的反饋。對這種反饋的處理模式與當(dāng)前典型深度學(xué)習(xí)(監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí))的不同之處在于:強化學(xué)習(xí)對于目標(biāo)訓(xùn)練采用的是獎勵函數(shù)而非代價函數(shù)。
眾所周知,對于自動駕駛環(huán)境場景理解中,一般使用監(jiān)督學(xué)習(xí)算法實際是標(biāo)準(zhǔn)庫的匹配過程,這是可以既快又好的學(xué)習(xí)到環(huán)境目標(biāo)。而針對規(guī)劃決策而言,則是更加擬人化的處理過程,也就是規(guī)劃與處理不再是標(biāo)準(zhǔn)的公式套用,而是將高維感知信息通過不斷的反饋、回歸映射處理實現(xiàn)到動作空間的有效映射。實踐證明,基于深度強化學(xué)習(xí)的端到端控制架構(gòu)可以規(guī)避傳統(tǒng)方式以來處理更高維度更復(fù)雜場景的自動駕駛決策規(guī)劃能力。
因此,從整體優(yōu)化角度上說,隨著深度學(xué)習(xí)的成功發(fā)展,自動駕駛算法將集合一系列任務(wù),包括感知中的檢測、跟蹤、建圖,以及預(yù)測中的運動和占用預(yù)測。本文將跳出常規(guī)基于AI感知的數(shù)據(jù)處理模式,而將目光轉(zhuǎn)向感知后端的預(yù)測、規(guī)劃和決策模塊,將AI處理邏輯應(yīng)用在這些模塊上實現(xiàn)更加智能化的處理過程。
為了執(zhí)行各種各樣的任務(wù)并實現(xiàn)高級智能,先進(jìn)的算法是要么為單個任務(wù)部署獨立模型,要么設(shè)計具有單獨頭的多任務(wù)范例。然而,他們可能會遇到累積錯誤或任務(wù)協(xié)調(diào)不足的問題。因此,基于AI大模型的自動駕駛汽車規(guī)劃則是一種優(yōu)化整體設(shè)計框架的有效手段。以此為導(dǎo)向,需要重新審視感知和預(yù)測中的關(guān)鍵組成部分,并確定任務(wù)的優(yōu)先級,以便所有這些任務(wù)都有助于后續(xù)的任務(wù)規(guī)劃。因此,有必要推出統(tǒng)一自動駕駛(UniAD)綜合框架,將全棧駕駛?cè)蝿?wù)整合到一個網(wǎng)絡(luò)中。充分利用每個模塊的優(yōu)勢,并從全局角度為代理交互提供互補的特征抽象。各個任務(wù)間可以通過統(tǒng)一的查詢接口進(jìn)行通信,以方便彼此進(jìn)行規(guī)劃。
如上圖(a)所示,只要板載芯片的資源帶寬允許,大多數(shù)行業(yè)解決方案都會為每個任務(wù)分配獨立部署獨立模型。這樣的設(shè)計雖然簡化了跨團隊的研發(fā)難度,但由于各個任務(wù)之間相互隔離,也存在跨模塊信息丟失、錯誤累積、功能錯位的風(fēng)險。
一種更優(yōu)雅的設(shè)計是將多個特定任務(wù)頭插入共享特征提取器中,將廣泛的任務(wù)納入多任務(wù)學(xué)習(xí)(MTL)范式中,如上圖(b)所示。這是許多領(lǐng)域的流行做法,包括自動駕駛通用視覺算法(例如 Transformer、BEV )以及芯片行業(yè)(例如 Mobileye、Tesla、Nvidia 等)。在 MTL 中,跨任務(wù)的協(xié)同訓(xùn)練策略可以利用特征抽象毫不費力地擴展到額外任務(wù),并節(jié)省板載芯片的計算成本。然而,這樣的方案可能會導(dǎo)致不良的“負(fù)遷移”。
相比之下,端到端自動駕駛模型的出現(xiàn)將所有節(jié)點從感知、預(yù)測到規(guī)劃統(tǒng)一為一個整體。前面任務(wù)的選擇和優(yōu)先級將有利于后續(xù)任務(wù)的規(guī)劃。系統(tǒng)應(yīng)該以規(guī)劃為導(dǎo)向,對某些組件進(jìn)行精心設(shè)計,使得很少有像獨立選項那樣的累積誤差或像MTL方案中的負(fù)轉(zhuǎn)移。
遵循端到端范式,一種“白板”實踐是直接預(yù)測計劃軌跡,無需對感知和預(yù)測進(jìn)行任何明確的監(jiān)督,如上圖(c.1)所示。雖然這樣的方向值得進(jìn)一步探索,但其安全保障和可解釋性不足,尤其是對于高度動態(tài)的城市場景。在本文中,我們從另一個角度提出以下問題:對于一個可靠的、面向規(guī)劃的自動駕駛系統(tǒng),如何設(shè)計有利于規(guī)劃的管道?哪些前面的任務(wù)是必需的?
直觀的解決方案是感知周圍的物體、預(yù)測未來的行為并明確地計劃安全的操作,如上圖(c.2)所示。在這方面已經(jīng)有不少實踐提供了很好的見解并取得了令人印象深刻的表現(xiàn)。然而,細(xì)節(jié)決定成敗,以前的工作或多或少沒有考慮某些組成部分,比如以規(guī)劃為導(dǎo)向的必要性。
統(tǒng)一的自動駕駛算法框架
最近的研究證明了Transformer 結(jié)構(gòu)在感知任務(wù)上的有效性,受此啟發(fā),在端到端設(shè)置中也將這種時序上的預(yù)測模式應(yīng)用到了各個后端處理中,這里我們簡稱為“xxxFormer”。 首先,我們引入一個統(tǒng)一的自動駕駛算法框架---UniAD ,即利用 ffve 基本任務(wù)來構(gòu)建安全、魯棒的系統(tǒng)。UniAD 的設(shè)計本著以規(guī)劃為導(dǎo)向的精神,這不僅僅是一個簡單的工程任務(wù)堆棧,而是一個連接所有節(jié)點的基于查詢設(shè)計的關(guān)鍵組件。與經(jīng)典的邊界框表示相比,查詢受益于更大的接受場,以減輕上游預(yù)測的復(fù)合誤差。此外,查詢可以靈活地對各種交互進(jìn)行建模和編碼,例如多個代理之間的關(guān)系。UniAD是一個全面研究自動駕駛領(lǐng)域感知、預(yù)測和規(guī)劃等多種任務(wù)的聯(lián)合工作。通過這樣的設(shè)計希望能夠?qū)ψ詣玉{駛系統(tǒng)的目標(biāo)驅(qū)動設(shè)計有所啟發(fā),為協(xié)調(diào)各種駕駛?cè)蝿?wù)提供一個起點。
這種遵循以規(guī)劃為導(dǎo)向的理念精心設(shè)計,不是簡單的任務(wù)堆棧,而是研究每個模塊在感知和預(yù)測中的效果,利用從先前節(jié)點到駕駛場景中最終規(guī)劃的聯(lián)合優(yōu)勢。所有感知和預(yù)測模塊均采用 Transformer Decoder 結(jié)構(gòu)設(shè)計,以任務(wù)查詢作為連接各個節(jié)點的接口。一個簡單的基于注意力的規(guī)劃器最終會考慮從先前節(jié)點提取的知識來預(yù)測自車未來路徑點。期間,將會使用基于視覺形成的占用地圖。
接下來將對如上圖所示的整個數(shù)據(jù)鏈路中的預(yù)測模型進(jìn)行完整性說明。
首先,軌跡生成是聯(lián)合執(zhí)行檢測和多目標(biāo)跟蹤(MOT),這種方式無需后處理,而是采用取查詢設(shè)計的方式。除了對象檢測中使用的傳統(tǒng)檢測查詢之外,還引入了額外的跟蹤查詢來處理跨幀跟蹤代理。具體來說,就是在每個時間步,初始化的檢測查詢負(fù)責(zé)檢測第一次感知到的新生代理,而跟蹤查詢則保持對在先前幀中檢測到的那些代理進(jìn)行建模。檢測查詢和跟蹤查詢都通過關(guān)注 BEV 特征 B 來捕獲代理抽象。隨著場景不斷發(fā)展,當(dāng)前幀的跟蹤查詢與自注意力模塊中先前記錄的查詢進(jìn)行交互,以聚合時間信息,直到在特定時間段內(nèi)未跟蹤到目標(biāo)且相應(yīng)的代理完全消失。
如上圖所示,UniAD最終包括四個基于Transformer解碼器的感知和預(yù)測模塊以及一個規(guī)劃器。查詢 Q 起到連接管道的作用,以對駕駛場景中實體的不同交互進(jìn)行建模。具體來說,需要將一系列多攝像頭圖像輸入特征提取器,并通過 BEVFormer 中現(xiàn)成的 BEV 編碼器將所得透視圖特征轉(zhuǎn)換為無擴散鳥瞰圖 (BEV) 特征B。UniAD 并不局限于特定的 BEV 編碼器,并且可以利用其他替代方案通過長期時間的多模態(tài)融合來提取更豐富的 BEV 表示。 在 TrackFormer 中,從特征圖 B 查詢到可學(xué)習(xí)的跟蹤信息代理。TrackFormer 包含 N 層,最終輸出狀態(tài) QA 為下游預(yù)測任務(wù)提供 Na 個有效代理的知識。除了對自車周圍的其他代理進(jìn)行編碼的查詢之外,還在查詢集中引入了一個特定的自車查詢,以顯式地對自動駕駛車輛本身進(jìn)行建模,這將進(jìn)一步用于規(guī)劃。
MapFormer 則將地圖作為道路元素(例如車道和分隔線)的語義抽象進(jìn)行查詢,并執(zhí)行地圖的全景分割。這種基于 2D 全景分割方法 Panoptic SegFormer進(jìn)行地圖設(shè)計原理是將道路元素稀疏地表示為地圖查詢,以幫助下游進(jìn)行運動預(yù)測,并對位置和結(jié)構(gòu)知識進(jìn)行編碼。對于不同的駕駛場景而言,將車道、分隔線和十字路口設(shè)置為關(guān)注目標(biāo),并將可行駛區(qū)域設(shè)置為某一特定的其他目標(biāo)。此外,MapFormer還有N個堆疊層,每層的輸出結(jié)果都受到監(jiān)督,而只有最后一層中更新的查詢QM被轉(zhuǎn)發(fā)到MotionFormer以進(jìn)行智駕車與地圖的交互。
通過上述表示代理和地圖的查詢,MotionFormer 捕獲代理和地圖之間的交互,并預(yù)測每個代理的未來軌跡。接下來,OccFormer 采用 BEV 特征 B 作為查詢,配備智能體作為鍵和值,并在保留智駕車輛的情況下預(yù)測多步未來占用情況。最后,Planner利用 MotionFormer 富有表現(xiàn)力的自車查詢來預(yù)測規(guī)劃結(jié)果,并使其遠(yuǎn)離 OccFormer 預(yù)測的占用區(qū)域以避免碰撞。
以上過程中,如果考慮自車行駛的周邊場景都是智能體,且由于每個智能體的動作都會對場景中的其他智能體產(chǎn)生重大影響,因此該模塊對所有考慮的智能體都可以進(jìn)行聯(lián)合預(yù)測。同時,通過設(shè)計一個自車查詢來顯式地建模,并使其能夠在這種以場景為中心的范例中與其他代理進(jìn)行交互。
運動預(yù)測與占用預(yù)測
接下來將詳細(xì)介紹相關(guān)運動預(yù)測和占用預(yù)測的詳細(xì)方法。
1、運動預(yù)測
首先,通過分別從 TrackFormer 和 MapFormer 對動態(tài)代理 QA 和靜態(tài)地圖 QM 進(jìn)行高度抽象的查詢,MotionFormer 以場景為中心的方式預(yù)測所有代理的多模態(tài)未來運動,即前 k 個可能的軌跡。這種范例通過一次前向傳遞在幀中產(chǎn)生多智能體軌跡,這大大節(jié)省了將整個場景與每個智能體坐標(biāo)對齊的計算成本。同時,考慮到未來的動態(tài),通過 MotionFormer 傳遞來自 TrackFormer 的自車查詢,以使自車與其他環(huán)境目標(biāo)進(jìn)行交互。形式上,輸出運動被表述為 {x?i, k ∈ RT×2|i = 1,......N; k=1,... ..., K} ,其中 i 表示索引代理,k 索引軌跡模態(tài),T 是預(yù)測范圍的長度。
運動預(yù)測由 N 層組成,每層捕獲三種類型的交互:自車與周邊環(huán)境目標(biāo)、自車與地圖和自車與潛在風(fēng)險目標(biāo)。對于每個運動查詢 Qi,k,其與其他代理 QA 或地圖元素 QM 之間的交互可以表示為:
其中,MHCA、MHSA 分別表示多頭交叉注意力和多頭自注意力。由于在完善預(yù)測軌跡中更加關(guān)注預(yù)期位置(即目標(biāo)點),因此通過可變形注意力可以設(shè)計一個代理目標(biāo)點注意力,如下所示:
其中 x^l?1T 是上一層預(yù)測軌跡的端點。DeformAttn(q,r,x) 是一個可變形注意力模塊,接收查詢q、參考點 r 和空間特征 x。它對參考點周圍的空間特征進(jìn)行稀疏關(guān)注,通過這種方式,隨著了解端點周圍環(huán)境,預(yù)測軌跡將進(jìn)一步細(xì)化。所有這三種交互都是并行建模的,其中生成的 Qa、Qm 和 Qg 被連接并傳遞到多層感知器 (MLP),從而生成查詢上下文 Qctx。然后,Qctx被發(fā)送到后續(xù)層進(jìn)行細(xì)化或解碼為最后一層的預(yù)測結(jié)果。
2、占用網(wǎng)格圖預(yù)測
“占用網(wǎng)格圖”這是一個當(dāng)前智能駕駛相對較火的術(shù)語,其本身是一種離散化的 BEV 表示,其中每個單元格都持有一個指示其是否被占用的信念,而占用預(yù)測任務(wù)是發(fā)現(xiàn)網(wǎng)格圖未來如何變化。先前經(jīng)典的方法利用 RNN 結(jié)構(gòu)根據(jù)觀察到的 BEV 特征在時間上擴展未來預(yù)測 。
然而,這種高度依賴于手工制作的聚類后處理來生成每個智能體占用圖,因為它們通過將 BEV 特征作為一個整體壓縮到 RNN 隱藏狀態(tài),而這其中大多與智能體無關(guān)。由于代理知識的使用不足,他們很難預(yù)測全局所有代理的行為,這對于理解場景如何演變至關(guān)重要。為了解決這個問題,就需要進(jìn)一步詳細(xì)介紹占用網(wǎng)絡(luò)預(yù)測 OccFormer 。
在占用網(wǎng)格預(yù)測中,主要在兩個方面結(jié)合了場景級和代理級語義:
(1)密集場景特征在展開到未來視野時通過精心設(shè)計的注意力模塊獲取代理級特征;
(2)我們通過代理級特征和密集場景特征之間的矩陣乘法輕松產(chǎn)生實例占用率,而無需進(jìn)行繁重的后處理。
OccFormer 由 To 順序塊組成,其中 To 表示預(yù)測范圍。由于密集表示占用的計算成本較高,因此在運動任務(wù)中 To 通常小于 T。每個塊將來自前一層的豐富代理特征 Gt 和狀態(tài)(密集特征)F t?1 作為輸入,并考慮實例級和場景級信息生成時間步 t 的密集特征 Ft。
為了獲得具有動態(tài)和空間先驗的代理特征Gt,可表示為 QX ∈ R Na×D 的模態(tài)維度中對來自 MotionFormer 的最大池運動查詢進(jìn)行最大池化,其中 D 作為特征維度。通過a將其與上游軌跡查詢QA和當(dāng)前位置嵌入PA融合時間特定 MLP:
其中[·]表示串聯(lián)。對于場景級知識,為了提高訓(xùn)練效率,將 BEV 特征 B 縮小到 1/4 分辨率,以作為第一個塊輸入 F0。為了進(jìn)一步節(jié)省訓(xùn)練內(nèi)存,每個塊都遵循下采樣-上采樣方式,并注意中間的模塊以 1/8 自縮放特征進(jìn)行像素代理交互,表示為 Ftds。
像素與代理交互旨在預(yù)測未來占用情況時輸出統(tǒng)一場景和代理級別的理解。將密集特征 Ftds 作為查詢輸入,將實例級特征作為鍵和值,以隨著時間的推移更新密集特征。具體來說,F(xiàn)tds 通過自注意力層來對遠(yuǎn)處網(wǎng)格之間的響應(yīng)進(jìn)行建模,然后交叉注意力層對代理特征Gt 和每個網(wǎng)格特征之間的交互進(jìn)行建模。此外,為了對齊像素-代理對應(yīng)關(guān)系,通過注意掩模來約束交叉注意,該掩模限制每個像素僅在時間步 t 處查看占據(jù)它的代理。稠密特征的更新過程可表述為:
注意掩碼 Ot m 在語義上與占用相似,是通過將額外的代理級特征與密集特征 Ftds 相乘而生成的,其中將此處的代理級特征命名為掩碼特征Mt = MLP(Gt )。經(jīng)過方程式中的交互過程后,Dtds 被上采樣到 B 的 1/4 大小。進(jìn)一步將 Dtds 與塊輸入 Ft?1 作為殘差連接相加,并將得到的特征 Ft 傳遞到下一個塊。
接下來是生成實例級占用率。它代表保留每個代理身份的占用情況。它可以通過矩陣乘法簡單地繪制出來,就像最近基于查詢的分割工作一樣。形式上,為了獲得 BEV 特征 B 的原始大小 H ×W 的占用預(yù)測,場景級特征 Ft需要通過卷積解碼器上采樣Ft dec ∈ R C×H×W,其中 C 是通道維度。對于代理級特征,我們進(jìn)一步通過另一個 MLP 將粗掩模特征 Mt 更新為占用特征 Ut ∈ R Na×C。從經(jīng)驗發(fā)現(xiàn),從掩碼特征 Mt 而不是原始代理特征 Gt 所生成的 Ut 會帶來更加優(yōu)越的性能。最終以時間t 為步長的最終實例級占用率可以表示為:
運動軌跡規(guī)劃與查詢
在沒有高清 (HD) 地圖或預(yù)定義路線的情況下進(jìn)行規(guī)劃通常需要高級命令來指示前進(jìn)方向。對于智能車而言,其對應(yīng)的行駛動作無非包括車道保持、加減速、變道等。因此,可以粗略的將原始導(dǎo)航信號(即左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn))轉(zhuǎn)換為三個可學(xué)習(xí)的嵌入,稱為命令嵌入。由于 MotionFormer 的自車查詢已經(jīng)表達(dá)了其多模式意圖,因此,需要為其配備命令嵌入以形成“計劃查詢”。
這里對 BEV 特征 B 進(jìn)行計劃查詢,使其了解周圍環(huán)境,然后將其解碼為未來的航路點 τ?。為了進(jìn)一步避免碰撞,可以通過以下方式進(jìn)行推理優(yōu)化τ?:
其中τ?是原始規(guī)劃預(yù)測,τ*表示優(yōu)化規(guī)劃,它是從multipleshooting軌跡τ中選擇的,以最小化成本函數(shù)f(·)。O^ 是從 OccFormer 的實例占用預(yù)測合并而來的經(jīng)典二進(jìn)制占用圖。
MotionFormer 每層的輸入查詢(稱為運動查詢)包含兩個組成部分:如前所述由前一層產(chǎn)生的查詢上下文 Qctx 以及查詢位置 Qpos。具體來說,Qpos 將位置知識四重整合,如下式中所示。
其中們這些位置包括場景級錨點 Is 的位置;代理級錨點 Ia 的位置;智能體 i 的當(dāng)前位置x0和預(yù)測目標(biāo)點xl-1T。
這里利用正弦位置編碼 PE(·) 后跟 MLP 對位置點進(jìn)行編碼,并將 x0T 設(shè)置為 I s
在第一層(下標(biāo)i、k也被省略)。場景級錨點表示全局視圖中的先前運動統(tǒng)計數(shù)據(jù),而代理級錨點捕獲局部坐標(biāo)中可能的意圖。它們都通過 k-means 算法在真實軌跡的端點上進(jìn)行聚類,以縮小預(yù)測的不確定性。
與先驗知識相反,起點為每個智能體提供定制的位置嵌入,預(yù)測的終點作為動態(tài)錨以粗到細(xì)的方式逐層優(yōu)化。
基于自學(xué)習(xí)的非線性優(yōu)化
與直接訪問地面真實感知結(jié)果(即代理的位置和相應(yīng)軌跡)的傳統(tǒng)運動預(yù)測工作不同,在端到端范式中考慮了先前模塊的預(yù)測不確定性。從不完美的檢測位置或航向角回歸地面實況航跡點,這可能會導(dǎo)致預(yù)測軌跡產(chǎn)生不合實際的較大曲率和加速度。為了解決這個問題,可以采用非線性平滑器來調(diào)整目標(biāo)軌跡,并在上游模塊預(yù)測的起始點不精確的情況下使它們也可以用于未來的預(yù)測。其過程是:
其中x和x*表示真實軌跡和平滑軌跡,x是通過多次觀測生成的數(shù)據(jù),相應(yīng)的成本函數(shù)如下:
其中λxy和λgoal是超參數(shù),運動學(xué)函數(shù)集Φ有5個項,包括橫縱向加速度及其變化率、曲率、曲率變化率。成本函數(shù)規(guī)范目標(biāo)軌跡且遵守運動學(xué)約束,這種目標(biāo)軌跡優(yōu)化僅在訓(xùn)練時進(jìn)行,不影響推理。
最后,UniAD 框架中的模塊學(xué)習(xí)分兩個階段。首先聯(lián)合訓(xùn)練幾個 epoch感知部分,即跟蹤和映射模塊,然后使用所有感知、預(yù)測和規(guī)劃模塊端到端地訓(xùn)練模型 20 個 epoch。且經(jīng)驗發(fā)現(xiàn)兩階段學(xué)習(xí)訓(xùn)練更穩(wěn)定。由于 UniAD 涉及實例建模,因此在感知和預(yù)測任務(wù)中需要將預(yù)測與地面實況集配對。這里,需要在跟蹤和在線建圖階段采用二分匹配算法。至于跟蹤,來自檢測查詢的候選者與新生的地面實況對象配對,來自跟蹤查詢的預(yù)測繼承了先前幀的分配。跟蹤模塊中的匹配結(jié)果在運動和占用節(jié)點中可以被重用,以在端到端框架中對從歷史軌跡到未來運動的代理進(jìn)行一致的建模。
總結(jié)
基于深度強化學(xué)習(xí)的端到端(End-to-end)的控制架構(gòu)是自動駕駛領(lǐng)域中新興的研究熱點,它能克服傳統(tǒng)方式依賴先驗環(huán)境建模的問題,可以直接實現(xiàn)通過從感知到控制功能的映射。即,將transformer的思想整個貫穿于感知、預(yù)測、規(guī)劃、決策的整個處理過程。
本文介紹的處理算法遵循以規(guī)劃為導(dǎo)向的理念,擁抱自動駕駛框架的新前景,并證明有效任務(wù)協(xié)調(diào)的必要性,而不是獨立設(shè)計或簡單的多任務(wù)學(xué)習(xí)。并且這種UniAD作為一個利用廣泛任務(wù)的綜合性端到端系統(tǒng),可以很好的啟動關(guān)鍵組件,將查詢設(shè)計為連接所有節(jié)點的接口。因此,本文中的UniAD 享有靈活的中間表示和交換多任務(wù)知識以進(jìn)行規(guī)劃。
審核編輯:湯梓紅
-
人工智能
+關(guān)注
關(guān)注
1796文章
47734瀏覽量
240445 -
感知算法
+關(guān)注
關(guān)注
0文章
19瀏覽量
7670 -
自動駕駛
+關(guān)注
關(guān)注
785文章
13940瀏覽量
167073 -
Transformer
+關(guān)注
關(guān)注
0文章
146瀏覽量
6052
原文標(biāo)題:從Transformer探索自動駕駛感知算法提升處理策略
文章出處:【微信號:阿寶1990,微信公眾號:阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
未來已來,多傳感器融合感知是自動駕駛破局的關(guān)鍵
FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?
FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?
自動駕駛的到來
速騰聚創(chuàng)首次發(fā)布LiDAR算法 六大模塊助力自動駕駛
即插即用的自動駕駛LiDAR感知算法盒子 RS-Box
智能感知方案怎么幫助實現(xiàn)安全的自動駕駛?
自動駕駛汽車的處理能力怎么樣?
自動駕駛汽車中傳感器的分析
從輔助駕駛到自動駕駛: 感知型車輛建立在底層高質(zhì)量的傳感器數(shù)據(jù)基礎(chǔ)之上
網(wǎng)聯(lián)化自動駕駛的含義及發(fā)展方向
基于視覺的slam自動駕駛
自動駕駛技術(shù)的實現(xiàn)
詳細(xì)說明多項自動駕駛底層軟件技術(shù)
淺析自動駕駛視覺感知算法
![淺析<b class='flag-5'>自動駕駛</b>視覺<b class='flag-5'>感知</b><b class='flag-5'>算法</b>](https://file1.elecfans.com/web2/M00/8D/B4/wKgaomS_NgSAcSOeAAASIz9Kbok277.jpg)
評論