日本大胆欧美人术艺术动态,欧美激情亚洲综合一区二区

作者 |Jone

出品 | 焉知汽車

現(xiàn)代自動駕駛系統(tǒng)的特點是按順序排列的模塊化任務(wù)，傳統(tǒng)的方法是基于標(biāo)準(zhǔn)的感知-規(guī)劃-控制這種序列式架構(gòu)的主流處理方式。即首先將感知信息處理成人類可以理解的語義信息和道路交通信息，然后基于常態(tài)化知識和規(guī)則進(jìn)行決策規(guī)劃，這種處理方式在先前常規(guī)的高速路、快速路上實現(xiàn)L2級以后以下的駕駛輔助而言是基本沒有問題的。然而，針對高階自動駕駛而言，這類專家和規(guī)則的處理方式卻難以勝任在復(fù)雜不確定的城市甚至鄉(xiāng)村場景中需要執(zhí)行的自動給駕駛?cè)蝿?wù)。

最近，自動駕駛領(lǐng)域無論是在CVPR上發(fā)表的論文還是工程化實踐中，最火的專業(yè)領(lǐng)域莫過于端到端End to End的大模型了。該模型實際上是一個抽象的概念，即只需要輸入原始數(shù)據(jù)到模型端，即可得出對應(yīng)期待的輸出。實際上，隱藏在大模型背后的便是以人工智能基礎(chǔ)深度學(xué)習(xí)之上的強化深度學(xué)習(xí)。

那么什么是強化深度學(xué)習(xí)呢，實際上，這是一種將感知、規(guī)劃、決策能力相結(jié)合的計算能力。且這種學(xué)習(xí)方式根據(jù)輸入的圖像為基礎(chǔ)，輸出段以最大限度地模仿真人思考對環(huán)境的判斷和處理，使得駕駛體驗具備靈活性、自適應(yīng)、擬人化程度更佳。更進(jìn)一步講，強化深度學(xué)習(xí)實際是一種以時間線為決策基準(zhǔn)的方式，智能體通過與環(huán)境的交互獲得必要的反饋。對這種反饋的處理模式與當(dāng)前典型深度學(xué)習(xí)（監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)）的不同之處在于：強化學(xué)習(xí)對于目標(biāo)訓(xùn)練采用的是獎勵函數(shù)而非代價函數(shù)。

眾所周知，對于自動駕駛環(huán)境場景理解中，一般使用監(jiān)督學(xué)習(xí)算法實際是標(biāo)準(zhǔn)庫的匹配過程，這是可以既快又好的學(xué)習(xí)到環(huán)境目標(biāo)。而針對規(guī)劃決策而言，則是更加擬人化的處理過程，也就是規(guī)劃與處理不再是標(biāo)準(zhǔn)的公式套用，而是將高維感知信息通過不斷的反饋、回歸映射處理實現(xiàn)到動作空間的有效映射。實踐證明，基于深度強化學(xué)習(xí)的端到端控制架構(gòu)可以規(guī)避傳統(tǒng)方式以來處理更高維度更復(fù)雜場景的自動駕駛決策規(guī)劃能力。

因此，從整體優(yōu)化角度上說，隨著深度學(xué)習(xí)的成功發(fā)展，自動駕駛算法將集合一系列任務(wù)，包括感知中的檢測、跟蹤、建圖，以及預(yù)測中的運動和占用預(yù)測。本文將跳出常規(guī)基于AI感知的數(shù)據(jù)處理模式，而將目光轉(zhuǎn)向感知后端的預(yù)測、規(guī)劃和決策模塊，將AI處理邏輯應(yīng)用在這些模塊上實現(xiàn)更加智能化的處理過程。

為了執(zhí)行各種各樣的任務(wù)并實現(xiàn)高級智能，先進(jìn)的算法是要么為單個任務(wù)部署獨立模型，要么設(shè)計具有單獨頭的多任務(wù)范例。然而，他們可能會遇到累積錯誤或任務(wù)協(xié)調(diào)不足的問題。因此，基于AI大模型的自動駕駛汽車規(guī)劃則是一種優(yōu)化整體設(shè)計框架的有效手段。以此為導(dǎo)向，需要重新審視感知和預(yù)測中的關(guān)鍵組成部分，并確定任務(wù)的優(yōu)先級，以便所有這些任務(wù)都有助于后續(xù)的任務(wù)規(guī)劃。因此，有必要推出統(tǒng)一自動駕駛（UniAD）綜合框架，將全棧駕駛?cè)蝿?wù)整合到一個網(wǎng)絡(luò)中。充分利用每個模塊的優(yōu)勢，并從全局角度為代理交互提供互補的特征抽象。各個任務(wù)間可以通過統(tǒng)一的查詢接口進(jìn)行通信，以方便彼此進(jìn)行規(guī)劃。

如上圖（a）所示，只要板載芯片的資源帶寬允許，大多數(shù)行業(yè)解決方案都會為每個任務(wù)分配獨立部署獨立模型。這樣的設(shè)計雖然簡化了跨團隊的研發(fā)難度，但由于各個任務(wù)之間相互隔離，也存在跨模塊信息丟失、錯誤累積、功能錯位的風(fēng)險。

一種更優(yōu)雅的設(shè)計是將多個特定任務(wù)頭插入共享特征提取器中，將廣泛的任務(wù)納入多任務(wù)學(xué)習(xí)（MTL）范式中，如上圖（b）所示。這是許多領(lǐng)域的流行做法，包括自動駕駛通用視覺算法（例如 Transformer、BEV ）以及芯片行業(yè)（例如 Mobileye、Tesla、Nvidia 等）。在 MTL 中，跨任務(wù)的協(xié)同訓(xùn)練策略可以利用特征抽象毫不費力地擴展到額外任務(wù)，并節(jié)省板載芯片的計算成本。然而，這樣的方案可能會導(dǎo)致不良的“負(fù)遷移”。

相比之下，端到端自動駕駛模型的出現(xiàn)將所有節(jié)點從感知、預(yù)測到規(guī)劃統(tǒng)一為一個整體。前面任務(wù)的選擇和優(yōu)先級將有利于后續(xù)任務(wù)的規(guī)劃。系統(tǒng)應(yīng)該以規(guī)劃為導(dǎo)向，對某些組件進(jìn)行精心設(shè)計，使得很少有像獨立選項那樣的累積誤差或像MTL方案中的負(fù)轉(zhuǎn)移。

遵循端到端范式，一種“白板”實踐是直接預(yù)測計劃軌跡，無需對感知和預(yù)測進(jìn)行任何明確的監(jiān)督，如上圖（c.1）所示。雖然這樣的方向值得進(jìn)一步探索，但其安全保障和可解釋性不足，尤其是對于高度動態(tài)的城市場景。在本文中，我們從另一個角度提出以下問題：對于一個可靠的、面向規(guī)劃的自動駕駛系統(tǒng)，如何設(shè)計有利于規(guī)劃的管道？哪些前面的任務(wù)是必需的？

直觀的解決方案是感知周圍的物體、預(yù)測未來的行為并明確地計劃安全的操作，如上圖（c.2）所示。在這方面已經(jīng)有不少實踐提供了很好的見解并取得了令人印象深刻的表現(xiàn)。然而，細(xì)節(jié)決定成敗，以前的工作或多或少沒有考慮某些組成部分，比如以規(guī)劃為導(dǎo)向的必要性。

統(tǒng)一的自動駕駛算法框架

最近的研究證明了Transformer 結(jié)構(gòu)在感知任務(wù)上的有效性，受此啟發(fā)，在端到端設(shè)置中也將這種時序上的預(yù)測模式應(yīng)用到了各個后端處理中，這里我們簡稱為“xxxFormer”。首先，我們引入一個統(tǒng)一的自動駕駛算法框架---UniAD ，即利用 ffve 基本任務(wù)來構(gòu)建安全、魯棒的系統(tǒng)。UniAD 的設(shè)計本著以規(guī)劃為導(dǎo)向的精神，這不僅僅是一個簡單的工程任務(wù)堆棧，而是一個連接所有節(jié)點的基于查詢設(shè)計的關(guān)鍵組件。與經(jīng)典的邊界框表示相比，查詢受益于更大的接受場，以減輕上游預(yù)測的復(fù)合誤差。此外，查詢可以靈活地對各種交互進(jìn)行建模和編碼，例如多個代理之間的關(guān)系。UniAD是一個全面研究自動駕駛領(lǐng)域感知、預(yù)測和規(guī)劃等多種任務(wù)的聯(lián)合工作。通過這樣的設(shè)計希望能夠?qū)ψ詣玉{駛系統(tǒng)的目標(biāo)驅(qū)動設(shè)計有所啟發(fā)，為協(xié)調(diào)各種駕駛?cè)蝿?wù)提供一個起點。

這種遵循以規(guī)劃為導(dǎo)向的理念精心設(shè)計，不是簡單的任務(wù)堆棧，而是研究每個模塊在感知和預(yù)測中的效果，利用從先前節(jié)點到駕駛場景中最終規(guī)劃的聯(lián)合優(yōu)勢。所有感知和預(yù)測模塊均采用 Transformer Decoder 結(jié)構(gòu)設(shè)計，以任務(wù)查詢作為連接各個節(jié)點的接口。一個簡單的基于注意力的規(guī)劃器最終會考慮從先前節(jié)點提取的知識來預(yù)測自車未來路徑點。期間，將會使用基于視覺形成的占用地圖。

接下來將對如上圖所示的整個數(shù)據(jù)鏈路中的預(yù)測模型進(jìn)行完整性說明。

首先，軌跡生成是聯(lián)合執(zhí)行檢測和多目標(biāo)跟蹤（MOT），這種方式無需后處理，而是采用取查詢設(shè)計的方式。除了對象檢測中使用的傳統(tǒng)檢測查詢之外，還引入了額外的跟蹤查詢來處理跨幀跟蹤代理。具體來說，就是在每個時間步，初始化的檢測查詢負(fù)責(zé)檢測第一次感知到的新生代理，而跟蹤查詢則保持對在先前幀中檢測到的那些代理進(jìn)行建模。檢測查詢和跟蹤查詢都通過關(guān)注 BEV 特征 B 來捕獲代理抽象。隨著場景不斷發(fā)展，當(dāng)前幀的跟蹤查詢與自注意力模塊中先前記錄的查詢進(jìn)行交互，以聚合時間信息，直到在特定時間段內(nèi)未跟蹤到目標(biāo)且相應(yīng)的代理完全消失。

如上圖所示，UniAD最終包括四個基于Transformer解碼器的感知和預(yù)測模塊以及一個規(guī)劃器。查詢 Q 起到連接管道的作用，以對駕駛場景中實體的不同交互進(jìn)行建模。具體來說，需要將一系列多攝像頭圖像輸入特征提取器，并通過 BEVFormer 中現(xiàn)成的 BEV 編碼器將所得透視圖特征轉(zhuǎn)換為無擴散鳥瞰圖 (BEV) 特征B。UniAD 并不局限于特定的 BEV 編碼器，并且可以利用其他替代方案通過長期時間的多模態(tài)融合來提取更豐富的 BEV 表示。在 TrackFormer 中，從特征圖 B 查詢到可學(xué)習(xí)的跟蹤信息代理。TrackFormer 包含 N 層，最終輸出狀態(tài) QA 為下游預(yù)測任務(wù)提供 Na 個有效代理的知識。除了對自車周圍的其他代理進(jìn)行編碼的查詢之外，還在查詢集中引入了一個特定的自車查詢，以顯式地對自動駕駛車輛本身進(jìn)行建模，這將進(jìn)一步用于規(guī)劃。

MapFormer 則將地圖作為道路元素（例如車道和分隔線）的語義抽象進(jìn)行查詢，并執(zhí)行地圖的全景分割。這種基于 2D 全景分割方法 Panoptic SegFormer進(jìn)行地圖設(shè)計原理是將道路元素稀疏地表示為地圖查詢，以幫助下游進(jìn)行運動預(yù)測，并對位置和結(jié)構(gòu)知識進(jìn)行編碼。對于不同的駕駛場景而言，將車道、分隔線和十字路口設(shè)置為關(guān)注目標(biāo)，并將可行駛區(qū)域設(shè)置為某一特定的其他目標(biāo)。此外，MapFormer還有N個堆疊層，每層的輸出結(jié)果都受到監(jiān)督，而只有最后一層中更新的查詢QM被轉(zhuǎn)發(fā)到MotionFormer以進(jìn)行智駕車與地圖的交互。

通過上述表示代理和地圖的查詢，MotionFormer 捕獲代理和地圖之間的交互，并預(yù)測每個代理的未來軌跡。接下來，OccFormer 采用 BEV 特征 B 作為查詢，配備智能體作為鍵和值，并在保留智駕車輛的情況下預(yù)測多步未來占用情況。最后，Planner利用 MotionFormer 富有表現(xiàn)力的自車查詢來預(yù)測規(guī)劃結(jié)果，并使其遠(yuǎn)離 OccFormer 預(yù)測的占用區(qū)域以避免碰撞。

以上過程中，如果考慮自車行駛的周邊場景都是智能體，且由于每個智能體的動作都會對場景中的其他智能體產(chǎn)生重大影響，因此該模塊對所有考慮的智能體都可以進(jìn)行聯(lián)合預(yù)測。同時，通過設(shè)計一個自車查詢來顯式地建模，并使其能夠在這種以場景為中心的范例中與其他代理進(jìn)行交互。

運動預(yù)測與占用預(yù)測

接下來將詳細(xì)介紹相關(guān)運動預(yù)測和占用預(yù)測的詳細(xì)方法。

1、運動預(yù)測

首先，通過分別從 TrackFormer 和 MapFormer 對動態(tài)代理 QA 和靜態(tài)地圖 QM 進(jìn)行高度抽象的查詢，MotionFormer 以場景為中心的方式預(yù)測所有代理的多模態(tài)未來運動，即前 k 個可能的軌跡。這種范例通過一次前向傳遞在幀中產(chǎn)生多智能體軌跡，這大大節(jié)省了將整個場景與每個智能體坐標(biāo)對齊的計算成本。同時，考慮到未來的動態(tài)，通過 MotionFormer 傳遞來自 TrackFormer 的自車查詢，以使自車與其他環(huán)境目標(biāo)進(jìn)行交互。形式上，輸出運動被表述為 {x?i, k ∈ RT×2|i = 1,......N; k=1，... ..., K} ，其中 i 表示索引代理，k 索引軌跡模態(tài)，T 是預(yù)測范圍的長度。

運動預(yù)測由 N 層組成，每層捕獲三種類型的交互：自車與周邊環(huán)境目標(biāo)、自車與地圖和自車與潛在風(fēng)險目標(biāo)。對于每個運動查詢 Qi,k，其與其他代理 QA 或地圖元素 QM 之間的交互可以表示為：

其中，MHCA、MHSA 分別表示多頭交叉注意力和多頭自注意力。由于在完善預(yù)測軌跡中更加關(guān)注預(yù)期位置（即目標(biāo)點），因此通過可變形注意力可以設(shè)計一個代理目標(biāo)點注意力，如下所示：

其中 x^l?1T 是上一層預(yù)測軌跡的端點。DeformAttn(q,r,x) 是一個可變形注意力模塊，接收查詢q、參考點 r 和空間特征 x。它對參考點周圍的空間特征進(jìn)行稀疏關(guān)注，通過這種方式，隨著了解端點周圍環(huán)境，預(yù)測軌跡將進(jìn)一步細(xì)化。所有這三種交互都是并行建模的，其中生成的 Qa、Qm 和 Qg 被連接并傳遞到多層感知器 (MLP)，從而生成查詢上下文 Qctx。然后，Qctx被發(fā)送到后續(xù)層進(jìn)行細(xì)化或解碼為最后一層的預(yù)測結(jié)果。

2、占用網(wǎng)格圖預(yù)測

“占用網(wǎng)格圖”這是一個當(dāng)前智能駕駛相對較火的術(shù)語，其本身是一種離散化的 BEV 表示，其中每個單元格都持有一個指示其是否被占用的信念，而占用預(yù)測任務(wù)是發(fā)現(xiàn)網(wǎng)格圖未來如何變化。先前經(jīng)典的方法利用 RNN 結(jié)構(gòu)根據(jù)觀察到的 BEV 特征在時間上擴展未來預(yù)測。

然而，這種高度依賴于手工制作的聚類后處理來生成每個智能體占用圖，因為它們通過將 BEV 特征作為一個整體壓縮到 RNN 隱藏狀態(tài)，而這其中大多與智能體無關(guān)。由于代理知識的使用不足，他們很難預(yù)測全局所有代理的行為，這對于理解場景如何演變至關(guān)重要。為了解決這個問題，就需要進(jìn)一步詳細(xì)介紹占用網(wǎng)絡(luò)預(yù)測 OccFormer 。

在占用網(wǎng)格預(yù)測中，主要在兩個方面結(jié)合了場景級和代理級語義：

（1）密集場景特征在展開到未來視野時通過精心設(shè)計的注意力模塊獲取代理級特征；

（2）我們通過代理級特征和密集場景特征之間的矩陣乘法輕松產(chǎn)生實例占用率，而無需進(jìn)行繁重的后處理。

OccFormer 由 To 順序塊組成，其中 To 表示預(yù)測范圍。由于密集表示占用的計算成本較高，因此在運動任務(wù)中 To 通常小于 T。每個塊將來自前一層的豐富代理特征 Gt 和狀態(tài)（密集特征）F t?1 作為輸入，并考慮實例級和場景級信息生成時間步 t 的密集特征 Ft。

為了獲得具有動態(tài)和空間先驗的代理特征Gt，可表示為 QX ∈ R Na×D 的模態(tài)維度中對來自 MotionFormer 的最大池運動查詢進(jìn)行最大池化，其中 D 作為特征維度。通過a將其與上游軌跡查詢QA和當(dāng)前位置嵌入PA融合時間特定 MLP：

其中[·]表示串聯(lián)。對于場景級知識，為了提高訓(xùn)練效率，將 BEV 特征 B 縮小到 1/4 分辨率，以作為第一個塊輸入 F0。為了進(jìn)一步節(jié)省訓(xùn)練內(nèi)存，每個塊都遵循下采樣-上采樣方式，并注意中間的模塊以 1/8 自縮放特征進(jìn)行像素代理交互，表示為 Ftds。

像素與代理交互旨在預(yù)測未來占用情況時輸出統(tǒng)一場景和代理級別的理解。將密集特征 Ftds 作為查詢輸入，將實例級特征作為鍵和值，以隨著時間的推移更新密集特征。具體來說，F(xiàn)tds 通過自注意力層來對遠(yuǎn)處網(wǎng)格之間的響應(yīng)進(jìn)行建模，然后交叉注意力層對代理特征Gt 和每個網(wǎng)格特征之間的交互進(jìn)行建模。此外，為了對齊像素-代理對應(yīng)關(guān)系，通過注意掩模來約束交叉注意，該掩模限制每個像素僅在時間步 t 處查看占據(jù)它的代理。稠密特征的更新過程可表述為：

注意掩碼 Ot m 在語義上與占用相似，是通過將額外的代理級特征與密集特征 Ftds 相乘而生成的，其中將此處的代理級特征命名為掩碼特征Mt = MLP(Gt )。經(jīng)過方程式中的交互過程后，Dtds 被上采樣到 B 的 1/4 大小。進(jìn)一步將 Dtds 與塊輸入 Ft?1 作為殘差連接相加，并將得到的特征 Ft 傳遞到下一個塊。

接下來是生成實例級占用率。它代表保留每個代理身份的占用情況。它可以通過矩陣乘法簡單地繪制出來，就像最近基于查詢的分割工作一樣。形式上，為了獲得 BEV 特征 B 的原始大小 H ×W 的占用預(yù)測，場景級特征 Ft需要通過卷積解碼器上采樣Ft dec ∈ R C×H×W，其中 C 是通道維度。對于代理級特征，我們進(jìn)一步通過另一個 MLP 將粗掩模特征 Mt 更新為占用特征 Ut ∈ R Na×C。從經(jīng)驗發(fā)現(xiàn)，從掩碼特征 Mt 而不是原始代理特征 Gt 所生成的 Ut 會帶來更加優(yōu)越的性能。最終以時間t 為步長的最終實例級占用率可以表示為：

運動軌跡規(guī)劃與查詢

在沒有高清 (HD) 地圖或預(yù)定義路線的情況下進(jìn)行規(guī)劃通常需要高級命令來指示前進(jìn)方向。對于智能車而言，其對應(yīng)的行駛動作無非包括車道保持、加減速、變道等。因此，可以粗略的將原始導(dǎo)航信號（即左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn)）轉(zhuǎn)換為三個可學(xué)習(xí)的嵌入，稱為命令嵌入。由于 MotionFormer 的自車查詢已經(jīng)表達(dá)了其多模式意圖，因此，需要為其配備命令嵌入以形成“計劃查詢”。

這里對 BEV 特征 B 進(jìn)行計劃查詢，使其了解周圍環(huán)境，然后將其解碼為未來的航路點 τ?。為了進(jìn)一步避免碰撞，可以通過以下方式進(jìn)行推理優(yōu)化τ?：

其中τ?是原始規(guī)劃預(yù)測，τ*表示優(yōu)化規(guī)劃，它是從multipleshooting軌跡τ中選擇的，以最小化成本函數(shù)f(·)。O^ 是從 OccFormer 的實例占用預(yù)測合并而來的經(jīng)典二進(jìn)制占用圖。

MotionFormer 每層的輸入查詢（稱為運動查詢）包含兩個組成部分：如前所述由前一層產(chǎn)生的查詢上下文 Qctx 以及查詢位置 Qpos。具體來說，Qpos 將位置知識四重整合，如下式中所示。

其中們這些位置包括場景級錨點 Is 的位置；代理級錨點 Ia 的位置；智能體 i 的當(dāng)前位置x0和預(yù)測目標(biāo)點xl-1T。

這里利用正弦位置編碼 PE(·) 后跟 MLP 對位置點進(jìn)行編碼，并將 x0T 設(shè)置為 I s

在第一層（下標(biāo)i、k也被省略）。場景級錨點表示全局視圖中的先前運動統(tǒng)計數(shù)據(jù)，而代理級錨點捕獲局部坐標(biāo)中可能的意圖。它們都通過 k-means 算法在真實軌跡的端點上進(jìn)行聚類，以縮小預(yù)測的不確定性。

與先驗知識相反，起點為每個智能體提供定制的位置嵌入，預(yù)測的終點作為動態(tài)錨以粗到細(xì)的方式逐層優(yōu)化。

基于自學(xué)習(xí)的非線性優(yōu)化

與直接訪問地面真實感知結(jié)果（即代理的位置和相應(yīng)軌跡）的傳統(tǒng)運動預(yù)測工作不同，在端到端范式中考慮了先前模塊的預(yù)測不確定性。從不完美的檢測位置或航向角回歸地面實況航跡點，這可能會導(dǎo)致預(yù)測軌跡產(chǎn)生不合實際的較大曲率和加速度。為了解決這個問題，可以采用非線性平滑器來調(diào)整目標(biāo)軌跡，并在上游模塊預(yù)測的起始點不精確的情況下使它們也可以用于未來的預(yù)測。其過程是：

其中x和x*表示真實軌跡和平滑軌跡，x是通過多次觀測生成的數(shù)據(jù)，相應(yīng)的成本函數(shù)如下：

其中λxy和λgoal是超參數(shù)，運動學(xué)函數(shù)集Φ有5個項，包括橫縱向加速度及其變化率、曲率、曲率變化率。成本函數(shù)規(guī)范目標(biāo)軌跡且遵守運動學(xué)約束，這種目標(biāo)軌跡優(yōu)化僅在訓(xùn)練時進(jìn)行，不影響推理。

最后，UniAD 框架中的模塊學(xué)習(xí)分兩個階段。首先聯(lián)合訓(xùn)練幾個 epoch感知部分，即跟蹤和映射模塊，然后使用所有感知、預(yù)測和規(guī)劃模塊端到端地訓(xùn)練模型 20 個 epoch。且經(jīng)驗發(fā)現(xiàn)兩階段學(xué)習(xí)訓(xùn)練更穩(wěn)定。由于 UniAD 涉及實例建模，因此在感知和預(yù)測任務(wù)中需要將預(yù)測與地面實況集配對。這里，需要在跟蹤和在線建圖階段采用二分匹配算法。至于跟蹤，來自檢測查詢的候選者與新生的地面實況對象配對，來自跟蹤查詢的預(yù)測繼承了先前幀的分配。跟蹤模塊中的匹配結(jié)果在運動和占用節(jié)點中可以被重用，以在端到端框架中對從歷史軌跡到未來運動的代理進(jìn)行一致的建模。

總結(jié)

基于深度強化學(xué)習(xí)的端到端（End-to-end）的控制架構(gòu)是自動駕駛領(lǐng)域中新興的研究熱點，它能克服傳統(tǒng)方式依賴先驗環(huán)境建模的問題，可以直接實現(xiàn)通過從感知到控制功能的映射。即，將transformer的思想整個貫穿于感知、預(yù)測、規(guī)劃、決策的整個處理過程。

本文介紹的處理算法遵循以規(guī)劃為導(dǎo)向的理念，擁抱自動駕駛框架的新前景，并證明有效任務(wù)協(xié)調(diào)的必要性，而不是獨立設(shè)計或簡單的多任務(wù)學(xué)習(xí)。并且這種UniAD作為一個利用廣泛任務(wù)的綜合性端到端系統(tǒng)，可以很好的啟動關(guān)鍵組件，將查詢設(shè)計為連接所有節(jié)點的接口。因此，本文中的UniAD 享有靈活的中間表示和交換多任務(wù)知識以進(jìn)行規(guī)劃。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1796

文章
47734

瀏覽量
240445
感知算法

感知算法

+關(guān)注

關(guān)注
0

文章
19

瀏覽量
7670
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
785

文章
13940

瀏覽量
167073
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
146

瀏覽量
6052

原文標(biāo)題：從Transformer探索自動駕駛感知算法提升處理策略

文章出處：【微信號：阿寶1990，微信公眾號：阿寶1990】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

未來已來，多傳感器融合感知是自動駕駛破局的關(guān)鍵

的架構(gòu)，預(yù)計未來許多智能駕駛團隊都會引入“占用網(wǎng)絡(luò)”來提升系統(tǒng)能力。多維像素的應(yīng)用前景非常廣闊。昱感微的融合感知技術(shù)+BEV +Transformer+占用網(wǎng)格有望成為L3/L4級自動駕駛

發(fā)表于 04-11 10:26

FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用？

是FPGA在自動駕駛領(lǐng)域的主要應(yīng)用：一、感知算法加速圖像處理：自動駕駛中需要通過攝像頭獲取并識別道路信息和行駛環(huán)境，這涉及到大量的圖像

發(fā)表于 07-29 17:09

FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?

領(lǐng)域的主要優(yōu)勢：高性能與并行處理能力： FPGA內(nèi)部包含大量的邏輯門和可配置的連接，能夠同時處理多個數(shù)據(jù)流和計算任務(wù)。這種并行處理能力使得FPGA在處理

發(fā)表于 07-29 17:11

自動駕駛的到來

　　傳統(tǒng)汽車廠商更趨向于通過技術(shù)的不斷積累，場景的不斷豐富，逐步從輔助駕駛過渡到半自動駕駛，進(jìn)而在將來最終實現(xiàn)無人駕駛;某些高科技公司則希望通過各種外部傳感器實時采集海量數(shù)據(jù)，處理器經(jīng)

發(fā)表于 06-08 15:25

速騰聚創(chuàng)首次發(fā)布LiDAR算法六大模塊助力自動駕駛

、三維數(shù)據(jù)處理算法和深度學(xué)習(xí)技術(shù)相結(jié)合，讓機器人擁有超越人類眼睛的環(huán)境感知能力，目前主要致力自動駕駛領(lǐng)域的研發(fā)。2016年12月底，牛車網(wǎng)曾采訪速騰聚創(chuàng)創(chuàng)始人兼CEO邱純鑫，2年多的時間，他已帶領(lǐng)企業(yè)完成

發(fā)表于 10-13 16:08

即插即用的自動駕駛LiDAR感知算法盒子 RS-Box

RS-LiDAR-Algorithms 感知算法。經(jīng)過與多個自動駕駛汽車研發(fā)團隊的聯(lián)合調(diào)試打磨，RS-LiDAR-Algorithms 目前已經(jīng)可以駕馭常見的大部分自動駕駛場景，其以

發(fā)表于 12-15 14:20

智能感知方案怎么幫助實現(xiàn)安全的自動駕駛？

未來，自動駕駛將不再是科幻電影里的橋段，這是未來汽車的一個趨勢，感知是自動駕駛的重要組成部分，同時安全性至關(guān)重要。作為全球第7大汽車半導(dǎo)體供應(yīng)商，安森美半導(dǎo)體提供全面的智能感知方案，包

發(fā)表于 07-31 07:11

自動駕駛汽車的處理能力怎么樣？

作在未來20 - 30年中，自動駕駛汽車（AV）將改變我們的駕駛習(xí)慣、運輸行業(yè)并更廣泛地影響社會。我們不僅能夠?qū)⑵囌賳镜轿覀兊募议T口并在使用后將其送走，自動駕駛汽車還將挑戰(zhàn)個人擁有汽車的想法，并

發(fā)表于 08-07 07:13

自動駕駛汽車中傳感器的分析

特斯拉在五月份發(fā)生的自動駕駛事故，和最近在Defcon上演示的如何干擾傳感器，都充分說明了傳感器在自動駕駛中的重要性：環(huán)境感知是自動駕駛實現(xiàn)的基礎(chǔ)，如果不能正確地

發(fā)表于 05-14 07:34

從輔助駕駛到自動駕駛: 感知型車輛建立在底層高質(zhì)量的傳感器數(shù)據(jù)基礎(chǔ)之上

的。就像最初的登月一樣，在通往安全自動駕駛車輛的道路上還存在許多障礙。最近發(fā)生的涉及自動駕駛車輛的事故助長了唱反調(diào)者的聲勢，他們認(rèn)為車輛及其行駛環(huán)境太復(fù)雜，變數(shù)太多，而算法和軟件仍然錯誤太多。對于參與了

發(fā)表于 06-16 18:53

網(wǎng)聯(lián)化自動駕駛的含義及發(fā)展方向

　　隨著自動駕駛的快速發(fā)展，新技術(shù)逐漸涌現(xiàn)，通信技術(shù)被產(chǎn)業(yè)認(rèn)為是未來網(wǎng)聯(lián)化自動駕駛發(fā)展的關(guān)鍵技術(shù)。從通信角度出發(fā)，分析通信技術(shù)為自動駕駛在技術(shù)及可靠性、成本控制、以及社會效益方面帶來的提升

發(fā)表于 01-12 15:42

基于視覺的slam自動駕駛

基于視覺的slam自動駕駛，這是我們測試的視頻《基于slam算法的智能機器人》調(diào)研分析報告項目背景分析機器人曾經(jīng)是科幻電影中的形象，可目前已經(jīng)漸漸走入我們的生活。機器人技術(shù)以包含機械、電子、自動

發(fā)表于 08-09 09:37

自動駕駛技術(shù)的實現(xiàn)

的帶寬有了更高的要求。從而使用以太網(wǎng)技術(shù)及中央域控制(Domain)和區(qū)域控制(Zonal)架構(gòu)是下一代車載網(wǎng)絡(luò)的發(fā)展方向。然而對于自動駕駛技術(shù)的實現(xiàn)，涉及到感知、規(guī)劃、執(zhí)行三個層面。由于車輛行...

發(fā)表于 09-03 08:31

詳細(xì)說明多項自動駕駛底層軟件技術(shù)

軟件中，針對面向服務(wù)架構(gòu)SOA開發(fā)需要使用高性能的處理器，自適應(yīng)汽車開放系統(tǒng)架構(gòu)AP Autosar有著不可比擬的優(yōu)勢?！　《鴳?yīng)用軟件中，自動駕駛整體架構(gòu)主要涉及感知、規(guī)劃、決策、控制等節(jié)點。通過

發(fā)表于 11-09 16:09

淺析自動駕駛視覺感知算法

環(huán)境感知是自動駕駛的第一環(huán)，是車輛和環(huán)境交互的紐帶。一個自動駕駛系統(tǒng)整體表現(xiàn)的好壞，很大程度上都取決于感知系統(tǒng)的好壞。目前，環(huán)境感知技術(shù)有兩

發(fā)表于 07-25 10:36 ?577次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

自動駕駛感知算法提升處理策略

評論

未來已來，多傳感器融合感知是自動駕駛破局的關(guān)鍵

FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用？

FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?

自動駕駛的到來

速騰聚創(chuàng)首次發(fā)布LiDAR算法六大模塊助力自動駕駛

即插即用的自動駕駛LiDAR感知算法盒子 RS-Box

智能感知方案怎么幫助實現(xiàn)安全的自動駕駛？

自動駕駛汽車的處理能力怎么樣？

自動駕駛汽車中傳感器的分析

從輔助駕駛到自動駕駛: 感知型車輛建立在底層高質(zhì)量的傳感器數(shù)據(jù)基礎(chǔ)之上

網(wǎng)聯(lián)化自動駕駛的含義及發(fā)展方向

基于視覺的slam自動駕駛

自動駕駛技術(shù)的實現(xiàn)

詳細(xì)說明多項自動駕駛底層軟件技術(shù)

淺析自動駕駛視覺感知算法