欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PowerBEV的高效新型端到端框架基于流變形的后處理方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-06-25 16:06 ? 次閱讀

摘要

準(zhǔn)確地感知物體實例并預(yù)測它們未來的運(yùn)動是自動駕駛車輛的關(guān)鍵任務(wù),使它們能夠在復(fù)雜的城市交通中安全導(dǎo)航。雖然鳥瞰圖(BEV)表示在自動駕駛感知中是常見的,但它們在運(yùn)動預(yù)測中的潛力尚未得到充分探索。現(xiàn)有的從環(huán)繞攝像頭進(jìn)行BEV實例預(yù)測的方法依賴于多任務(wù)自回歸設(shè)置以及復(fù)雜的后處理,以便以時空一致的方式預(yù)測未來的實例。在本文中,我們不同于這中范例,提出了一個名為PowerBEV的高效新型端到端框架,采用了幾種旨在減少先前方法中固有冗余的設(shè)計選擇。首先,與其按自回歸方式預(yù)測未來,PowerBEV采用了由輕量級2D卷積網(wǎng)絡(luò)構(gòu)建的并行多尺度模塊。其次,我們證明,分割和向心反向流對于預(yù)測是足夠的,通過消除冗余輸出形式簡化了先前的多任務(wù)目標(biāo)?;诖溯敵霰硎?,我們提出了一種簡單的基于流變形的后處理方法,可在時間上產(chǎn)生更穩(wěn)定的實例關(guān)聯(lián)。通過這種輕量化但強(qiáng)大的設(shè)計,PowerBEV在NuScenes數(shù)據(jù)集上勝過了最先進(jìn)的方法,并為BEV實例預(yù)測提供了一種替代范例。

主要貢獻(xiàn)

我們提出了PowerBEV,一個新穎而優(yōu)雅的基于視覺的端到端框架,它只由2D卷積層組成,用于在BEV中執(zhí)行多個對象的感知和預(yù)測。

我們證明,由于冗余表示引起的過度監(jiān)督會影響模型的預(yù)測能力。相比之下,我們的方法通過簡單地預(yù)測分割和向心反向流來實現(xiàn)語義和實例級別的代理預(yù)測。

我們提出的基于向心反向流的提議分配優(yōu)于以前的前向流結(jié)合傳統(tǒng)的匈牙利匹配算法。

主要方法

我們的方法的框架如圖1所示。它主要由三個部分組成:感知模塊、預(yù)測模塊和后處理階段。感知模塊將M個多視角相機(jī)圖像作為個時間戳的輸入,并將他們轉(zhuǎn)換為個BEV特征圖。然后,預(yù)測模塊融合提取的BEV特征中包含的時空信息,并同時預(yù)測一系列分割地圖和向心反向流,用于未來幀。最后,通過基于變形的后處理。從預(yù)測的分割和流中恢復(fù)未來的實例預(yù)測。

0b1abd98-1151-11ee-962d-dac502259ad0.png圖1:PowerBEV的框架

1、基于LSS的感知模塊

為了獲取用于預(yù)測的視覺特征,我們遵循之前的工作,并在LSS的基礎(chǔ)上建立起從環(huán)繞攝像機(jī)中提取BEV特征網(wǎng)格。對于每個時間t的每個相機(jī)圖像,我們應(yīng)用共享的EfficientNet網(wǎng)絡(luò)來提取透視特征,其中我們將的前個通道指定為上下文特征,后面的個通道表示分類深度分布。通過外積構(gòu)造一個三維特征張量。

0b55e4b8-1151-11ee-962d-dac502259ad0.png

其中,根據(jù)估計的深度分布置信度將上下文特征提升到不同的深度中。然后,每個時間戳的每個相機(jī)特征分布映射基于對應(yīng)相機(jī)的已知內(nèi)部參數(shù)和外部參數(shù)被投影到以車輛為中心的坐標(biāo)系中。隨后,它們沿著高度維度加權(quán),以獲得時間戳t處的全局BEV狀態(tài),其中是狀態(tài)通道數(shù)量,(H,W)是BEV狀態(tài)地圖的網(wǎng)格大小。最后,所有的BEV狀態(tài)合并到當(dāng)前幀中,并像FIERY一樣堆疊,因此這追蹤表示是獨(dú)立于自車位置的當(dāng)前全局動態(tài)。

2、多尺度預(yù)測模塊

0b68b408-1151-11ee-962d-dac502259ad0.png圖2:多尺度預(yù)測模塊的結(jié)構(gòu)

獲得過去環(huán)境的簡潔表示S后,我們使用一個多尺度U-Net類編碼器解碼器架構(gòu),將觀察到的BEV特征圖作為輸入,并預(yù)測未來的分割地圖和向心反向流場,如圖2所示。為了僅使用2D卷積進(jìn)行時空特征處理,我們將時間和特征維度折疊成一個單一的維度,從而得到輸入張量。編碼器首先逐步在空間上對進(jìn)行下采樣,生成多尺度BEV特征,其中。在一個中間的預(yù)測器階段,將特征從映射到,獲取。最后,解碼器鏡像編碼器,在原始尺度上重建出未來的BEV特征。每個分支分別被監(jiān)督以預(yù)測未來的分割地圖或向心反向流場??紤]到任務(wù)和監(jiān)督的差異,我們?yōu)槊總€分支使用相同的架構(gòu)但不共享權(quán)重。與以前基于空間LSTM或空間GRU的工作相比,我們的架構(gòu)只利用2D卷積,在解決長程時間依賴性方面大大緩解了空間RNN的限制。

3、多任務(wù)的設(shè)置

現(xiàn)有的方法遵循自下而上的原則,為每個幀生成實例分割,然后根據(jù)前向流使用匈牙利匹配算法在幀之間關(guān)聯(lián)實例。因此,需要四個不同的頭部:語義分割、中心性、未來前向流和BEV中的每像素向心偏移。這導(dǎo)致由于多任務(wù)訓(xùn)練而產(chǎn)生模型冗余和不穩(wěn)定性。相比之下,我們首先發(fā)現(xiàn),流和向心偏移都是實例掩模內(nèi)的回歸任務(wù),并且流可以理解為運(yùn)動偏移量。此外,這兩個量與中心性在兩個階段中組合:(1)向心偏移將像素分組到每個幀中預(yù)測的實例中心,以將像素分配給實例ID;(2)流用于匹配兩個連續(xù)幀中的中心以進(jìn)行實例ID關(guān)聯(lián)?;谝陨戏治?,使用統(tǒng)一表示形式直觀地解決這兩個任務(wù)。為此,我們提出了向心反向流場,它是從時間t處的每個前景像素到時間t?1處關(guān)聯(lián)實例標(biāo)識的對象中心的位移向量。這將像素到像素的反向流向量和向心偏移向量統(tǒng)一為單一表示形式。使用我們提出的流,可以直接將每個占用的像素關(guān)聯(lián)到上一幀中的實例ID。這消除了將像素分配給實例的額外聚類步驟,將先前工作中使用的兩階段后處理簡化為單階段關(guān)聯(lián)任務(wù)。此外,我們發(fā)現(xiàn)語義分割地圖和中心性的預(yù)測非常相似,因為中心基本對應(yīng)于語義實例的中心位置。因此,我們建議直接從預(yù)測的分割地圖中提取局部最大值來推斷對象中心。這消除了分別預(yù)測中心的需要,如圖3所示。

0b93aff0-1151-11ee-962d-dac502259ad0.png

圖3:多任務(wù)設(shè)置

總的來說,我們的網(wǎng)絡(luò)僅僅產(chǎn)生兩個輸出,語義分割和向心反向流。我們使用top-k,k=25%的交叉熵作為語義分割損失函數(shù),平滑的L1距離作為流動損失函數(shù)??偟膿p失函數(shù)為。

0bc88c34-1151-11ee-962d-dac502259ad0.png

,和使用不確定性權(quán)重自動的更新。

4、實例關(guān)聯(lián)

0befd046-1151-11ee-962d-dac502259ad0.png圖4:實例關(guān)聯(lián)

對于實例預(yù)測,我們需要隨著時間推移將未來的實例相互關(guān)聯(lián)?,F(xiàn)有的方法使用前向流將實例中心投影到下一幀,然后使用匈牙利匹配將最近的代理中心進(jìn)行匹配,如圖4.a所示。這種方法執(zhí)行實例級別的關(guān)聯(lián),其中實例身份由其中心表示。因此,僅使用位于對象中心上的流向量用于運(yùn)動預(yù)測。這有兩個缺點(diǎn):首先,沒有考慮對象旋轉(zhuǎn);其次,單個位移向量比覆蓋整個實例的多個位移向量更容易出錯。在實踐中,這可能導(dǎo)致重疊的預(yù)測實例,導(dǎo)致錯誤的ID分配。這在長期預(yù)測范圍內(nèi)的近距離物體上尤為明顯。利用我們提出的向心反向流,我們進(jìn)一步提出了基于變形的像素級關(guān)聯(lián)來解決上述問題。我們的關(guān)聯(lián)方法的說明如圖4.b所示。對于每個前景網(wǎng)格單元,該操作將實例ID直接從前一個幀中流向量目標(biāo)處的像素傳播到當(dāng)前幀。使用此方法,每個像素的實例ID都被單獨(dú)分配,從而產(chǎn)生像素級關(guān)聯(lián)。與實例級別關(guān)聯(lián)相比,我們的方法對嚴(yán)重的流預(yù)測錯誤更具有容忍度,因為真實中心周圍的相鄰網(wǎng)格單元傾向于共享相同的身份,而錯誤往往發(fā)生在單個外圍像素上。此外,通過使用向后流變形,可以將多個未來位置與前一幀中的一個像素關(guān)聯(lián)起來。這對于多模式未來預(yù)測是有益的。正如所述,向后關(guān)聯(lián)需要在前一幀中的實例ID。特殊情況是第一個幀(t = 0)的實例分割生成,其沒有其前一幀(t = -1)的實例信息可用。因此,僅針對時間戳t = 0,我們通過將像素分組到過去實例中心來分配實例ID。

主要結(jié)果

我們首先將我們的方法與其他baseline相比較,結(jié)果如表1所示。我們的方法在感知范圍設(shè)置下的評估指標(biāo)IoU(Intersection-over-Union)和VPQ(video panoptic quality)均取得了顯著的改進(jìn)。在長距離設(shè)置中,PowerBEV的表現(xiàn)優(yōu)于重新生成的FIERY,在IoU方面提高了1.1%,在VPQ方面提高了2.9%。此外,盡管使用較低的輸入圖像分辨率和更少的參數(shù),PowerBEV在所有指標(biāo)上的表現(xiàn)都優(yōu)于BEVerse。與其他引入模型隨機(jī)過程的方法相比,PowerBEV是一種確定性方法,能夠?qū)崿F(xiàn)準(zhǔn)確的預(yù)測。這也展示了反向流在捕捉多模態(tài)未來方面的能力。

0c17f01c-1151-11ee-962d-dac502259ad0.png圖5:定量評估解決

下圖展示了我們方法的定性結(jié)果。我們展示了在三種典型駕駛場景中(城市道路上交通密集的情況、停車場中靜態(tài)車輛眾多的情況和雨天駕駛場景)與FIERY的比較。我們的方法為最常見的交通密集場景提供了更精確、更可靠的軌跡預(yù)測,這在第一個例子中變得特別明顯,其中車輛轉(zhuǎn)向自車左側(cè)的側(cè)街。而FIERY只對車輛位置作出了一些模糊的猜測,并且難以處理它們的動態(tài)特征,與之相反,我們的方法提供了更好地匹配真實車輛形狀以及未來可能軌跡的清晰物體邊界。此外,從第二個例子的比較中可以看出,我們的框架可以檢測到位于較遠(yuǎn)距離的車輛,而FIERY則失敗了。此外,我們的方法還可以檢測到在雨天場景中被墻壁遮擋的卡車,即使對于人眼來說也很難發(fā)現(xiàn)。

0c2fe5be-1151-11ee-962d-dac502259ad0.png圖6:可視化對比結(jié)果
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2736

    瀏覽量

    47780
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    403

    瀏覽量

    17553
  • 自動駕駛
    +關(guān)注

    關(guān)注

    785

    文章

    13940

    瀏覽量

    167074

原文標(biāo)題:IJCAI2023|PowerBEV:一個強(qiáng)大且輕量的環(huán)視圖像BEV實例預(yù)測框架

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TCP等效噪聲模型及擁塞控制方法研究

    TCP等效噪聲模型及擁塞控制方法研究:針對傳統(tǒng)TCP擁塞控制協(xié)議在有線/無線混合網(wǎng)絡(luò)中存在的問題,采用通信系統(tǒng)加性噪聲分析方法和信道容
    發(fā)表于 10-20 17:49 ?7次下載

    物聯(lián)網(wǎng)解決方案

    英特爾打造核心技術(shù)物聯(lián)網(wǎng)解決方案
    發(fā)表于 12-28 18:12 ?0次下載

    SDN中的時延

    隨著大規(guī)模SDN的不斷發(fā)展,用來管理和衡量網(wǎng)絡(luò)性能的指標(biāo)也越來越重要。時延就是其中重要的部分,針對該指標(biāo)已經(jīng)提出了很多計算的方法,主要分為主動探測和被動探測,但是各有優(yōu)缺點(diǎn)。因此
    發(fā)表于 12-06 15:32 ?0次下載
    SDN中的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>時延

    的自動駕駛研發(fā)系統(tǒng)介紹

    Nvidia是比較早做控制車輛工作的公司,其方法訓(xùn)練CNN模型完成從單個前向攝像頭的圖像像素車輛控制的映射。 其系統(tǒng)自動學(xué)習(xí)一些
    的頭像 發(fā)表于 07-13 09:30 ?5024次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的自動駕駛研發(fā)系統(tǒng)介紹

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像壓縮方法

    人工設(shè)計的算法分別進(jìn)行優(yōu)化近年來,基于深度神經(jīng)網(wǎng)絡(luò)的圖像壓縮方法在圖像壓縮中取得了豐碩的成果,相比傳統(tǒng)方法,
    發(fā)表于 04-08 09:30 ?16次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>圖像壓縮<b class='flag-5'>方法</b>

    基于幀級特征的說話人識別方法

    現(xiàn)有的說話人識別方法仍存在許多不足?;谠捳Z級特征輸入的方法由于語音長短不一致需要將輸入處理為同等大小,而特征訓(xùn)練加后驗分類的兩階段
    發(fā)表于 05-08 16:57 ?4次下載

    的IO鏈接解決方案

    的IO鏈接解決方案
    發(fā)表于 05-10 10:43 ?1次下載
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的IO鏈接解決方案

    采用帶有transformer的框架獲取對應(yīng)集合結(jié)果

    最近將學(xué)習(xí)的方式引入點(diǎn)云配準(zhǔn)中取得了成功,但許多工作都側(cè)重于學(xué)習(xí)特征描述符,并依賴于最近鄰特征匹配和通過RANSAC進(jìn)行離群值過濾,以獲得姿態(tài)估計的最終對應(yīng)集合。在這項工作中,我們推測注意機(jī)制可以取代顯式特征匹配和RANSAC的作用,從而提出一個
    的頭像 發(fā)表于 10-09 14:37 ?709次閱讀
    采用帶有transformer的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>框架</b>獲取對應(yīng)集合結(jié)果

    使用FastDeploy在英特爾CPU和獨(dú)立顯卡上端高效部署AI模型

    在產(chǎn)業(yè)實踐中,我們發(fā)現(xiàn)不僅 AI 推理硬件和對應(yīng)推理引擎(例如:OpenVINO Runtime)對于的性能影響大,數(shù)據(jù)預(yù)處理后處理
    的頭像 發(fā)表于 12-20 11:27 ?3318次閱讀

    新型弱監(jiān)督篇幅級手寫中文文本識別方法PageNet

    PageNet與現(xiàn)有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數(shù)據(jù)集上的識別指標(biāo)對比如下表所示??梢钥闯觯贛THv2數(shù)據(jù)集上,PageNet取得了
    的頭像 發(fā)表于 01-12 14:12 ?2211次閱讀

    構(gòu)建的流程體系

    所謂流程的架構(gòu)體系,就是一套有層次的流程管理體系。這種層次體現(xiàn)在由上至下、由整體
    的頭像 發(fā)表于 06-01 15:09 ?2138次閱讀
    構(gòu)建<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的流程體系

    PVT++:通用的預(yù)測性跟蹤框架

    本文提出通用的預(yù)測性跟蹤框架 PVT++,旨在解決目標(biāo)跟蹤的部署時的延遲問題。多種預(yù)訓(xùn)練跟蹤器在 PVT++ 框架下訓(xùn)練后“在線”跟蹤效果大幅提高,某些情況下甚至取得了與“離線”
    的頭像 發(fā)表于 07-30 22:30 ?2024次閱讀
    PVT++:通用的<b class='flag-5'>端</b>對<b class='flag-5'>端</b>預(yù)測性跟蹤<b class='flag-5'>框架</b>

    語音識別技術(shù):的挑戰(zhàn)與解決方案

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,語音識別技術(shù)得到了越來越廣泛的應(yīng)用。語音識別技術(shù)是近年來備受關(guān)注的一種新型語音識別技術(shù),它能夠直接將語音轉(zhuǎn)換成文本,省略了傳統(tǒng)的語音特征提取
    的頭像 發(fā)表于 10-18 17:06 ?1100次閱讀

    測試不正常如何處理

    測試(End-to-End Testing)是一種測試方法,它模擬用戶與系統(tǒng)的實際交互,從用戶界面開始,通過應(yīng)用程序的所有層,直到數(shù)據(jù)庫。這種測試的目的是確保系統(tǒng)的各個組件在實際
    的頭像 發(fā)表于 09-20 10:25 ?483次閱讀

    測試用例怎么寫

    測試方法,旨在驗證整個應(yīng)用程序從前端后端的流程是否能夠按照預(yù)期工作。它涉及多個系統(tǒng)組件和接口的交互,確保業(yè)務(wù)流程的完整性和正確性。 二、編寫
    的頭像 發(fā)表于 09-20 10:29 ?584次閱讀