作者:| 來源:3DCV
筆者總結(jié)
本文提出了一種在線激光雷達(dá)語義分割框架MemorySeg,它利用三維潛在記憶來改進(jìn)當(dāng)前幀的預(yù)測。傳統(tǒng)的方法通常只使用單次掃描的環(huán)境信息來完成語義分割任務(wù),而忽略了觀測的時(shí)間連續(xù)性所蘊(yùn)含的上下文信息。該框架旨在解決在激光雷達(dá)表示中引入記憶的若干挑戰(zhàn),包括遮擋、資源限制和動態(tài)場景。作者引入了一種點(diǎn)級鄰域變化正則化器,用于抑制局部三維鄰域內(nèi)預(yù)測的劇烈變化,并在SemanticKITTI、nuScenes和PandaSet等公開數(shù)據(jù)集上驗(yàn)證了MemorySeg的有效性。所提出的框架構(gòu)建了周圍環(huán)境的稀疏三維潛在表示,提供了豐富的三維上下文,從而區(qū)分不同的類別,尤其是在當(dāng)前被遮擋的區(qū)域。MemorySeg優(yōu)于僅依賴激光雷達(dá)的當(dāng)前最先進(jìn)的語義分割方法。該方法能夠保留先前觀測到的區(qū)域,即使在當(dāng)前被遮擋,因?yàn)檎趽跷锖捅徽趽跷镌诩す饫走_(dá)觀測中占據(jù)不同的三維空間,而不是在距離視圖中重疊。與距離視圖(RV)相比,三維記憶為不同的類別分配了相同的表示能力,無論它們與自動駕駛車輛(SDV)的距離如何,保持了點(diǎn)之間的距離,無論視點(diǎn)或距離如何,并且學(xué)習(xí)了不同類別的尺寸先驗(yàn)知識。
我們的方法學(xué)習(xí)一個(gè)三維稀疏潛在記憶表示,以更好地將先前幀聯(lián)系起來。我們應(yīng)用 PCA 將潛在維數(shù)減少到3,并繪制為 RGB圖。
原文摘要
激光雷達(dá)點(diǎn)云的語義分割是近年來的研究熱點(diǎn),大多數(shù)現(xiàn)有方法只關(guān)注于利用單次掃描的環(huán)境信息來完成這個(gè)任務(wù)。然而,觀測序列中包含的豐富上下文信息可以有助于提高對場景中難以觀測(例如被遮擋)或觀測稀疏(例如遠(yuǎn)距離)區(qū)域的理解,并且可以在每次獲取新掃描時(shí)減少重復(fù)計(jì)算。在本文中,我們研究了如何利用過去幀的信息來在線地改進(jìn)當(dāng)前幀的預(yù)測。為此,我們提出了一種新穎的框架,用于處理激光雷達(dá)點(diǎn)云時(shí)間序列的語義分割,該框架利用記憶網(wǎng)絡(luò)來存儲、更新和檢索過去的信息。我們的框架還包括一種新的正則化器,該正則化器抑制點(diǎn)云局部鄰域內(nèi)語義預(yù)測的變化。先前的工作嘗試在范圍視圖表示中將記憶集成到語義分割中,但是這些方法無法處理鄰近行為者的移動造成的遮擋,以及場景的范圍視圖表示發(fā)生的巨大變化。我們提出的框架通過構(gòu)建周圍環(huán)境的稀疏三維潛在表示來克服這些限制。我們在SemanticKITTI、nuScenes和PandaSet上評估了我們的方法。實(shí)驗(yàn)結(jié)果表明,與僅依賴激光雷達(dá)的當(dāng)前最先進(jìn)方法相比,我們的框架表現(xiàn)更好。
方法詳解
在這一節(jié)中,我們介紹MEMORYSEG,這是一個(gè)在線語義分割框架,用于流式激光雷達(dá)點(diǎn)云,它利用三維潛在記憶來記住過去并更好地處理遮擋和稀疏觀測。在本節(jié)的后續(xù)部分,我們首先描述我們的模型構(gòu)建,然后介紹網(wǎng)絡(luò)體系結(jié)構(gòu),最后解釋學(xué)習(xí)過程。
3.1 模型構(gòu)建
令表示激光雷達(dá)掃描序列,其中是序列長度,是時(shí)間索引。每個(gè)激光雷達(dá)掃描包含第幀的個(gè)無序點(diǎn)。包含笛卡爾坐標(biāo),是激光強(qiáng)度。讓是從時(shí)間到的車輛坐標(biāo)系之間的姿態(tài)變換。
為了進(jìn)行有依據(jù)的語義預(yù)測,在本文中,我們在三維中維護(hù)一個(gè)潛在(或隱藏)記憶。這個(gè)記憶是稀疏的,因?yàn)榇蠖鄶?shù)三維空間是未被占用的。為了表示這種稀疏性,我們在時(shí)間的參數(shù)化記憶為一個(gè)稀疏體素集,其坐標(biāo)為,對應(yīng)嵌入為。是時(shí)間處潛在記憶中的體素條目數(shù),是嵌入維度。保留體素坐標(biāo)很重要,以便在參考坐標(biāo)變化時(shí)執(zhí)行對齊。我們利用基于體素的稀疏表示,因?yàn)榕c密集張量以及點(diǎn)級稀疏表示相比,它在計(jì)算上提供顯著的優(yōu)勢,而性能不會受到損害。
我們的推理過程是每當(dāng)有新的激光雷達(dá)掃描可用時(shí),就重復(fù)執(zhí)行以下三個(gè)步驟:(i)編碼器接收當(dāng)前時(shí)刻的最新激光雷達(dá)點(diǎn)云,并提取點(diǎn)級和體素級的觀測嵌入,(ii)利用新觀測的體素級嵌入更新潛在記憶,(iii)通過結(jié)合編碼器的點(diǎn)級嵌入和更新后的記憶的體素級嵌入,解碼出語義預(yù)測。我們請讀者參考圖2以更好地理解我們的方法。
記憶更新階段由于SDV移動導(dǎo)致參考框架變化,記憶和當(dāng)前激光雷達(dá)掃描的不同稀疏級別,以及其他行為者的運(yùn)動而面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),引入了特征對齊模塊(FAM)將以前的記憶狀態(tài)與當(dāng)前觀察嵌入對齊。隨后,采用自適應(yīng)填充模塊(APM)在當(dāng)前數(shù)據(jù)中填充丟失的觀察結(jié)果,并將新觀察結(jié)果添加到記憶中。然后,采用記憶完善模塊(MRM)使用填充后的觀察結(jié)果更新潛在記憶。接下來,我們將詳細(xì)解釋每個(gè)組件。
圖2. 模型概述。在編碼器處理時(shí)間t的激光雷達(dá)點(diǎn)云之后,結(jié)果特征圖用于更新潛在記憶(參見圖3了解有關(guān)記憶更新的更多詳細(xì)信息)。然后,解碼器將精煉的記憶與編碼器的點(diǎn)嵌入組合以獲得語義預(yù)測。
編碼器:我們的編碼器由點(diǎn)分支和體素分支組成。點(diǎn)分支計(jì)算點(diǎn)級嵌入,保留細(xì)節(jié);體素分支通過三維稀疏卷積塊執(zhí)行上下文推理。點(diǎn)分支為每個(gè)點(diǎn)接收一個(gè)7維特征向量,具有xyz坐標(biāo)、強(qiáng)度以及最近體素中心的相對偏移。它包含兩個(gè)共享的MLP,輸出點(diǎn)嵌入,如圖2所示。我們對屬于同一體素的點(diǎn)(體素大小為)的第一個(gè)共享MLP的點(diǎn)嵌入進(jìn)行平均,以獲得體素特征。然后,這些特征通過具有三維稀疏卷積的四個(gè)殘差塊處理,每個(gè)塊都將特征圖下采樣2倍。對具有三維稀疏卷積的兩個(gè)額外殘差塊進(jìn)行上采樣,以將稀疏特征圖恢復(fù)原始大小。與恢復(fù)原始分辨率的完整U型網(wǎng)絡(luò)不同,為了計(jì)算效率,我們只上采樣到原始大小的,并使用更粗糙的特征來更新潛在記憶,然后再解碼更細(xì)微的細(xì)節(jié)以輸出我們的語義預(yù)測。
特征對齊:隨著SDV的移動,參考框架會發(fā)生變化。我們提出特征對齊模塊(FAM)將上一幀的潛在記憶從 ego幀轉(zhuǎn)換到,并與當(dāng)前的觀察嵌入對齊。具體來說,我們獲取記憶體素坐標(biāo),并使用姿態(tài)信息將其從ego幀投影到。然后,我們使用投影坐標(biāo)并以體素大小重新采樣。如果多個(gè)條目位于同一記憶體素內(nèi),我們?nèi)∑骄鳛轶w素特征。得到的扭曲坐標(biāo)和記憶在ego幀中的嵌入分別表示為和。
圖3. 潛在記憶更新過程概述。潛在記憶嵌入使用特征對齊模塊(FAM)轉(zhuǎn)換到t的ego幀。接下來,自適應(yīng)填充模塊(APM)用于學(xué)習(xí)記憶和觀察嵌入的填充。記憶完善模塊(MRM)使用填充后的觀察嵌入更新潛在記憶。然后將更新的記憶傳遞到解碼器以生成語義預(yù)測。
自適應(yīng)填充:為了處理潛在記憶和體素級觀測嵌入的不同稀疏級別,我們提出自適應(yīng)填充模塊(APM)。參閱圖3。首先,我們以相同的體素大小重新采樣編碼器特征。同一體素內(nèi)的條目進(jìn)行平均。結(jié)果坐標(biāo)和嵌入表示為和。在本節(jié)中,為簡潔起見,我們省略了。設(shè)和為當(dāng)前掃描中記憶中不存在的新觀測的坐標(biāo)和嵌入。要獲得新條目的記憶嵌入的初始猜測,我們在其周圍鄰域內(nèi)使用加權(quán)聚合方法。這涉及考慮相對于記憶中現(xiàn)有相鄰體素的坐標(biāo)偏移,這為聚合過程提供了關(guān)于其重要性的洞察,類似于Continuous Conv。除此之外,我們還將特征相似性和特征距離作為聚合過程的額外線索。編碼特征相似性特別有用,因?yàn)樗梢詾榉峙溧徲蛑械臋?quán)重提供更多信息。在動態(tài)場景中有移動行為者時(shí),網(wǎng)絡(luò)應(yīng)該學(xué)習(xí)從相似嵌入的鄰域開始,而不是最接近的條目。更精確地說,我們在記憶中添加坐標(biāo)為的條目,每個(gè)體素的嵌入初始化如下:
其中和是體素索引,是體素在中的近鄰,是一個(gè)共享的MLP,后接softmax層在鄰域尺寸上進(jìn)行,以確保。
其次,我們標(biāo)識記憶中在當(dāng)前觀察中未被觀察到的區(qū)域,并將其坐標(biāo)和嵌入表示為和。我們以類似的方式添加條目和來完成當(dāng)前觀察。
記憶完善: 我們設(shè)計(jì)ConvGRU的稀疏版本來使用當(dāng)前填充的觀察嵌入更新上一潛在記憶,如下所示:
其中,,是降采樣特征的稀疏三維卷積塊,目的是擴(kuò)大感受野,并有上采樣層將嵌入恢復(fù)到原始大小。和是學(xué)習(xí)的信號,分別用于重置或更新記憶。我們引用讀者參考補(bǔ)充材料中有關(guān)稀疏卷積塊的詳細(xì)體系結(jié)構(gòu)。
解碼器:我們的解碼器由一個(gè)MLP、兩個(gè)帶稀疏三維卷積的殘差塊和一個(gè)線性語義頭組成。具體來說,我們首先獲取在坐標(biāo)處的對應(yīng)記憶嵌入,并將其與來自編碼器的點(diǎn)嵌入相加。然后將得到的組合嵌入體素化,體素大小為,并通過兩個(gè)上采樣特征圖回原始分辨率的殘差塊進(jìn)一步處理。與此同時(shí),一個(gè)MLP獲取體素化之前的點(diǎn)嵌入,以保留細(xì)粒度細(xì)節(jié)。最后,語義頭獲取體素和點(diǎn)嵌入的組合,為每個(gè)點(diǎn)獲得語義預(yù)測。
記憶初始化 在序列開始時(shí)(),使用第一個(gè)觀測結(jié)果初始化記憶,其中,。
3.2 學(xué)習(xí)
我們通過最小化常規(guī)分割損失函數(shù)和新的點(diǎn)級正則化器的線性組合來學(xué)習(xí)我們的分割模型,以更好地監(jiān)督網(wǎng)絡(luò)訓(xùn)練。
這里,表示按類頻率的倒數(shù)加權(quán)的交叉熵?fù)p失,以解決數(shù)據(jù)集中的類別不平衡問題。Lovasz Softmax Loss()用作交集與聯(lián)合(IoU)指標(biāo)(這是語義分割的常用評估指標(biāo))的可微分替代,以訓(xùn)練網(wǎng)絡(luò)。另外,對應(yīng)于我們提出的點(diǎn)級正則化器。,和是超參數(shù)。
點(diǎn)級平滑度:我們的正則器旨在限制語義預(yù)測在每個(gè)點(diǎn)的三維鄰域內(nèi)的顯著變化,除非這些變化發(fā)生在類別邊界上。形式化地,
這里,表示點(diǎn)周圍的真實(shí)語義變化,而對應(yīng)于點(diǎn)周圍的預(yù)測語義變化。我們使用表示預(yù)測的語義分布,使用表示真實(shí)的語義獨(dú)熱標(biāo)簽。變量表示的第個(gè)元素。表示中點(diǎn)的鄰域,||表示鄰域中的點(diǎn)數(shù)。
實(shí)驗(yàn)結(jié)果
論文針對nuScenes數(shù)據(jù)集、PandaSet數(shù)據(jù)集和SemanticKITTI數(shù)據(jù)集等進(jìn)行了與最先進(jìn)方法的比較實(shí)驗(yàn)。結(jié)果表明,MemorySeg在這些數(shù)據(jù)集上取得了更先進(jìn)的性能。
表1. 在SemanticKITTI測試集與最新方法的比較
表2. 在nuScenes激光雷達(dá)語義分割測試集與最新方法的比較
表3. 在PandaSet測試集與最新方法的比較
圖4. 在不同距離范圍的驗(yàn)證集上與單幀基線(SFB)的比較
圖5. 隨時(shí)間的MEMORYSEG預(yù)測示意圖,在頂部左上角包括來自單幀基線(SFB)的預(yù)測以及具有顏色編碼的真值
表4. 提出的網(wǎng)絡(luò)組件消融實(shí)驗(yàn)結(jié)果
表5. 提出的正則化器消融實(shí)驗(yàn)結(jié)果
結(jié)論
在本文中,我們提出了一種新的在線LiDAR分割模型MEMORYSEG,它利用一個(gè)稀疏的三維潛在記憶遞歸地累積從過去觀察中學(xué)習(xí)到的語義嵌入。我們還提出了一個(gè)新的點(diǎn)級變化正則化器來監(jiān)督三維點(diǎn)云上的語義分割學(xué)習(xí)。我們的結(jié)果表明,與僅依靠單個(gè)掃描的方法相比,我們的方法可以顯著改善遠(yuǎn)區(qū)域的語義預(yù)測,克服這些區(qū)域更加稀疏,更容易部分遮擋的困難。展望未來,我們的未來工作將關(guān)注將實(shí)例分割和跟蹤集成到端到端的增強(qiáng)記憶全景分割框架中。
審核編輯:湯梓紅
-
三維
+關(guān)注
關(guān)注
1文章
512瀏覽量
29043 -
雷達(dá)
+關(guān)注
關(guān)注
50文章
2969瀏覽量
118047 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
4031瀏覽量
190452 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24842
原文標(biāo)題:ICCV2023最新!MemorySeg:激光雷達(dá)語義分割SOTA!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論