作者:PCIPG-HAY
?
現(xiàn)有的 3D 實(shí)例分割方法以自下而上的設(shè)計(jì)為主——手動(dòng)微調(diào)算法將點(diǎn)分組為簇,然后是細(xì)化網(wǎng)絡(luò)。然而,由于依賴于聚類的質(zhì)量,當(dāng)(1)具有相同語(yǔ)義類的附近對(duì)象被打包在一起,或(2)具有松散連接區(qū)域的大型對(duì)象時(shí),這些方法會(huì)產(chǎn)生容易受到影響的結(jié)果。為了解決這些限制,我們引入了 ISBNet,這是一種新穎的cluster-free方法,它將實(shí)例表示為內(nèi)核并通過(guò)動(dòng)態(tài)卷積解碼實(shí)例掩碼。為了有效地生成高召回率和判別力的內(nèi)核,我們提出了一種名為“實(shí)例感知最遠(yuǎn)點(diǎn)采樣”的簡(jiǎn)單策略來(lái)對(duì)候選進(jìn)行采樣,并利用受 PointNet++ 啟發(fā)的本地聚合層對(duì)候選特征進(jìn)行編碼。此外,我們還表明,在動(dòng)態(tài)卷積中預(yù)測(cè)和利用 3D 軸對(duì)齊邊界框可以進(jìn)一步提高性能。我們的方法在 ScanNetV2 (55.9)、S3DIS (60.8) 和 STPLS3D (49.2) 上的 AP 上設(shè)置了新的最先進(jìn)結(jié)果,并保留了快速推理時(shí)間(ScanNetV2 上每個(gè)場(chǎng)景 237 毫秒)。
1.引言
3D實(shí)例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問(wèn)題。給定由點(diǎn)云表示的 3D 場(chǎng)景,我們尋求為每個(gè)點(diǎn)分配語(yǔ)義類和唯一的實(shí)例標(biāo)簽。 3DIS 是一項(xiàng)重要的 3D 感知任務(wù),在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域有著廣泛的應(yīng)用,其中可以利用點(diǎn)云數(shù)據(jù)來(lái)補(bǔ)充 2D 圖像提供的信息。與 2D 圖像實(shí)例分割 (2DIS) 相比,3DIS 可以說(shuō)更難,因?yàn)橥庥^和空間范圍的變化更大,而且點(diǎn)云分布不均勻,即靠近物體表面密集而其他地方稀疏。因此,將 2DIS 方法應(yīng)用于 3DIS 并非易事。
3DIS 的典型方法是 DyCo3D,采用動(dòng)態(tài)卷積來(lái)預(yù)測(cè)實(shí)例掩碼。具體來(lái)說(shuō),點(diǎn)被聚類、體素化,并通過(guò) 3D Unet 生成實(shí)例內(nèi)核,用于與場(chǎng)景中所有點(diǎn)的特征進(jìn)行動(dòng)態(tài)卷積。這種方法如圖 2 (a) 所示。然而,這種方法有一些局限性。首先,聚類算法嚴(yán)重依賴質(zhì)心偏移預(yù)測(cè),其質(zhì)量在以下情況下顯著惡化:(1) 對(duì)象密集,導(dǎo)致兩個(gè)對(duì)象可能被錯(cuò)誤地組合在一起作為一個(gè)對(duì)象,或 (2) 各部分連接松散的大型對(duì)象結(jié)果聚類在不同的對(duì)象中。這兩種情況如圖 1 所示。其次,點(diǎn)的特征主要編碼對(duì)象外觀,其不足以區(qū)分不同的實(shí)例,特別是在具有相同語(yǔ)義類的對(duì)象之間。這里也推薦「3D視覺工坊」新課程《三維點(diǎn)云處理:算法與實(shí)戰(zhàn)匯總》。
圖 1. 在 DyCo3D中,內(nèi)核預(yù)測(cè)質(zhì)量很大程度上受到基于質(zhì)心的聚類算法的影響,該算法有兩個(gè)問(wèn)題:1 對(duì)附近實(shí)例進(jìn)行錯(cuò)誤分組,2 將大對(duì)象過(guò)度分割成多個(gè)片段。我們的方法通過(guò)實(shí)例感知點(diǎn)采樣解決了這些問(wèn)題,取得了更好的結(jié)果。每個(gè)樣本點(diǎn)都會(huì)聚合來(lái)自其本地上下文的信息,以生成用于預(yù)測(cè)其自己的對(duì)象掩碼的內(nèi)核,并且最終實(shí)例將由 NMS 進(jìn)行過(guò)濾和選擇。
為了解決 DyCo3D 的局限性,我們提出了 ISBNet,這是一種用于 3DIS 的無(wú)集群框架,具有實(shí)例感知最遠(yuǎn)點(diǎn)采樣和框感知?jiǎng)討B(tài)卷積。首先,我們重新審視最遠(yuǎn)點(diǎn)采樣(FPS)和大量聚類方法,發(fā)現(xiàn)這些算法產(chǎn)生的實(shí)例召回率相當(dāng)?shù)汀=Y(jié)果,在后續(xù)階段遺漏了許多對(duì)象,導(dǎo)致性能不佳。受此啟發(fā),我們提出了實(shí)例感知最遠(yuǎn)點(diǎn)采樣(IA-FPS),其目的是在具有高實(shí)例召回率的 3D 場(chǎng)景中對(duì)查詢候選進(jìn)行采樣。然后,我們介紹點(diǎn)聚合器,將 IA-FPS 與本地聚合層結(jié)合起來(lái),將實(shí)例的語(yǔ)義特征、形狀和大小編碼為實(shí)例特征。
此外,對(duì)象的 3D 邊界框是現(xiàn)有的監(jiān)督,但尚未在 3D 實(shí)例分割任務(wù)中進(jìn)行探索。因此,我們?cè)谀P椭刑砑右粋€(gè)輔助分支來(lái)聯(lián)合預(yù)測(cè)每個(gè)實(shí)例的軸對(duì)齊邊界框和二進(jìn)制掩碼。地面實(shí)況軸對(duì)齊邊界框是從現(xiàn)有實(shí)例掩碼標(biāo)簽推導(dǎo)出來(lái)的。與 Mask-DINO和 CondInst不同,輔助邊界框預(yù)測(cè)僅用作學(xué)習(xí)過(guò)程的正則化,我們將其用作動(dòng)態(tài)卷積中的額外幾何線索,從而進(jìn)一步提高了實(shí)例分割任務(wù)。
為了評(píng)估我們方法的性能,我們對(duì)三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn):ScanNetV2 、S3DIS和 STPLS3D。 ISBNet 不僅在這三個(gè)數(shù)據(jù)集中實(shí)現(xiàn)了最高的準(zhǔn)確率,在 ScanNetV2、S3DIS 和 STPLS3D 上超過(guò)了最強(qiáng)的方法 +2.7/3.4/3.0,而且還表現(xiàn)出很高的效率,在 ScanNetV2 上每個(gè)場(chǎng)景的運(yùn)行時(shí)間為 237ms??偠灾覀兊墓ぷ髫暙I(xiàn)如下:
(i) 我們提出了 ISBNet,一種 3DIS 的cluster-free范例,它利用實(shí)例感知的最遠(yuǎn)點(diǎn)采樣和點(diǎn)聚合器來(lái)生成實(shí)例特征集。
(ii) 我們首先介紹使用軸對(duì)齊邊界框作為輔助監(jiān)督,并提出框感知?jiǎng)討B(tài)卷積來(lái)解碼實(shí)例二進(jìn)制掩碼。
(iii) ?ISBNet 在三個(gè)不同數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能:ScanNetV2、S3DIS 和 STPLS3D,無(wú)需對(duì)每個(gè)數(shù)據(jù)集的模型架構(gòu)和超參數(shù)調(diào)整進(jìn)行全面修改。
2.相關(guān)工作
**2D 圖像實(shí)例分割 (2DIS) **涉及為圖像中的每個(gè)像素分配實(shí)例標(biāo)簽和語(yǔ)義標(biāo)簽之一。它的方法可以分為三組:基于提案的方法、無(wú)提案的方法和基于 DETR 的方法。對(duì)于基于提案的方法 ,利用對(duì)象檢測(cè)器(例如 Faster-RCNN)來(lái)預(yù)測(cè)對(duì)象邊界框,以分割檢測(cè)到的框內(nèi)的前景區(qū)域。對(duì)于無(wú)提議方法,SOLO 和 CondInst 使用特征圖預(yù)測(cè)動(dòng)態(tài)卷積的實(shí)例內(nèi)核以生成實(shí)例掩碼。對(duì)于基于 DETR 的方法 ,Mask2Former和 Mask-DINO采用帶有實(shí)例查詢的轉(zhuǎn)換器架構(gòu)來(lái)獲取每個(gè)實(shí)例的分割。與 3DIS 相比,由于 2D 圖像的結(jié)構(gòu)化、基于網(wǎng)格和密集的特性,2DIS 可以說(shuō)更容易。因此,將 2DIS 方法應(yīng)用于 3DIS 并非易事。
3D 點(diǎn)云實(shí)例分割 (3DIS) 方法
感興趣的是使用語(yǔ)義類和唯一實(shí)例 ID 來(lái)標(biāo)記 3D 點(diǎn)云中的每個(gè)點(diǎn)。它們可以分為基于提議的方法、基于聚類的方法和基于動(dòng)態(tài)卷積的方法。
基于提案的方法首先檢測(cè) 3D 邊界框,然后分割每個(gè)框內(nèi)的前景區(qū)域以形成實(shí)例。 3D-SIS 將 Mask R-CNN 架構(gòu)應(yīng)用于 3D 實(shí)例分割,并聯(lián)合學(xué)習(xí) RGB 圖像和 3D 點(diǎn)云兩種模式的特征。 3D-BoNet從總結(jié)場(chǎng)景內(nèi)容的全局特征向量中預(yù)測(cè)固定數(shù)量的 3D 邊界框,然后分割每個(gè)框內(nèi)的前景點(diǎn)。這種方法的局限性在于,實(shí)例掩模的性能很大程度上取決于 3D 邊界框的質(zhì)量,由于 3D 點(diǎn)云的巨大變化和不均勻分布,3D 邊界框非常不穩(wěn)定。
基于聚類的方法學(xué)習(xí)潛在嵌入,有助于將點(diǎn)分組到實(shí)例中。 PointGroup預(yù)測(cè)從每個(gè)點(diǎn)到其實(shí)例質(zhì)心的 3D 偏移,并從兩個(gè)點(diǎn)云獲取簇:原始點(diǎn)和質(zhì)心偏移點(diǎn)。 HAIS提出了一種層次聚類方法,其中小簇可以被較大的簇過(guò)濾掉或吸收。 SoftGroup提出了一種軟分組策略,其中每個(gè)點(diǎn)可以屬于具有不同語(yǔ)義類別的多個(gè)簇,以減輕語(yǔ)義預(yù)測(cè)誤差。基于聚類的方法的局限性之一是實(shí)例掩模的質(zhì)量很大程度上取決于聚類的質(zhì)量,即質(zhì)心預(yù)測(cè),這是非常不可靠的,特別是當(dāng)測(cè)試對(duì)象在空間范圍上與訓(xùn)練對(duì)象有很大不同時(shí)。
基于動(dòng)態(tài)卷積的方法通過(guò)生成內(nèi)核,然后使用它們與點(diǎn)特征進(jìn)行卷積來(lái)生成實(shí)例掩碼,來(lái)克服基于提案和基于聚類的方法的局限性。 DyCo3D采用中的聚類算法來(lái)生成動(dòng)態(tài)卷積的內(nèi)核。 PointInst3D使用最遠(yuǎn)點(diǎn)采樣來(lái)代替中的聚類來(lái)生成內(nèi)核。 DKNet [38]引入候選挖掘和候選聚合來(lái)為動(dòng)態(tài)卷積生成更具辨別力的實(shí)例內(nèi)核。
我們的方法是一種基于動(dòng)態(tài)卷積的方法,在內(nèi)核生成和動(dòng)態(tài)卷積方面有兩個(gè)重要的改進(jìn)。特別是,在前者中,我們提出了一種新的實(shí)例編碼器,將實(shí)例感知的最遠(yuǎn)點(diǎn)采樣與點(diǎn)聚合層相結(jié)合,以生成內(nèi)核來(lái)取代 DyCo3D 中的聚類。在后者中,我們不僅使用動(dòng)態(tài)卷積的外觀特征,還使用幾何提示(即邊界框預(yù)測(cè))增強(qiáng)了該特征。
3.本文方法
?
圖 2. DyCo3D 的總體架構(gòu)(塊 (a))和我們的 3DIS 方法(塊 (b))。給定點(diǎn)云,使用 3D 主干來(lái)提取每點(diǎn)特征。對(duì)于 DyCo3D,它首先根據(jù)每個(gè)點(diǎn)的預(yù)測(cè)對(duì)象質(zhì)心將點(diǎn)分組為簇,為每個(gè)簇生成一個(gè)內(nèi)核。同時(shí),掩模頭將每點(diǎn)特征轉(zhuǎn)換為掩模特征以進(jìn)行動(dòng)態(tài)卷積。對(duì)于我們的 ISBNet 方法,我們用一種新穎的基于采樣的實(shí)例編碼器替換了聚類算法,以獲得更快、更魯棒的內(nèi)核、框和類預(yù)測(cè)。此外,逐點(diǎn)預(yù)測(cè)器取代了 DyCo3D 的掩碼頭,以輸出掩碼和框特征,用于新的框感知?jiǎng)討B(tài)卷積,以生成更準(zhǔn)確的實(shí)例掩碼。
問(wèn)題陳述:給定一個(gè) 3D 點(diǎn)云,其中 N 是點(diǎn)的數(shù)量,每個(gè)點(diǎn)由 3D 位置和 RGB 顏色向量表示。我們的目標(biāo)是將點(diǎn)云分割成 K 個(gè)實(shí)例,這些實(shí)例由一組二進(jìn)制掩碼 和一組語(yǔ)義標(biāo)簽表示,其中 C 是語(yǔ)義類別的數(shù)量。
我們的方法由四個(gè)主要組件組成:3D 主干網(wǎng)絡(luò)、逐點(diǎn)預(yù)測(cè)器、基于采樣的實(shí)例編碼器和盒感知?jiǎng)討B(tài)卷積。 3D 主干網(wǎng)采用 3D 點(diǎn)云作為輸入來(lái)提取每個(gè)點(diǎn)特征。我們的主干網(wǎng)絡(luò)提取特征其中 i = 1,... ?, N 為輸入點(diǎn)云的每個(gè)點(diǎn)。我們遵循之前的方法,采用帶有稀疏卷積 的 U-Net 作為主干。逐點(diǎn)預(yù)測(cè)器從主干網(wǎng)絡(luò)獲取每點(diǎn)特征并將其轉(zhuǎn)換為逐點(diǎn)語(yǔ)義預(yù)測(cè)、軸對(duì)齊邊界框預(yù)測(cè) 和用于框感知?jiǎng)討B(tài)卷積的掩模特征?;诓蓸拥膶?shí)例級(jí)編碼器(第 3.1 節(jié))處理逐點(diǎn)特征以生成實(shí)例內(nèi)核、實(shí)例類標(biāo)簽和邊界框參數(shù)。最后,盒子感知?jiǎng)討B(tài)卷積(第 3.2 節(jié))獲取實(shí)例內(nèi)核和掩碼特征以及互補(bǔ)框預(yù)測(cè),以生成每個(gè)實(shí)例的最終二進(jìn)制掩碼。我們的方法的概述如圖 2 所示。
3.1基于采樣的實(shí)例編碼器
給定主干網(wǎng)輸出的每點(diǎn)特征 ,我們的目標(biāo)是產(chǎn)生實(shí)例特征,其中 K ? N 。實(shí)例特征E被用于預(yù)測(cè)實(shí)例分類分?jǐn)?shù) 、實(shí)例框和實(shí)例內(nèi)核,其中 H′ 由動(dòng)態(tài)卷積中卷積層的大小決定。
通常,可以采用最遠(yuǎn)點(diǎn)采樣 (FPS)對(duì)一組 K 個(gè)候選進(jìn)行采樣,以生成實(shí)例內(nèi)核。 FPS 通過(guò)使用成對(duì)距離選擇距先前采樣點(diǎn)最遠(yuǎn)的下一個(gè)點(diǎn)來(lái)貪婪地采樣 3D 坐標(biāo)中的點(diǎn)。然而,這種采樣技術(shù)較差。首先,F(xiàn)PS采樣的K個(gè)候選點(diǎn)中有很多屬于背景類別的點(diǎn),浪費(fèi)了計(jì)算資源。其次,大物體在采樣點(diǎn)的數(shù)量中占主導(dǎo)地位,因此不會(huì)從小物體中采樣任何點(diǎn)。第三,逐點(diǎn)特征無(wú)法捕獲本地上下文來(lái)創(chuàng)建實(shí)例內(nèi)核。我們?cè)谶x項(xiàng)卡中提供分析。 1 來(lái)驗(yàn)證這一觀察結(jié)果。特別是,我們計(jì)算了內(nèi)核預(yù)測(cè)的實(shí)例數(shù)量相對(duì)于總的真實(shí)實(shí)例的召回率。召回值應(yīng)該很大,因?yàn)槲覀兤谕麑?duì)真實(shí)實(shí)例上的聚類或采樣點(diǎn)進(jìn)行良好的覆蓋。然而,可以看出,以前的方法的召回率較低,這可以解釋為這些方法沒有考慮點(diǎn)聚類或采樣的實(shí)例。
為了解決這個(gè)問(wèn)題,我們提出了一種新穎的基于采樣的實(shí)例編碼器,它在點(diǎn)采樣步驟中考慮了實(shí)例。受 PointNet++中的Set Abstraction的啟發(fā),我們指定實(shí)例編碼器包含一系列點(diǎn)聚合器 (PA) 塊,其組件是實(shí)例感知 FPS (IA-FPS),以對(duì)覆蓋盡可能多的前景對(duì)象的候選點(diǎn)進(jìn)行采樣,并且本地聚合層捕獲本地上下文,從而單獨(dú)豐富候選特征。我們將圖 2 中橙色塊中的 PA 可視化,并在下面詳細(xì)介紹我們的采樣。
實(shí)例感知 FPS。我們的采樣策略是對(duì)前景點(diǎn)進(jìn)行采樣,以最大程度地覆蓋所有實(shí)例,無(wú)論其大小如何。為了實(shí)現(xiàn)這一目標(biāo),我們選擇如下迭代采樣技術(shù)。具體來(lái)說(shuō),候選者是從一組點(diǎn)中采樣的,這些點(diǎn)既不是背景也不是先前采樣的候選者選擇的。我們使用逐點(diǎn)語(yǔ)義預(yù)測(cè)來(lái)估計(jì)每個(gè)點(diǎn)成為背景的概率。我們還使用由前 k 個(gè)候選生成的實(shí)例掩碼。利用 FPS 從點(diǎn)集 P′ ? P 中采樣點(diǎn):
(1)
其中 K′ 是已選擇的候選者的數(shù)量,τ 是超參數(shù)閾值。
實(shí)際上,在訓(xùn)練中,由于實(shí)例掩碼預(yù)測(cè)不足以指導(dǎo)實(shí)例采樣,因此從預(yù)測(cè)的前景掩碼中一次性采樣 K 個(gè)候選者。另一方面,在測(cè)試中,我們迭代地采樣較小的塊 一個(gè)接一個(gè)地使得后續(xù)塊既不會(huì)從背景點(diǎn)采樣,也不會(huì)從屬于先前塊的預(yù)測(cè)掩模的點(diǎn)采樣。通過(guò)這樣做,IA-FPS 的召回率提高了很多,如表 1 所示。
本地聚合層。對(duì)于每個(gè)候選 k,本地聚合層將本地上下文編碼并轉(zhuǎn)換為其實(shí)例特征。具體來(lái)說(shuō),采用 Ball-query [29] 來(lái)收集其 Q 個(gè)局部鄰居作為局部特征。此外,計(jì)算候選者 k 與其鄰居 q 之間的相對(duì)坐標(biāo),并用鄰域半徑 r 進(jìn)行歸一化以形成局部坐標(biāo),或。接下來(lái),我們使用 MLP 層將局部特征和局部坐標(biāo) 轉(zhuǎn)換為候選 k 的實(shí)例特征。我們還添加了與原始特征的殘差連接以避免梯度消失。具體來(lái)說(shuō),實(shí)例級(jí)特征可以計(jì)算為:
(2)
在哪里 [·; ·]表示串聯(lián)運(yùn)算。從 E 開始,使用線性層來(lái)預(yù)測(cè)實(shí)例分類分?jǐn)?shù) L、實(shí)例框 B 和實(shí)例內(nèi)核 W。
值得注意的是,為了獲得實(shí)例級(jí)特征 E,我們不使用單個(gè) PA 塊,而是提出了一種漸進(jìn)的方法,即順序應(yīng)用多個(gè) PA 塊。這樣,后續(xù)塊將從前一個(gè)塊采樣的較少數(shù)量的點(diǎn)中進(jìn)行采樣。這樣做與在 2D 圖像中堆疊多個(gè)卷積層以增加感受野具有相同的效果。
3.2包絡(luò)盒感知的動(dòng)態(tài)卷積
在[16,17,38]的動(dòng)態(tài)卷積中,對(duì)于每個(gè)候選k,所有點(diǎn)w.r.t k的相對(duì)位置,和逐點(diǎn)掩碼特征被連接起來(lái)與實(shí)例核進(jìn)行卷積,得到實(shí)例二進(jìn)制掩碼,其中 Conv 被實(shí)現(xiàn)為多個(gè)卷積層。然而,我們認(rèn)為僅使用掩模特征和位置并不是最優(yōu)的。例如,當(dāng)僅使用 3D 中的掩模特征和位置時(shí),類相同的相鄰對(duì)象邊界附近的點(diǎn)彼此無(wú)法區(qū)分。
另一方面,3D 邊界框描繪了對(duì)象的形狀和大小,這為實(shí)例分割中對(duì)象掩模的預(yù)測(cè)提供了重要的幾何線索。我們的方法使用邊界框預(yù)測(cè)作為規(guī)范化實(shí)例分割的輔助任務(wù)訓(xùn)練。特別是,對(duì)于每個(gè)點(diǎn),我們建議回歸從對(duì)象掩模推導(dǎo)出來(lái)的軸對(duì)齊邊界框。然后使用預(yù)測(cè)框來(lái)調(diào)節(jié)掩模特征,以生成框感知?jiǎng)討B(tài)卷積的內(nèi)核(參見圖 2 中的綠色塊)。每個(gè)邊界框由 6D 向量參數(shù)化,表示實(shí)例點(diǎn)坐標(biāo)的最小和最大邊界。值得注意的是,我們選擇使用軸對(duì)齊的邊界框,因?yàn)榈孛鎸?shí)況框基本上是免費(fèi)的,因?yàn)樗鼈兛梢院苋菀椎貜牡孛鎸?shí)況實(shí)例注釋構(gòu)建。
因此,我們建議使用預(yù)測(cè)框作為動(dòng)態(tài)卷積中的附加幾何線索,給出我們提出的框感知?jiǎng)討B(tài)卷積的名稱。直觀上,如果兩個(gè)點(diǎn)的預(yù)測(cè)框相似,則它們將屬于同一對(duì)象。我們的最終實(shí)例掩碼 第 k 個(gè)候選者獲得為:
(3)
幾何特征可以根據(jù)第 k 個(gè)候選實(shí)例預(yù)測(cè)的邊界框與輸入點(diǎn)云 P 中的 N 個(gè)點(diǎn)的絕對(duì)差計(jì)算得出,即。
3.3網(wǎng)絡(luò)訓(xùn)練
我們使用 Pointwise Loss 和 Instance-wise Loss 來(lái)訓(xùn)練我們的方法。前者是在逐點(diǎn)預(yù)測(cè)中產(chǎn)生的,即語(yǔ)義分割的交叉熵?fù)p失,以及邊界框回歸的L1損失和gIoU損失[31]。后者是在每個(gè)實(shí)例預(yù)測(cè)中發(fā)生的,即分類、框預(yù)測(cè)和掩模預(yù)測(cè),使用[20]提出的用于 2D 對(duì)象檢測(cè)的一對(duì)多匹配損失。具體來(lái)說(shuō),匹配成本是實(shí)例分類和實(shí)例掩碼的組合:
(4)
其中 是兩個(gè)掩模之間的骰子損失。準(zhǔn)確地說(shuō),通過(guò)在匈牙利匹配中復(fù)制地面實(shí)況 S 次,將 S 個(gè)預(yù)測(cè)掩碼與一個(gè)地面實(shí)況掩碼進(jìn)行匹配。這樣,訓(xùn)練收斂速度要快得多,并且掩模預(yù)測(cè)性能比 DETR提出的一對(duì)一匹配要好。然后,真實(shí)掩碼與其匹配的預(yù)測(cè)掩碼之間產(chǎn)生的實(shí)例損失定義為:
(5)
其中Lcls是交叉熵?fù)p失,是dice損失和BCE損失的組合,是L1損失和gIoU損失的組合,是Mask-Scoring損失。
4.實(shí)驗(yàn)
4.1實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)集。我們?cè)谌齻€(gè)數(shù)據(jù)集上評(píng)估我們的方法:ScanNetV2 [8]、S3DIS [1] 和 STPLS3D [4]。 ScanNetV2 數(shù)據(jù)集由 1201、312 和 100 個(gè)掃描組成,分別具有 18 個(gè)對(duì)象類,用于訓(xùn)練、驗(yàn)證和測(cè)試。與之前的工作一樣,我們報(bào)告了 ScanNetV2 驗(yàn)證集和測(cè)試集的評(píng)估結(jié)果。 S3DIS數(shù)據(jù)集包含來(lái)自6個(gè)區(qū)域、13個(gè)類別的271個(gè)場(chǎng)景。我們報(bào)告了區(qū)域 5 和區(qū)域 6 交叉驗(yàn)證的評(píng)估。 STPLS3D 數(shù)據(jù)集是來(lái)自真實(shí)世界和合成環(huán)境的航空攝影測(cè)量點(diǎn)云數(shù)據(jù)集。它包括25個(gè)總面積為6平方公里的城市場(chǎng)景和14個(gè)實(shí)例類別。繼[5, 34]之后,我們使用場(chǎng)景 5、10、15、20 和 25 進(jìn)行驗(yàn)證,其余部分進(jìn)行訓(xùn)練。
評(píng)估指標(biāo)。采用物體檢測(cè)和實(shí)例分割任務(wù)常用的平均精度,即AP50和AP25分別是IoU閾值50%和25%時(shí)的分?jǐn)?shù),AP是IoU閾值50%到95%時(shí)的平均分?jǐn)?shù),步長(zhǎng)為 5%。 Box AP 表示 3D 軸對(duì)齊邊界框預(yù)測(cè)的平均精度。此外,還使用平均覆蓋率 (mCov)、平均加權(quán)覆蓋率 (mWCov)、平均精度 (mPrec50) 和平均召回率 (mRec50) 進(jìn)行評(píng)估,IoU 閾值為 50%。
實(shí)施細(xì)節(jié)。我們使用 PyTorch 深度學(xué)習(xí)框架 [27] 實(shí)現(xiàn)我們的模型,并在單個(gè) V100 GPU 上使用 AdamW 優(yōu)化器對(duì)其進(jìn)行 320 個(gè)時(shí)期的訓(xùn)練。批量大小設(shè)置為 16。學(xué)習(xí)率初始化為 0.004,并通過(guò)余弦退火進(jìn)行調(diào)度 [41]。根據(jù)[34],我們將 ScanNetV2 和 S3DIS 的體素大小設(shè)置為 0.02m,將 STPLS3D 的體素大小設(shè)置為 0.3m,因?yàn)樗南∈栊院透蟮囊?guī)模。在訓(xùn)練中,場(chǎng)景被隨機(jī)裁剪,最大數(shù)量為 250,000 個(gè)點(diǎn)。在測(cè)試中,整個(gè)場(chǎng)景都被輸入網(wǎng)絡(luò)而不進(jìn)行裁剪。我們使用與[34]中相同的主干設(shè)計(jì),輸出 32 個(gè)通道的特征圖?;诓蓸拥膶?shí)例感知編碼器中使用了兩層 PA 的堆棧。 τ 設(shè)置為 0.5。我們將這兩層的球查詢半徑 r 設(shè)置為 0.2 和 0.4,并將兩層的鄰居數(shù)量 Q = 32。我們還實(shí)現(xiàn)了具有隱藏維度為 32 的兩層的盒感知?jiǎng)討B(tài)卷積。γmask 設(shè)置為 5。λbox、λmask 和 λms 分別設(shè)置為 1、5 和 1。在訓(xùn)練中,我們?cè)O(shè)置 S = 4 和 K = 256。在推理中,我們?cè)O(shè)置 K = 384 并使用非極大值抑制來(lái)刪除閾值為 0.2 的冗余掩模預(yù)測(cè)。遵循[14,26,38],我們利用超級(jí)點(diǎn)[23,24]來(lái)對(duì)齊ScanNetV2數(shù)據(jù)集上的最終預(yù)測(cè)掩模。
4.2主要結(jié)果
ScanNetV2。我們?cè)诒?中報(bào)告隱藏測(cè)試集的實(shí)例分割結(jié)果,在表3中的驗(yàn)證集上報(bào)告了目標(biāo)檢測(cè)和實(shí)例分割的結(jié)果。 ?在隱藏測(cè)試集上,ISBNet 在 AP/AP50 中取得了 55.9/76.6 的成績(jī),在 ScanNetV2 基準(zhǔn)上創(chuàng)下了新的 state-of-the-art 性能。在驗(yàn)證集上,我們提出的方法以較大的優(yōu)勢(shì)超越了第二好的方法,在 AP/AP50/AP25 中為 +3.7/5.5/3.6,在 Box AP50/Box AP25 中為 +2.6/6.5。
表 2. ScanNetV2 隱藏測(cè)試集上的 3D 實(shí)例分割結(jié)果(以 AP 分?jǐn)?shù)表示)。最好的結(jié)果以粗體顯示,次好的結(jié)果以下劃線顯示。我們提出的方法實(shí)現(xiàn)了最高的 AP,優(yōu)于之前最強(qiáng)的方法。
表 3. ScanNetV2 驗(yàn)證集上的 3D 實(shí)例分割和 3D 對(duì)象檢測(cè)結(jié)果。
S3DIS。表 4 總結(jié)了 S3DIS 數(shù)據(jù)集的 5 區(qū)和 6 倍交叉驗(yàn)證的結(jié)果。在 Area 5 和交叉驗(yàn)證評(píng)估中,我們提出的方法在幾乎所有指標(biāo)上都大幅超越了最強(qiáng)的方法。在6倍交叉驗(yàn)證評(píng)估中,我們?cè)趍Cov/mWCov/mRec50中取得了74.9/76.8/77.1,與第二強(qiáng)的方法相比提高了+3.5/2.7/3.1。
表 4. S3DIS 數(shù)據(jù)集上的 3D 實(shí)例分割結(jié)果。標(biāo)有 ? 的方法在區(qū)域 5 上進(jìn)行評(píng)估,標(biāo)有 ? 的方法在 6 倍交叉驗(yàn)證中進(jìn)行評(píng)估。
STPLS3D。表5顯示了STPLS3D數(shù)據(jù)集的驗(yàn)證集上的結(jié)果。我們的方法在所有指標(biāo)中實(shí)現(xiàn)了最高的性能,并且在 AP/AP50 中超過(guò)了第二好的方法 +3.0/2.2。
表 5. STPLS3D 驗(yàn)證集上的 3D 實(shí)例分割結(jié)果。
4.3定性結(jié)果
我們?cè)趫D 3 中可視化我們的方法 DyCo3D [16] 和 DKNet [38] 在 ScanNetV2 驗(yàn)證集上的定性結(jié)果。可以看出,我們的方法成功區(qū)分了具有相同語(yǔ)義類的附近實(shí)例。由于聚類的限制,DyCo3D [16] 錯(cuò)誤分割了書架的部分(第 1 行)并合并了附近的沙發(fā)(第 2、3 行)。 DKNet [38] 過(guò)度分割了第 2 行中的窗口,并且還錯(cuò)誤地合并了附近的沙發(fā)和桌子(第 3 行)。
?
圖 3. ScanNetV2 驗(yàn)證集的代表性示例。每行顯示一個(gè)示例,前三列中包含輸入、語(yǔ)義基本事實(shí)和實(shí)例基本事實(shí)。我們的方法(最后一列)生成更精確的實(shí)例掩碼,特別是在具有相同語(yǔ)義標(biāo)簽的多個(gè)實(shí)例位于在一起的區(qū)域。
4.4消融實(shí)驗(yàn)
我們對(duì) ScanNetV2 數(shù)據(jù)集的驗(yàn)證集進(jìn)行了一系列消融研究,以研究 ISBNet。
掩模損耗的不同組合的影響如表6所示。值得注意的是,結(jié)合使用二元交叉熵和骰子損失會(huì)產(chǎn)生最佳結(jié)果,AP 為 54.5。
表 6. ScanNetV2 驗(yàn)證集上掩模損失的不同組合的消融研究。
各個(gè)組件對(duì)整體性能的影響
如表7所示。第 1 行中的 DyCo3D* 是我們對(duì) DyCo3D 的重新實(shí)現(xiàn),其主干與 [5,34,38] 相同,并且使用一對(duì)多匹配損失進(jìn)行訓(xùn)練。第 2 行中的基線是具有標(biāo)準(zhǔn)最遠(yuǎn)點(diǎn)采樣 (FPS)、標(biāo)準(zhǔn)動(dòng)態(tài)卷積(如 [16,17,38] 中所示)且沒有本地聚合層 (LAL) 的模型??梢钥闯?,替換 DyCo3D* 中的聚類和微小 Unet 使 AP 中的性能從 49.4 降低到 47.9。當(dāng)基線中的標(biāo)準(zhǔn) FPS 替換為實(shí)例感知最遠(yuǎn)點(diǎn)采樣 (IAFPS) 時(shí),第 3 行的性能提高到 49.7。當(dāng)將 LAL 添加到基線模型時(shí),第 4 行的 AP 分?jǐn)?shù)提高到 50.1,并且優(yōu)于DyCo3D* 的 AP 增加 0.7。只需將標(biāo)準(zhǔn)動(dòng)態(tài)卷積替換為 Box-aware Dynamic Convolution (BA-DyCo),第 5 行的 AP 即可獲得 +0.7。特別是,結(jié)合 IA-FPS 和 PA 可顯著提高性能,AP/AP50 中的 +5.5/+6.8第 6 行。最后,第 7 行的完整方法,ISBNet 在 AP/AP50 中實(shí)現(xiàn)了最佳性能 54.5/73.1。
表 7. ISBNet 每個(gè)組件對(duì) ScanNetV2 驗(yàn)證集的影響。 IA-FPS:實(shí)例感知最遠(yuǎn)點(diǎn)采樣,LAL:本地聚合層,BA-DyCo:盒子感知?jiǎng)討B(tài)卷積。 *:我們的 DyCo3D 改進(jìn)版本 [16]。
軸對(duì)齊邊界框回歸的影響
如表 8所示。在不使用邊界框作為輔助監(jiān)督(Aux.)的情況下,我們的方法在 AP/AP50 中達(dá)到了 52.8/71.6。在訓(xùn)練過(guò)程中添加邊界框損失可以使 AP 提高 0.6。特別是,當(dāng)在動(dòng)態(tài)卷積中使用邊界框作為額外的幾何線索(Geo.Cue)時(shí),AP/AP50 中的結(jié)果顯著增加到 54.5/73.1。這證明了我們的主張,即 3D 邊界框是區(qū)分3D 點(diǎn)云中的實(shí)例的關(guān)鍵幾何線索。
表 8. 3D 軸對(duì)齊邊界框回歸的影響。
點(diǎn)聚合器 (PA) 塊數(shù)量的影響
如表 9所示。使用單塊 PA,我們的方法在 AP/AP50 中達(dá)到 53.2/72.5。堆疊兩個(gè) PA 塊可在這些指標(biāo)中帶來(lái) 1.3/0.6 的增益。然而,當(dāng)我們添加更多塊時(shí),AP/AP50 中的結(jié)果略有下降至 54.3/73.0。
表 9. 點(diǎn)聚合器 (PA) 塊的數(shù)量。
動(dòng)態(tài)卷積不同設(shè)計(jì)的影響
如表 10 所示。這里,使用兩層具有 32 個(gè)隱藏通道的動(dòng)態(tài)卷積給出了最好的結(jié)果。僅使用單層動(dòng)態(tài)卷積會(huì)導(dǎo)致性能顯著下降。另一方面,添加太多層(即三層)會(huì)產(chǎn)生更差的結(jié)果。減少隱藏通道的數(shù)量會(huì)稍微降低性能。由于額外的幾何線索,即使只有 216 個(gè)動(dòng)態(tài)卷積參數(shù),我們的模型也可以在 AP/AP50 中達(dá)到 53.6/72.1,證明了盒子感知?jiǎng)討B(tài)卷積的魯棒性。這里也推薦「3D視覺工坊」新課程《三維點(diǎn)云處理:算法與實(shí)戰(zhàn)匯總》。
表 10. Box-aware 動(dòng)態(tài)卷積的消融。
IA-FPS 塊大小的消融。我們研究了表 11 中推理中 IA-FPS 采樣塊大小的不同設(shè)計(jì)。 11. 前三行顯示我們一次對(duì) K 個(gè)候選樣本進(jìn)行采樣時(shí)的結(jié)果。將樣本數(shù)量從 256 增加到 384 會(huì)稍微提高整體性能,但在樣本數(shù)為 512 時(shí),AP 結(jié)果下降到 53.6。當(dāng)將 K 分割為較小的大小塊 (192,128,64) 并根據(jù)式(192,128,64)采樣點(diǎn)時(shí): (1),最后一行的AP/AP50性能進(jìn)一步提升至54.5/73.1。
?
表 11. 迭代采樣的樣本塊大小的消融。
運(yùn)行時(shí)分析。
圖 4 報(bào)告了同一 Titan X GPU 上 ISBNet 的組件和總運(yùn)行時(shí)間以及 3DIS 的 5 種最新方法。所有方法都可以大致分為三個(gè)主要階段:主干、實(shí)例抽象器和掩碼解碼器。我們的方法是最快的方法,總運(yùn)行時(shí)間僅為 237 毫秒,主干/實(shí)例抽象器/掩碼解碼器階段為 152/53/32 毫秒。與PointGroup [21]、DyCo3D [16]和SoftGroup [34]中基于聚類的實(shí)例抽象器相比,我們基于Point Aggregator的實(shí)例抽象器顯著減少了運(yùn)行時(shí)間。我們的掩模解碼器是通過(guò)動(dòng)態(tài)卷積實(shí)現(xiàn)的,是這些方法中第二快的。這證明了我們提出的方法的有效性。
圖 4. 組件和總運(yùn)行時(shí)間(以毫秒為單位)以及之前五種方法的 AP 和 ScanNetV2 驗(yàn)證集上的 ISBNet 的結(jié)果。
5.結(jié)論
在這項(xiàng)工作中,我們引入了 ISBNet,一種簡(jiǎn)潔的基于動(dòng)態(tài)卷積的方法來(lái)解決 3D 點(diǎn)云實(shí)例分割的任務(wù)??紤]到實(shí)例分割模型的性能依賴于候選查詢的召回,我們提出了實(shí)例感知最遠(yuǎn)點(diǎn)采樣和點(diǎn)聚合器來(lái)有效地對(duì) 3D 點(diǎn)云中的候選進(jìn)行采樣。此外,利用 3D 邊界框作為輔助監(jiān)督和動(dòng)態(tài)卷積的幾何提示進(jìn)一步提高了模型的準(zhǔn)確性。在 ScanNetV2、S3DIS 和 STPLS3D 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們的方法在所有數(shù)據(jù)集上都實(shí)現(xiàn)了穩(wěn)健且顯著的性能提升,大幅超越了 3D 實(shí)例分割中最先進(jìn)的方法,即 +2.7、+2.4、+ 3.0 在 ScanNetV2、S3DIS 和 STPLS3D 上的 AP 中。
我們的方法并非沒有局限性。例如,我們的實(shí)例感知 FPS 不能保證覆蓋所有實(shí)例,因?yàn)樗蕾囉诋?dāng)前實(shí)例預(yù)測(cè)來(lái)做出點(diǎn)采樣決策。我們提出的軸對(duì)齊邊界框可能無(wú)法緊密貼合復(fù)雜實(shí)例的形狀。圖 5 顯示了一個(gè)硬箱,其中冰箱以柜臺(tái)為界。我們的模型無(wú)法區(qū)分這些點(diǎn),因?yàn)樗鼈児蚕硐嗨频倪吔缈颉=鉀Q這些限制可能會(huì)導(dǎo)致未來(lái)工作的改進(jìn)。此外,通過(guò)利用對(duì)象的幾何結(jié)構(gòu)(例如形狀和大?。﹣?lái)改進(jìn)動(dòng)態(tài)卷積的新研究將是一個(gè)有趣的研究課題。
圖 5. ScanNetV2 驗(yàn)證集的一個(gè)硬案例,其中冰箱被柜臺(tái)包圍。 ISBNet 和以前的方法錯(cuò)誤地將這些實(shí)例中的點(diǎn)合并到單個(gè)對(duì)象中。
編輯:黃飛
?
評(píng)論