摘要:我們提出了一種帶有分層分類器的卷積網(wǎng)絡(luò),可針對每個像素進行語義分割,能夠在多個異構(gòu)數(shù)據(jù)集上進行訓(xùn)練并可開發(fā)它們的語義層次結(jié)構(gòu)。我們的網(wǎng)絡(luò)是第一個同時在智能交通工具領(lǐng)域的三個不同數(shù)據(jù)集(即Cityscapes,GTSDB和Mapillary Vistas)上訓(xùn)練的網(wǎng)絡(luò),并且能夠處理不同的細節(jié)語義級別、類別不平衡和不同的注釋類型,即密集的每像素和稀疏的邊界框標簽。我們通過與平面,非等級分類器進行比較來評估我們的分層方法,并且我們顯示Cityscapes類的平均像素精度為13.0%,Vistas類為2.4%,GTSDB類為32.3%。對于在GPU上運行的108個類,我們在520 x 706的分辨率下實現(xiàn)了17 fps的推理速率。
作者:Panagiotis Meletis and Gijs Dubbelman
第一節(jié),介紹:
隨著深度學習技術(shù)的發(fā)展,按照像素分類提出的分割任務(wù)在過去幾年中取得了很大進展[2],語義分類成為自動駕駛汽車感知子系統(tǒng)中的一項關(guān)鍵任務(wù)。然而,兩個關(guān)鍵挑戰(zhàn)仍然需要解決:1)盡可能多地利用各種訓(xùn)練數(shù)據(jù); 2)將可識別類的數(shù)量從幾十個增加到幾乎任何場景可以包含的內(nèi)容。
在這項工作中,為了解決這兩個挑戰(zhàn),我們積極采取措施并提出一種方法,利用具有不同類和注釋類型的多個異構(gòu)數(shù)據(jù)集,來訓(xùn)練一個完全卷積網(wǎng)絡(luò)進行每個像素語義分割。這種方法有助于更好地使用可用數(shù)據(jù)集,從而減少注釋工作量,并增加可識別的類的數(shù)量。我們在高度自動駕駛(HAD)環(huán)境中使用的數(shù)據(jù)集是Cityscapes[3],Mapillary Vistas [4]和GTSDB [5]。
第一個挑戰(zhàn),即對具有不同注釋的語義分段的訓(xùn)練,在先前的工作[6][7]中一般會通過外部組件到網(wǎng)絡(luò)中進行處理,以便生成偽的每個像素基礎(chǔ)事實。相比之下,我們的方法是自包含的,使用網(wǎng)絡(luò)自身的輸出來細化不兼容的、多樣的注釋以進行監(jiān)督。
第二個挑戰(zhàn),即增加可識別類的數(shù)量,可以通過兩種方式來完成: 1 )用額外(子)類(例如[8] )繼續(xù)按像素注釋現(xiàn)有數(shù)據(jù)集;2 )僅對新(子)類使用現(xiàn)有輔助數(shù)據(jù)集。第一種方法對于大數(shù)據(jù)集來說可能非常昂貴,并且是不必要的,因為存在大量具有細粒度(子)類的數(shù)據(jù)集(例如交通標志類型、汽車模型、行人)。
圖1.我們在推理過程中的層次分類卷積網(wǎng)絡(luò)。輸入圖像被轉(zhuǎn)換為共享特征表示,其通過適配子網(wǎng)連接到分類器的層次結(jié)構(gòu)。Level-1分類器輸出對圖像的每個像素的預(yù)測,而每個后續(xù)分類器僅推斷其自己的一組類。將所有級別的輸出進行組合,形成最終的細粒度每像素分割。
在我們的工作中,我們研究的是第二種方法。為此,數(shù)據(jù)集的異質(zhì)性(即不同的標簽空間和注釋類型)對于將它們與傳統(tǒng)的“平面”(即非分層的)分類器組合提出了挑戰(zhàn)。因此,我們建議使用分層分類器,它明確地利用數(shù)據(jù)集之間的語義關(guān)系,并與平面分類器進行比較。我們的層次結(jié)構(gòu)與[9][10]相當,但它提供的可擴展性不同。
在第二節(jié),我們描述了我們的分層方法所解決的確切挑戰(zhàn)。一個例子是Cityscapes和GTSDB的綜合培訓(xùn)。在這種情況下,所有GTSDB類都是Cityscapes中交通標志類的子類。在傳統(tǒng)的平面分類器中直接結(jié)合兩個數(shù)據(jù)集的類的簡單方法是不可行的,因為一個交通標志像素不能根據(jù)它來自的數(shù)據(jù)集有不同的標簽。這給平面分類器的端到端訓(xùn)練和推理帶來了挑戰(zhàn),而我們的分級分類方案可以解決這些挑戰(zhàn)。
第三節(jié)我們提供了一般分層方法的基本原理;第四節(jié)我們提供了實施的細節(jié);在第五節(jié),我們演示了使用三個異構(gòu)數(shù)據(jù)集的層次分類器的性能增益,而不是使用平面的、非層次的分類器。此外,我們展示了使用我們提出的方法可對公共特征表示進行多數(shù)據(jù)集訓(xùn)練可以提高所有數(shù)據(jù)集的性能,而不管它們的結(jié)構(gòu)差異如何。
綜上所述,本研究對每個像素語義分割的貢獻如下:
一種對數(shù)據(jù)集進行組合訓(xùn)練的方法,該數(shù)據(jù)集具有分離但語義相連的標簽空間。
分層分類器的模塊化體系結(jié)構(gòu),可以取代現(xiàn)代卷積網(wǎng)絡(luò)中的分類階段。
我們的系統(tǒng)實施可供研究界[11]使用。此外,我們?yōu)镚TSDB交通標志子類提供了Cityscapes數(shù)據(jù)集的每個像素注釋,我們將其用于驗證目的,但不需要進行訓(xùn)練。在本文中,我們將此數(shù)據(jù)集稱為Cityscapes Extended。
第二節(jié),來自多個數(shù)據(jù)集訓(xùn)練的挑戰(zhàn)
由于數(shù)據(jù)集的結(jié)構(gòu)差異,對多個數(shù)據(jù)集的端到端監(jiān)督訓(xùn)練可能面臨許多挑戰(zhàn)。其中最重要的挑戰(zhàn)可分為以下幾類:
語義層面的細節(jié):每個數(shù)據(jù)集都標有一組語義類。在樸素平面分類方法中,分類器的輸出將是來自所有數(shù)據(jù)集的類的聯(lián)合。一個數(shù)據(jù)集中的類的語義很可能包含在另一個數(shù)據(jù)集的類的語義中。如果這些類被放置在相同的級別上,就像在平面分類器中一樣,則會發(fā)生監(jiān)督?jīng)_突,因為屬于同一語義類的一些像素將被標記為不同的類。
對于我們的三個數(shù)據(jù)集來說,這一挑戰(zhàn)出現(xiàn)在三種情況下: 1 ) Cityscapes將其道路等級定義為“汽車通常行駛的部分地面”,包括車道標記、自行車道、坑洼等。在Vistas中,除了道路類之外,這些細粒度的子類被單獨標記,導(dǎo)致標簽的語義細節(jié)層次的沖突。2)Cityscapes和Vistas包含一個高級交通標志類,而GTSDB有43個交通標志子類。3)Cityscapes只有一個騎手類,而Vistas區(qū)分三個不同的騎手子類。如圖2所示,引入標簽層次結(jié)構(gòu)有效地解決了這一挑戰(zhàn),將在第三節(jié)A部分中更詳細地討論。
注釋類型:根據(jù)定義,語義分割是每個像素的問題,因此必須在像素級提供監(jiān)督。不幸的是,許多現(xiàn)有數(shù)據(jù)集具有邊界框或每個圖像注釋,這對于每個像素訓(xùn)練是不兼容的。使它們兼容的直接方法是將這些注釋轉(zhuǎn)換為掩碼。然而,這些掩碼將包括不屬于感興趣對象的像素,例如,邊界框可能包含許多非相關(guān)的背景像素,這些像素將被分配給前臺類。最終,在訓(xùn)練期間,對網(wǎng)絡(luò)的監(jiān)督將從錯誤標記的像素流出,導(dǎo)致權(quán)重混亂。
在我們的例子中,Cityscapes和Vistas有每個像素注釋,但GTSDB只有邊界框注釋。為了將GTSDB包含在訓(xùn)練中,我們提出了一種新的層次損失,它在第三節(jié)的D部分中提供,統(tǒng)一處理來自不同注釋類型的監(jiān)督。
訓(xùn)練樣本不平衡:批量訓(xùn)練受到類別不平衡的影響,特別是當每批次的例子有限時。在我們的例子中,我們面臨著強大的數(shù)據(jù)集內(nèi)和數(shù)據(jù)集間的不平衡。數(shù)據(jù)集之間的不平衡是由于注釋像素的巨大差異造成的,例如,以103的順序(詳見表一)。相同數(shù)據(jù)集的類之間的不平衡在街道場景數(shù)據(jù)集中是常見的,因為大多數(shù)像素都屬于大型表面的類,比如道路和建筑物。我們的方法通過在相同的分類器中放置具有相似的示例順序的類來處理不平衡,因此所有類具有更大的概率在同一批次中表示。這種策略非常有益,如第五節(jié)的E部分有所展示。
第三節(jié),利用語義層次結(jié)構(gòu)培養(yǎng)和推斷異構(gòu)數(shù)據(jù)集
在本節(jié)中,我們描述了針對任意數(shù)量的異構(gòu)數(shù)據(jù)集的一般分層分類方法的組件。這些組件為第二節(jié)的挑戰(zhàn)提供了解決方案,并為每一個組件提供了我們所選擇的數(shù)據(jù)集的具體情況。我們目前的實驗,詳見第五節(jié),是基于使用3個數(shù)據(jù)集的具有3級層次結(jié)構(gòu)的實現(xiàn)。第四節(jié)中提供了此實現(xiàn)的細節(jié)。
A.標簽空間的語義層次結(jié)構(gòu)
多個數(shù)據(jù)集訓(xùn)練需要為所有選定的數(shù)據(jù)集提供一個公共標簽空間。我們建議將單獨的標簽空間合并到公共空間中,其中包含來自所有數(shù)據(jù)集的標簽,通過分層的方式合并到標簽的語義樹中。這種方法通過引入必要的父節(jié)點或中間節(jié)點和/或現(xiàn)有標簽的分組來解決標簽語義定義中的任何沖突。
圖2描繪了使用本文三個選定數(shù)據(jù)集的所有標簽的3級層次結(jié)構(gòu)。第二節(jié)中介紹了將這三個標簽空間組合起來所帶來的挑戰(zhàn),解決辦法如下: 1)引入了一個新的高級驅(qū)動類來解決Cityscapes和Vistas道路類語義沖突,2)增加了一類超級交通標志和一個中間節(jié)點,用于區(qū)分Vistas和前方交通標志,3)引入了一個騎手超類,包括Cityscapes騎手類和3 Vistas騎手子類。
圖2.三級語義標簽層次結(jié)構(gòu),結(jié)合了來自Cityscapes,Mapillary Vistas和GTSDB數(shù)據(jù)集的108個類。標記為黑色的類別對應(yīng)于圖1的L1,L2和L3分類器。
標簽的語義層次結(jié)構(gòu)引起相應(yīng)的分類器層次結(jié)構(gòu)。每個分類器都對一個節(jié)點的子標簽進行分類,并且對整個分類器樹進行訓(xùn)練,以一種端到端、完全卷積的方式對共享的特性表示進行訓(xùn)練。
B .卷積網(wǎng)絡(luò)體系結(jié)構(gòu)
所提出的網(wǎng)絡(luò)架構(gòu)(例如,參見圖1)包括用于計算密集的共享表示的完全卷積特征提取器和一組分類器,每個分類器對應(yīng)于語義層次的內(nèi)部類節(jié)點。每個分類器都可以與層次結(jié)構(gòu)中一級向下的分類器連接,以便將其預(yù)測傳遞給推理和注釋類型獨立訓(xùn)練,如第三節(jié)中CD部分所述。每個分類器之前可以有一個淺適應(yīng)網(wǎng)絡(luò),它使共同表征、深度和接受域適應(yīng)分類器的需要。這使網(wǎng)絡(luò)設(shè)計人員有機會為每個分類器選擇不同的特性維度和接受域。例如,區(qū)別交通標志比較容易[12],因為與高級別區(qū)別相比,需要較少的特征,如道路對人行道和灌木叢對樹木[ 3 ]。根據(jù)分類器的對象平均大小,將不同的視圖字段應(yīng)用到不同的分類器上具有一定的靈活性,可以或多或少的實現(xiàn)上下文聚合,例如,交通標志通常比建筑物或汽車更小。
C.推理:分層決策規(guī)則
在softmax分類器樹中,以分層方式按像素進行推斷。為自己的一組像素集p∈Pj和一組類Cj= {0,1….}每個分類器j計算類概率的每個像素的歸一化向量σj,p,以及輸出每像素的決定
yj,p^=argmaxiσij,p,這里yj,p^∈Cj。這一組每個分類器都必須為此做出決定的Pj,由其父代根據(jù)自己的決定生成。來自可用的標簽集{y^j,p}j∈J,輸入的每個像素都標有所需的細節(jié),其中J是為這個特定像素生成決策的分類器。
D.訓(xùn)練:等級分類損失
如第二節(jié)所述,許多數(shù)據(jù)集的注釋類型與語義分割所需的每個像素監(jiān)督是不兼容的。我們提出的方法是使用統(tǒng)一的方法處理不兼容的注釋,不需要外部組件,如[6][7],并且對系統(tǒng)的計算負荷可以忽略不計。處理各種基本事實的靈活性與根分類器上的類的唯一約束交換,應(yīng)該具有每個像素注釋的示例。任何其他級別的注釋可以是任何類型的,甚至可以是混合的。
我們提出了分級分類損失,它將監(jiān)視與像素級的注釋類型分離開來。每個分類器j在所有標記像素Pj=Pj1 +PJ2上訓(xùn)練,所述標記像素對應(yīng)于標簽層級中的其相應(yīng)節(jié)點。使用標準的單熱交叉熵損失訓(xùn)練具有每個像素注釋的像素Pj1。為了實現(xiàn)這一點,我們的方法在訓(xùn)練過程中使用父分類器的在線、每個像素的決定,來細化偽每個像素的標簽。該過程如圖3所示。首先,將不兼容的注釋轉(zhuǎn)換為每個像素偽地面實況。
圖3.訓(xùn)練期間的在線程序,用于從邊界框標簽生成每像素地面實況。
然后,在每個訓(xùn)練步驟中,父分類器的決定與該偽基礎(chǔ)事實相交,以產(chǎn)生用于監(jiān)督的每像素地面實況。
兩種損失都按照分類器累積到所謂的等級損失:
其中|·|是像素集的基數(shù),并且yj,p∈Cj為分類器j選擇對應(yīng)于像素p的地真類的σ元素。最后,收集所有分類器的損失并用不同的超參數(shù)j加權(quán),以獲得最小化的總目標:
第四節(jié),具有CITYSCAPES,MAPILLARYVISTAS和GTSDB的的三級標簽層次結(jié)構(gòu)
在本節(jié)中,我們概述了實現(xiàn)細節(jié),以提高我們實驗的可重復(fù)性。
卷積網(wǎng)絡(luò)架構(gòu):網(wǎng)絡(luò)如圖1所示。特征提取器由ResNet- 50架構(gòu)[ 13 ]的特征層和1 x1卷積層(具有ReLU和批處理規(guī)范化)組成,以將特征維數(shù)減少到256。使用擴張的卷積,輸入上的步幅從32減小到8。該表示具有深度256,空間維度1/8的輸入,并在5個分支中共享。每個分支都有一個額外的瓶頸模塊[ 13 ],并以一個softmax分類器結(jié)束,該分類器包括一個混合上采樣模塊。我們選擇每個分類器適配子網(wǎng)的特征維度和視野對于所有分支是相同的。在實驗了不同的上行采樣技術(shù)(分步卷積、雙線性、卷積)后,我們得出結(jié)論,通過混合上采樣獲得最佳性能和減少偽像,其中包括一個2x2可學習的分數(shù)跨度卷積層,然后是雙線性上采樣以達到輸入維度。
實施細節(jié):我們使用Tensorflow[14]和Titan X(Pascal架構(gòu))GPU進行訓(xùn)練和推理。由于內(nèi)存有限,我們將批量大小設(shè)置為4(Cityscapes:Vistas:GTSDB = 1:2:1),將訓(xùn)練尺寸設(shè)置為512x706(Vistas圖像的平均值縮放到較小的Cityscapes維度)。在訓(xùn)練期間,按照原長寬比縮小圖像,然后隨機裁剪。該網(wǎng)絡(luò)針對17個Vistas時期(早期停止)進行訓(xùn)練,,隨機梯度下降,動量為0.9,L2權(quán)重正則化,衰減為0.00017,初始學習率為0.01,三次減半,批量標準化和指數(shù)移動平均衰減均設(shè)為0.9。將Eq的超參數(shù)λj分別選擇為1.0、0.1和0.1,分別用于三個層次的層次結(jié)構(gòu)。作為推論,我們目前達到17 fps的幀速率,即每幀58毫秒。
第五節(jié),評價
我們進行以下實驗來評估我們的分級分類方法:
1 )平面分類基線:設(shè)置用于單數(shù)據(jù)集和多數(shù)據(jù)集訓(xùn)練的平面分類器基線。
2 )三個異構(gòu)數(shù)據(jù)集的分層分類:演示了我們的完整方法在三個異構(gòu)數(shù)據(jù)集(Cityscapes、GTSDB、Vistas )上進行組合訓(xùn)練的好處,這些數(shù)據(jù)集具有不相交的標簽空間和不同的注釋類型。
3)Cityscapes Extended上的分層與平面分類:通過在具有兩級標簽空間的每像素注釋Cityscapes Extended數(shù)據(jù)集上隔離它來驗證我們的分層方法對極不平衡類的有效性。
A.數(shù)據(jù)集
我們總結(jié)了表I中使用的數(shù)據(jù)集。接下來,我們將描述實驗所需的額外注釋。請注意,這些注釋僅用于驗證目的,而不用于訓(xùn)練網(wǎng)絡(luò)。
1)用交通標志類標記城市景觀:我們使用GTSDB的43個交通標志類擴展了Cityscapes的標簽空間。Cityscapes只提供每個像素的交通標志注釋,而不區(qū)分實例。我們設(shè)計了一種基于8鄰域距離的自動分割算法,用于分離地面真實交通標志遮罩中連接的交通標志實例,并設(shè)計了一個GUI應(yīng)用程序,提出了用于標注的圖像區(qū)域。我們把原來的和新的注釋打包成Cityscapes Extended的名字。該數(shù)據(jù)集分別包含列車中的2778個和380個交通標志以及驗證拆分。
2)用每個像素標簽標注GTSDB:只有在涉及平面分類器的特定實驗中,我們才使用交通標志形狀(圓形、三角形、六邊形)將GTSDB邊界框注釋轉(zhuǎn)換為精細的每個像素注釋。這個程序?qū)τ诮煌酥镜拿鎯?nèi)旋轉(zhuǎn)可能是有問題的,但是在數(shù)據(jù)集檢查之后,我們觀察到只有很少的面內(nèi)旋轉(zhuǎn)存在。
表一
數(shù)據(jù)集統(tǒng)計。圖像包含訓(xùn)練和驗證拆分。在括號中顯示了被評估的類的數(shù)量。
表二
對每個像素注釋數(shù)據(jù)集的平面分類性能基線。
B.度量和評估慣例
我們使用多類平均像素精度(mPA)和聯(lián)合的平均交叉點(mIoU),它們與自動駕駛相關(guān),它們代表了先進的地方和地區(qū)的標準,遵循了[ 15 ]中給出的定義。對于Cityscapes,我們報告了27個課程的結(jié)果(官方基準測試中的19個和Vistas中常見的8個)。對于交通標志類,我們評估滿足兩種條件的43個交通標志的子集:1 )在GTSDB訓(xùn)練集中具有少于103個像素。2) GTSDB和Cityscapes擴展驗證集的像素都小于103像素。請注意,我們選擇了103像素的限值,因為它比Cityscapes中最少代表的類要小2個數(shù)量級。對于Vistas,我們報告關(guān)于官方65級基準的結(jié)果。最后,我們每隔一個時期評估模型的性能,并報告最近兩次運行的平均值。
本文介紹了一種新的公平比較評價的協(xié)議,該協(xié)議僅適用于第五節(jié)的C部分的實驗,該實驗是在兩個數(shù)據(jù)集上訓(xùn)練平面分類器。它解決了高級別交通符號類與交通符號子類相同級別的語義沖突(第二節(jié))。交通標志像素的判定是正確的:1)如果正確標注了任何交通標志子類, 2)如果它被標記為交通標志,第二個最可能的選擇是正確的交通標志子類。為清楚起見,我們不將此評估方案用于分層分類器,而僅用于扁平分類器。
C.平面分類的基線
在表二中,我們?yōu)閭鹘y(tǒng)的平面分類方法設(shè)置了相同和跨數(shù)據(jù)集的基線,使用第四節(jié)中描述的實現(xiàn)細節(jié)中相同的輸入維度和批量大小,為了能夠與表三的分層結(jié)果進行公平比較。在第1 – 3列中,我們在三個數(shù)據(jù)集上獨立訓(xùn)練三個模型,并為表一的評估類提供結(jié)果。在第4欄中,我們提供了聯(lián)合訓(xùn)練Cityscapes和GTSDB的Cityscapes Extended交叉數(shù)據(jù)集結(jié)果。
為了進行公平的比較,第3和第4列的模型是通過GTSDB數(shù)據(jù)集的生成的每個像素注釋來訓(xùn)練的(詳細細節(jié)請參見第五節(jié)A2部分)。由于每個圖像的訓(xùn)練像素數(shù)量有限,因此43類GTSDB的訓(xùn)練不會收斂,因此我們將未標記的像素作為額外的類包括在內(nèi),以解決此問題??梢杂^察到,Cityscapes和GTSDB的同時訓(xùn)練未能在Cityscapes Extended的交通標志類別上獲得令人滿意的跨數(shù)據(jù)集結(jié)果。
表三
4種數(shù)據(jù)集中完全分層分類方法的表現(xiàn)。
圖4.Cityscapes val拆分圖像示例。網(wǎng)絡(luò)預(yù)測包括來自層次結(jié)構(gòu)的L1-L3級別的決策。請注意,地面實況僅包括一個交通標志超類(黃色)且沒有道路屬性標記。
D. 3個異構(gòu)數(shù)據(jù)集的層次分類
該實驗評估了我們在三個異構(gòu)數(shù)據(jù)集(Cityscapes,Mapillary Vistas和GTSDB)上的完整層次分類方法。在表三中,我們提供了關(guān)于模型訓(xùn)練的三個數(shù)據(jù)集的驗證分割的評估結(jié)果(第1-3列)和Cityscapes Extended(第4列)上的交通標志子類的結(jié)果,這在訓(xùn)練期間未使用。在圖4、5、6中描述了定性結(jié)果。
對于所有數(shù)據(jù)集,通過比較表二第1-3列和表三第1-3列,我們實現(xiàn)了平均PA(在+ 2.4%至+ 32.3%范圍內(nèi))和IoU(在+ 2.3%至+ 24.3%范圍內(nèi))的顯著性能提升。通過比較表二第4列和表三第4列,我們還觀察到交通標志子類的交叉數(shù)據(jù)集性能的增加。值得注意的是,該模型未經(jīng)過Cityscapes Extended交通標志類別的任何示例訓(xùn)練,平均PA增加10.6%僅僅是由于我們的分層多數(shù)據(jù)集訓(xùn)練方案的結(jié)果。我們得出結(jié)論,當數(shù)據(jù)集具有不同的類,不同的注釋類型以及數(shù)據(jù)集內(nèi)和數(shù)據(jù)集之間的不平衡時,層次分類對于組合的異構(gòu)數(shù)據(jù)集訓(xùn)練非常有利。
E. Cityscapes Extended的層次分類與平面分類
在本實驗中,我們使用每像素注釋和兩級標簽空間評估Cityscapes Extended上的層次分類方法。我們的目標是將我們的方法隔離在一個數(shù)據(jù)集中,以顯示它在高度不平衡的數(shù)據(jù)集中對平面分類的有效性。我們使用512 x 1024輸入尺寸,批量為2。
圖5.Mapillary Vistas驗證分割圖像示例。網(wǎng)絡(luò)預(yù)測包括來自層次結(jié)構(gòu)的L1-L3級別的決策。請注意,基本事實不包括交通標志子類。
圖6.GTSDB測試分割圖像示例。網(wǎng)絡(luò)預(yù)測包括來自層次結(jié)構(gòu)的L1-L3級別的決策。請注意,基本事實僅包括交通標志邊界框,因為其余像素未標記。
從表IV中,我們觀察到相對于平面分類器的mPA(+ 26.0%)和mIoU(+ 16.1%)層次分類顯著增加了L2類(即GTSDB交通標志子類),而對于L1類(即Cityscapes類) mPA和IoU的增幅均超過+ 6%。
我們得出的結(jié)論是,即使是在單個數(shù)據(jù)集中使用每個像素的注釋,分層分類對于類的不平衡是穩(wěn)健的,因為它在每個級別的類中都有相同的示例順序。
表四
在Cityscapes Extended上的平面與建議的分級分類性能。(在括號內(nèi)表現(xiàn)為交通標志L1類)。
第六節(jié),結(jié)論與未來工作
在本論文中,我們考慮了對三個異構(gòu)但語義相連的數(shù)據(jù)集進行同時訓(xùn)練的挑戰(zhàn),以解決每個像素的語義分割問題。主要動機是最大限度地重用資源(數(shù)據(jù)集和計算)并消除人類標記工作。為了實現(xiàn)這一點,我們利用數(shù)據(jù)集標簽之間的語義關(guān)系來構(gòu)建分類器的層次結(jié)構(gòu),并介紹相應(yīng)的分層訓(xùn)練和推理規(guī)則。我們最終的網(wǎng)絡(luò)可以將一個輸入圖像從8個高級的街道場景類別中分成108個類。結(jié)果表明,采用層次分類方法進行多異構(gòu)數(shù)據(jù)集訓(xùn)練具有明顯的優(yōu)越性。在未來的工作中,我們將擴展我們的成果,包括更多具有更多不同特征的數(shù)據(jù)集,以展示我們方法的可擴展性。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24850 -
自動駕駛
+關(guān)注
關(guān)注
785文章
13945瀏覽量
167100 -
深度學習
+關(guān)注
關(guān)注
73文章
5518瀏覽量
121604
原文標題:IEEE IV2018論文:基于多異構(gòu)數(shù)據(jù)集的卷積網(wǎng)絡(luò)街道場景語義分割
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論