1、摘 要
缺陷檢測是工業(yè)產(chǎn)品處理中的一項重要任務(wù)。當前,已經(jīng)有很多基于計算機視覺技術(shù)的檢測方法成功應(yīng)用于工業(yè)領(lǐng)域并取得了較好的檢測結(jié)果。然而,受限于類間表面缺陷的內(nèi)在復(fù)雜性,使得實現(xiàn)完全自動的缺陷檢測仍然面臨巨大挑戰(zhàn)。雖然,類間缺陷包含相似的部分,但是缺陷的表面仍然存在較大的不同。為了解決這個問題,論文提出了一種金字塔特征融合與全局上下文注意力網(wǎng)絡(luò)的逐像素表面缺陷檢測方法,并命名為PGA-Net。在這個框架中,首先從骨干網(wǎng)絡(luò)提取多尺度特征。然后,使用金字塔特征融合模塊,通過一些有效的跳連接操作將5個不同分辨率的特征進行融合。最后,再將全局上下文注意模塊應(yīng)用于相鄰分辨率的融合特征,這使得有效信息從低分辨率融合特征圖傳播到高分辨率融合特征圖。另外,在框架中還加入邊界細化模塊,細化缺陷邊界,提高預(yù)測結(jié)果。實驗結(jié)果證明,所提方法在聯(lián)合平均交點和平均像素精度方面優(yōu)于對比方法。
2、引 言
質(zhì)量是制造過程中的一個重要組成部分。為了滿足日益增長的需求,必須在確保產(chǎn)品生產(chǎn)質(zhì)量的同時提高生產(chǎn)效率。其中,表面缺陷檢測是控制工業(yè)產(chǎn)品質(zhì)量的關(guān)鍵步驟。由于缺陷的復(fù)雜性,自動缺陷檢測任務(wù)面臨三大挑戰(zhàn):1)低對比度:在工業(yè)生產(chǎn)中,粉塵的存在和光照的變化導(dǎo)致圖像中缺陷與背景的對比度低。如圖1(a)所示,標簽紅色方框中的缺陷幾乎不可見;2)類內(nèi)差異:與其他應(yīng)用不同,在工業(yè)生產(chǎn)中,缺陷的形狀是不規(guī)則的。如圖1(b)所示,同類缺陷的不同尺度差異較大;3)類間相似性:由于生產(chǎn)過程的不確定性,一些不同類型的缺陷差異很小。如圖1(c)所示,不同類型的缺陷(在黃色和藍色框中),它們在紋理和灰度信息上非常相似。
圖1. 工業(yè)缺陷檢測面臨的挑戰(zhàn) (a)低對比度缺陷; (b)類內(nèi)較大差異缺陷; (c)類間相似缺陷
得益于計算機視覺技術(shù)的快速發(fā)展,上述問題已經(jīng)逐漸得到處理。例如,曲率濾波和高斯混合模型被應(yīng)用到鋼軌表面缺陷檢測?;谀0迤ヅ涞姆椒蓱?yīng)用于鋼板表面缺陷檢測。近年來,其它基于手工特征的方法也被用于工業(yè)應(yīng)用(如太陽能電池組件、金屬、鋼鐵)的缺陷檢測,并取得了良好的效果。然而,這些方法都是研究人員利用人為手工設(shè)定的特征去實現(xiàn)缺陷檢測,而這種手工設(shè)計的特征并具有普遍性。
目前,基于CNN的檢測方法已廣泛應(yīng)用于工業(yè)缺陷檢測,通過設(shè)計不同的網(wǎng)絡(luò)模型來完成缺陷檢測。例如,針對低對比度場景,模型需要有效地利用目標的特征來區(qū)分目標與背景的差異。此外,在CNN不同層的特征對目標的敏感性也不同。低層特征具有較高的分辨率,可以生成清晰、詳細的邊界,但上下文信息較少。高層特征具有較抽象的語義信息,擅長進行類別分類,但形狀和位置信息較弱。大多數(shù)深度學習方法主要集中在從網(wǎng)絡(luò)深層提取高層特征。由于缺乏從淺層提取的低層特征(如邊界、紋理和灰度信息),導(dǎo)致預(yù)測效果不佳。為此,論文利用骨干網(wǎng)各階段最后一個卷積層提取的特征,包括低級粗特征和高級語義特征。對于類內(nèi)差異,模型需要對各種變化(如形狀、比例和紋理)保持不變形。目前,大多數(shù)基于全卷積網(wǎng)絡(luò)的方法都是通過擴大感受野來覆蓋整個缺陷,以實現(xiàn)對物體變化的感知。例如,通過在骨干網(wǎng)絡(luò)中引入擴張卷積可以增強模型對特征變化的感知,但是這種方法會導(dǎo)致網(wǎng)格偽影。又如,采用不同池核的金字塔池化模塊對骨干網(wǎng)不同尺度下提取的特征進行融合,但池化會造成信息的丟失。針對這些問題,論文提出一種金字塔特征融合模塊,該模塊利用多尺度卷積(不同大小的核)對上次卷積后的特征圖進行加權(quán),從而獲得不同階段的上下文信息,然后將這些提取的相同分辨率的特征在每個階段進行融合。這樣既避免了網(wǎng)格化的偽影和信息的缺失,又充分提取了上下文信息。同時,使用與卷積核寬度相同大小的條帶不會帶來較大的計算量。對于類間相似性,模型還需要實現(xiàn)對圖像中不同類別對象的整體感知(包括它們之間的聯(lián)系和區(qū)別),實現(xiàn)每個像素所需分類的正確位置。為此,研究人員將高層特征直接上采樣,然后與低層特征融合,但是計算效率較低?;蛘?,通過獲取多個上下文信息,并對特征進行從高層到低級的聚合,以細化特征細節(jié),但會產(chǎn)生大量的參數(shù)。為了解決這個問題,論文在相鄰分辨率融合圖中加入全局上下文關(guān)注模塊,從低分辨率融合圖中提取全局上下文信息,然后對高分辨率融合圖進行加權(quán),細化像素種類的空間位置。這樣既保證了信息的有效傳播又不增加計算量。
3、方法設(shè)計
A.模型概述
在本文中,表面缺陷檢測被當做是逐像素問題,所提網(wǎng)絡(luò)模型結(jié)構(gòu)包括五個主要部分:1)多級特征提??;2)金字塔特征融合模塊;3)全局上下文注意力模塊;4)邊界細化塊;5)深度監(jiān)督,網(wǎng)絡(luò)模型框架如圖2所示。
圖2 PGA-Net網(wǎng)絡(luò)模型框架
首先,將原始圖像和對應(yīng)真實值輸入到網(wǎng)絡(luò),通過特征提取網(wǎng)絡(luò)的卷積池化操作提取多級特征。然后,將這些特征輸入到金字塔特征融合模塊中。通過卷積和反卷積(不同核和步長)操作調(diào)整維數(shù),使融合后的特征映射具有相同的維數(shù)。同時,通過一些密集的跳連接,將這些特征融合為5個不同分辨率大小的融合特征。接著,全局上下文注意力網(wǎng)絡(luò)被嵌入到這5個分辨率特征中以高效的實現(xiàn)低分率到高分辨率的信息傳播。最后,融合這些預(yù)測特征并產(chǎn)生最終的預(yù)測結(jié)果。
B.多級特征提取模塊(FEM)
深度特征提取模塊(FEM)建立在已用ImageNet預(yù)訓練的VGG-16模型之上,以為缺陷檢測獲得更多的多層次特征。FEM包括五個塊,這些塊提取了從淺層到深層的各種外觀信息。除最后一個塊外,每個塊由卷積層、校正線性單元激活函數(shù)(RELU)、批歸一化和最大池層組成。表1展示了FEM的細節(jié)結(jié)構(gòu)。
C.金字塔特征融合模塊(PFF)
在深度CNN中,上下文信息被使用的程度大致取決于感受野的大小。對于缺陷的檢測,有些缺陷是類內(nèi)差異,需要較大的感受野才能實現(xiàn)對圖像中缺陷的全面感知。為此,論文提出了一種金字塔特征融合(PFF)模塊,如圖所示3。
圖3 金字塔特征融合模塊 首先,給與一個尺寸為WxH的輸入圖像I和通過FEM模塊生成的不同階段的多級特征。PFF模塊獲取每個階段的最后一層特征:conv1_2、conv2_2、conv3_3、conv4_3、conv5_3。這五個特征可以用一個特征集F來表示:F=(f1,f2, f3, f4, f5),其中f1表示conv1_2特征,以此類推。其次,通過多尺度感受野加權(quán)F生成多上下文信息,并將該信息同時映射到五個不同分辨率的特征映射中去:Tn=(W/2n, H/2n)。對于f1(分辨率R1=T0),模塊用一堆卷積層將其降采樣到五種分辨率,它們的輸出特征映射為Yi1可表示:
其中,σ表示RELU激活,dow-scale(·)表示通過Wk×k(核大小為kxk,步幅s=k)向下降采樣特征映射f1,b表示偏差,*表示卷積。對于f5(分辨率R5=T4),模塊將其上采樣到為5種分辨率,輸出特征映射Yi5,如下所示:
upsample(·;φ )是指在訓練過程中學習到的參數(shù)φ的反卷積。對于分辨率介于T0和T4之間的f2、f3和f4,該模型使用降采樣和上采樣相結(jié)合的方法將它們調(diào)整為五種分辨率,輸出特征映射為Yil:
最后,將這些輸出圖中尺寸相同的特征進行融合,生成最終的五個融合特征圖:
通過這種方式,該模型便可以有效地獲取多尺度的上下文信息,從CNN的不同階段,實現(xiàn)整體對象感知。
D.全局上下文關(guān)注模塊(GCA)
由PFF生成的不同分辨率的最終融合特征圖,包含了各種視覺上下文信息,并且每一個都可以用于預(yù)測結(jié)果。一種方法是利用雙線性上樣將這些融合特征放大到與原始圖像相同的維數(shù),然后通過卷積層改變它們的通道來預(yù)測分割結(jié)果。然而,這些方法的缺點是:1)缺乏不同分辨率預(yù)測之間的內(nèi)在聯(lián)系信息,2)直接使用雙線性大核上樣本可能會導(dǎo)致一些細節(jié)信息的缺失,參數(shù)不可訓練。為了解決上述問題,論文提出了一個全局注意力模塊,如圖4所示。
圖4 全局注意力模塊 該模塊包括兩個階段:第一階段: 采用3×3卷積調(diào)整高分辨率和低分辨率融合特征圖的通道維度,然后通過全局池化到低分辨率得到全局上下文,再與高分辨率特征圖相乘,其輸出特征表示為fs1。第二階段,將低分辨率融合特征圖上采樣到與高分辨率融合特征圖相同的維數(shù),然后與fs1相加。
與簡單地將上采樣的粗分辨率特征映射添加到細分辨率特征映射中相比,所提出的GCA模塊可以利用不同分辨率的融合特征映射來提高上下文獲取和相應(yīng)像素化定位的效率。
E.邊界細化塊
論文加入了邊界細化塊以進一步提高檢測精度,圖4(b)展示了邊界細化殘差結(jié)構(gòu),其輸出為細化得分圖。
F.深度監(jiān)督
在充分利用多級特征的同時,參數(shù)的數(shù)量也明顯增加,這可能會增加優(yōu)化的難度。為了解決這個問題,論文在模型中加入了深度監(jiān)督,目的是簡化訓練過程,加速網(wǎng)絡(luò)模型的優(yōu)化。每個分辨率的PFF模塊生成的融合特征圖可以單獨進行裂紋預(yù)測。將每像素損失(交叉熵)添加到上述五個分辨率融合的特征中。損失函數(shù)描述為:
4、實驗分析
論文采用NEU-DET缺陷數(shù)據(jù)集,DAGM 2007 缺陷數(shù)據(jù)集,MT缺陷數(shù)據(jù)集,以及Road 缺陷數(shù)據(jù)集進行測試。這里以NEU-DET和DAGM2007數(shù)據(jù)集的測試結(jié)果為例,展示論文所提PGA-Net網(wǎng)絡(luò)的預(yù)測效果。
1) NEU-SEG缺陷的檢測結(jié)果:在圖5展示了PGA-Net和其他方法對帶鋼表面缺陷圖像的視覺比較。在低對比度(4-5行)和類內(nèi)差異(7-8行)等具有挑戰(zhàn)性的缺陷檢測情況下, PGA-Net算法的性能優(yōu)于其他方法,預(yù)測結(jié)果與真實值非常接近。通過表1所示的定量比較,PGA-Net在評價指標方面優(yōu)于其他比較方法:mIOU值提高到82.15%。
圖5. NEU-SEG數(shù)據(jù)集檢測結(jié)果對比。紅色、綠色和黃色分別代表夾雜物(In)、斑塊(Pa)和劃痕(Sc)缺陷。(a)原始圖像; (b)真實值; (c)SegNet; (d) PSPNet; (e) DeepLab; (f) RefineNet; (g) FCN; (h) PGA-Net
表1 NEU-SEG缺陷的檢測結(jié)果定量比較
2) DAGM2007數(shù)據(jù)集結(jié)果:圖6展示了DAGM 2007部分缺陷圖像可視化檢測結(jié)果。該數(shù)據(jù)集的主要檢測挑戰(zhàn)是背景和缺陷之間的低對比度(1-3行)??梢园l(fā)現(xiàn),SegNet遺漏或錯誤地檢測到某些缺陷。對于一些大面積缺陷,PSPNet和RefineNet不能精確定位缺陷。FCN和DeepLab放大了一些低對比度缺陷區(qū)域。相反, PGA-Net的性能更接近實際情況。表2所示展示了對各對比方法的定量比較,可以發(fā)現(xiàn)PGA-Net將性能提高到74.78%。
圖6. DAGM2007數(shù)據(jù)集檢測結(jié)果對比。(a)原始圖像; (b)真實值; (c)SegNet; (d) FCN; (e) DeepLab; (f) PSPNet; (g) RefineNet; (h) PGA-Net
表2 DAGM2007數(shù)據(jù)集結(jié)果定量比較
消融實驗
為了評價所提出的方法,論文進行了一系列消融實驗,包括降采樣類型、融合特征分辨率的影響以及對檢測結(jié)果的邊界細化。所有這些消融實驗的評價都是基于NEU-SEG數(shù)據(jù)集。
1)降采樣類型的消融研究:對于PFF模塊中的降采樣結(jié)構(gòu),論文使用了大核卷積取代最大池。這是因為,卷積降在低了特征維數(shù)的同時仍然保留了特征信息,而最大池可能會導(dǎo)致大量特征信息的丟失。此外,使用較大的內(nèi)核不會帶來太大的計算負擔,如表3所示,性能由79.89%提高到80.46%。 表3不同設(shè)置下論文方法的詳細性能
2)融合特征分辨率的影響:當通過卷積和反卷積(具有大的核尺寸和步長)調(diào)整這些特征分辨率時,F(xiàn)EM中的一些融合特征結(jié)構(gòu)(空間和語義)很容易被破壞,這與目標融合特征圖的分辨率有很大差異。為了驗證融合特征分辨率的效果,論文額外評估了來自PFF的五個融合特征圖(Dec-1s、Dec-2s、Dec-4s、Dec-8s、Dec-16s),相應(yīng)的性能如3所示。從表中可以看出,隨著分辨率的增加,模型性能逐漸變好,這證明了論文方法選擇分辨率進行特征圖融合的必要性。
3)邊界細化對檢測結(jié)果的消融:在提出的方法中加入了邊界細化塊,以提高檢測結(jié)果的性能。如表3所示,邊界細化塊的mIOU值為82.15%,證明了BR方法的有效性。
4)與其他多級特征融合方法的比較:為了驗證PFF模塊的優(yōu)越性,對UN、DLA、DSS等多級特征融合方法進行了比較。論文用這些方法中的多級融合模塊取代了所提方法中的PFF模塊。所有模塊都基于同一個骨干網(wǎng)VGG-16網(wǎng)絡(luò)。在NEU-SEG數(shù)據(jù)集上評估這些模塊的預(yù)測結(jié)果。論文方法和其他方法的直觀比較顯示如圖7所示,量化評價如表4所示??梢钥闯?,與多級特征融合模塊相比,論文所提的PFF取得了更好的性能。
圖7 NEU-Seg 數(shù)據(jù)集上的檢測結(jié)果比較。 (a) 原始圖像; (b)真實值; (c)UN; (d) DLA; (e) DSS; (f) 本文方法 表4不同多尺度特征融合模塊的詳細性能
5、結(jié)論
論文提出了一種用于表面缺陷檢測的自動檢測網(wǎng)絡(luò)。在該框架中,通過特征提取模塊從缺陷圖像中提取多級特征。并引入金字塔特征融合模塊,將多級特征融合成不同的分辨率。全局上下文注意力模塊使有效信息從低分辨率融合特征圖傳播到高分辨率融合特征圖。此外,在框架中增加了邊界細化塊,對目標邊界預(yù)測進行細化。該框架中引入了深度監(jiān)督,以加快網(wǎng)絡(luò)優(yōu)化的進程。實驗表明,該方法在四種表面缺陷數(shù)據(jù)集的檢測上取得了較大的進步。但由于數(shù)據(jù)集數(shù)量和多樣性的限制,在圖中出現(xiàn)了一些缺陷缺失和錯誤檢測的情況。雖然檢測的速度可以達到41-49fps/s,在實際檢測過程中可以接受,并且不損害用戶體驗。但是還需要進一步提高,以滿足實時性和高準確度的要求。另外,在實驗過程中需要對訓練樣本和測試樣本進行標注,耗時較長。在未來的研究中,計劃尋求一種有效的數(shù)據(jù)增強策略,結(jié)合論文方法來提高檢測性能,并優(yōu)化框架來加速提出的方法以滿足實時性和高精度的要求。此外,在今后的工作中將采用半監(jiān)督機制。
審核編輯:郭婷
-
計算機
+關(guān)注
關(guān)注
19文章
7546瀏覽量
88696 -
分辨率
+關(guān)注
關(guān)注
2文章
1072瀏覽量
42047
原文標題:PGA-Net:基于金字塔特征融合與全局上下文注意力網(wǎng)絡(luò)的自動表面缺陷檢測
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
VirtualLab Fusion案例:反射式金字塔波前傳感器的仿真
關(guān)于進程上下文、中斷上下文及原子上下文的一些概念理解
進程上下文與中斷上下文的理解
基于Pocket PC的上下文菜單實現(xiàn)
基于Pocket PC的上下文菜單實現(xiàn)
基于低秩重檢測的多特征時空上下文的視覺跟蹤
如何實現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法
![如何<b class='flag-5'>實現(xiàn)</b>多聚焦圖像<b class='flag-5'>融合</b>的拉普拉斯<b class='flag-5'>金字塔</b>方法](https://file.elecfans.com/web1/M00/DE/96/pIYBAGAaHY2AJKyvAAD_njWltK0810.png)
基于全局特征金字塔網(wǎng)絡(luò)的信息融合方法
![基于<b class='flag-5'>全局</b><b class='flag-5'>特征</b><b class='flag-5'>金字塔</b>網(wǎng)絡(luò)的信息<b class='flag-5'>融合</b>方法](https://file.elecfans.com/web1/M00/E7/05/pIYBAGBa5eeAVaTYAAB1nWb7SFY039.png)
基于規(guī)范化函數(shù)的深度金字塔模型算法
![基于規(guī)范化函數(shù)的深度<b class='flag-5'>金字塔</b>模型算法](https://file.elecfans.com/web1/M00/E7/F2/pIYBAGBiwvCAWZ7ZAAF8Hb_EWdo588.png)
基于高斯金字塔圖像的改進Harris特征點檢測算法
![基于高斯<b class='flag-5'>金字塔</b>圖像的改進Harris<b class='flag-5'>特征</b>點<b class='flag-5'>檢測</b>算法](https://file.elecfans.com/web1/M00/EE/20/pIYBAGCTskOAUaLsAALBdf_uS-I085.png)
評論