作者:何許梅,舒小華,谷志茹,韓 逸,肖習(xí)雨
0 引言
行人檢測(cè)是目標(biāo)檢測(cè)領(lǐng)域中重要的研究課題,其在智能駕駛系統(tǒng)、視頻監(jiān)控、人流量密度監(jiān)測(cè)等領(lǐng)域有廣泛應(yīng)用。但由于行人背景的復(fù)雜以及個(gè)體本身的差異,行人檢測(cè)成為目標(biāo)檢測(cè)領(lǐng)域的研究難點(diǎn)之一。
目前行人檢測(cè)方法主要分為兩類:傳統(tǒng)的行人識(shí)別主要通過人工設(shè)計(jì)特征結(jié)合分類器的方式進(jìn)行。比較經(jīng)典的方法有HOG+SVM、HOG+LBP 等。此類方法可以避免行人遮擋帶來的影響,但是泛化能力和準(zhǔn)確性較低,難以滿足實(shí)際需求。另一類是基于深度學(xué)習(xí)的方法。通過多層卷積神經(jīng)網(wǎng)絡(luò)(CNN) 對(duì)行人進(jìn)行分類和定位。與傳統(tǒng)特征算子相比,CNN 能根據(jù)輸入的圖像自主學(xué)習(xí)特征,提取圖像中更豐富和更抽象的特征。目前已有許多基于深度學(xué)習(xí)的目標(biāo)檢測(cè)框架,如R-CNN(Region Convolutional Neural Network) 系列、YOLO(You Look at Once) 系列。R-CNN 系列算法又被稱為二階段算法,該類算法通過網(wǎng)絡(luò)找出待檢測(cè)目標(biāo)可能存在的位置,即疑似區(qū)域,然后利用特征圖內(nèi)的特征信息對(duì)目標(biāo)進(jìn)行分類,優(yōu)點(diǎn)是檢測(cè)準(zhǔn)確率較高,但實(shí)時(shí)性較差。YOLO 系列算法又稱為一階段算法,此類算法所有工作過程在一個(gè)網(wǎng)絡(luò)內(nèi)實(shí)現(xiàn),采用端到端的方式,將目標(biāo)檢測(cè)問題轉(zhuǎn)換為回歸問題,使其網(wǎng)絡(luò)的實(shí)時(shí)性得到了較好的提高,但準(zhǔn)確率卻不及Faster R-CNN(Faster Region Convolutional Neural Network,更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò))。
本論文借鑒目標(biāo)檢測(cè)的R-CNN 系列算法,在Faster R-CNN 網(wǎng)絡(luò)的第一層卷積層前加入一個(gè)預(yù)處理層,其次使用K-means 算法聚類分析anchor 框中行人的寬高比,選出適合行人的寬高比作為anchor 的尺寸,提出交通場(chǎng)景下基于Faster R-CNN 的行人檢測(cè)算法。所提方法在自制的交通場(chǎng)景下的數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)表明網(wǎng)絡(luò)的檢測(cè)效果有明顯提升。
1 Faster R-CNN檢測(cè)方法
Faster R-CNN 的檢測(cè)框架如圖1 所示。其檢測(cè)流程主要分為4 部分:卷積網(wǎng)絡(luò)、RPN(Region Proposal Network)、感興趣區(qū)域池化(RoI Pooling) 以及目標(biāo)檢測(cè)分類。
卷積網(wǎng)絡(luò)由卷積層、池化層和輸出層構(gòu)成,各網(wǎng)絡(luò)層之間權(quán)值共享,從訓(xùn)練的數(shù)據(jù)集中學(xué)習(xí)并自動(dòng)提取目標(biāo)特征。與傳統(tǒng)手工設(shè)計(jì)特征相比,具有更好的泛化能力。
RPN 使用一個(gè)3×3 的塊在最后一個(gè)卷積層輸出的特征圖上滑動(dòng)來獲得區(qū)域建議框即anchor 框,F(xiàn)asterR-CNN中的anchor 框有3 種比例尺寸,分別為0.5、1、2。
Faster R-CNN 的全連接層需要固定大小的輸入,因此通過RoI 池化將不同大小的RoI 轉(zhuǎn)成固定的大小。圖2 為RoI 的池化過程。
在檢測(cè)分類階段,分類函數(shù)計(jì)算得分,得到目標(biāo)的所屬類別,同時(shí)通過邊界框回歸計(jì)算出檢測(cè)框的位置偏移量,得到更精確的位置。
2 改進(jìn)的行人檢測(cè)方法
Faster R-CNN 是針對(duì)通用目標(biāo)的檢測(cè)網(wǎng)絡(luò),識(shí)別的類別數(shù)為20,但在行人檢測(cè)中只需要識(shí)別“行人”及“背景”這兩個(gè)類別。由于圖片中的行人在圖片中所占的比例較小,因此設(shè)計(jì)一個(gè)預(yù)處理層,提取一層底層特征(本文提取紋理特征),再與原始圖像一起輸入到卷積網(wǎng)絡(luò)中,能夠減少訓(xùn)練所需的時(shí)間。
2.1 預(yù)處理層
選擇傳統(tǒng)行人檢測(cè)方法中的紋理特征(LBP 特征) 作為預(yù)處理部分要提取的特征。LBP 特征描述了圖片的局部紋理,它以每個(gè)像素值為中心取一個(gè)局部鄰域區(qū)域,比較該區(qū)域內(nèi)的每個(gè)像素的灰度值與中心像素的灰度值,得到一個(gè)二進(jìn)制碼,即該中心像素的LBP 值。但會(huì)導(dǎo)致二進(jìn)制模式種類過多,所以等價(jià)模式(Uniform Pattern) 應(yīng)運(yùn)而生。等價(jià)LBP(ULBP) 在LBP 算子的基礎(chǔ)上,統(tǒng)計(jì)二進(jìn)制數(shù)中“01”或“10”跳變的次數(shù),若跳變次數(shù)在2 次以內(nèi),則稱為一個(gè)等價(jià)模式類,定義式為:
式中, gp 表示鄰域像素值, gc 表示中心像素值,U(LBP ) P,R 代表“01”或“10”的跳變次數(shù)。
從圖3 中可以看出,圖像中行人與背景的區(qū)別轉(zhuǎn)換成了紋理上的差異。
(a)原圖
(b)ULBP圖
圖3 原圖與ULBP圖
2.2 anchor框聚類分析
使用k-means 聚類對(duì)訓(xùn)練集中所有行人目標(biāo)的真實(shí)框進(jìn)行聚類分析。anchor 框聚類分析算法的主要流程:
Step1:將訓(xùn)練集中所有目標(biāo)框的寬高構(gòu)成數(shù)據(jù)集D,再從D 中隨機(jī)選擇一個(gè)聚類中心ci false;
Step2:求D 中每個(gè)樣本s 到ci 的距離,記為di ,將使di 最小的那個(gè)樣本歸到ci 中;
Step4:循環(huán)執(zhí)行Step2 和Step3,直到聚類中心不變。
取出所有行人標(biāo)注框的坐標(biāo)信息,計(jì)算出每一個(gè)標(biāo)注框的寬和高,并對(duì)其進(jìn)行聚類統(tǒng)計(jì),這里取聚類數(shù)k = 3 。隨后,計(jì)算寬與高的比值,使用統(tǒng)計(jì)直方圖的方法求出其均值,得到寬高比的均值μ = 0.39 ,也就是說訓(xùn)練集中目標(biāo)的anchor 框的合適的寬高比是0.39,即w ≈ 0.39h。圖 4 為行人 anchor 框的寬高統(tǒng)計(jì)結(jié)果。
因此,本文將原Faster R-CNN 算法中anchor 框的寬高比修改為(0.39:1)。
a)寬高統(tǒng)計(jì)圖
(b)寬高比統(tǒng)計(jì)圖
圖4 寬高聚類分析
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集來源有:車載攝像頭拍攝的圖片、手機(jī)拍攝的圖片,選取光照條件比較好的圖片作為數(shù)據(jù)集,采用LabelImg 圖像標(biāo)注工具對(duì)采集到的圖片進(jìn)行標(biāo)注,標(biāo)注的區(qū)域包含行人的輪廓,得到帶標(biāo)簽的行人數(shù)據(jù)集,共計(jì)1 304 張。標(biāo)簽名統(tǒng)一采用person 表示。在模型的訓(xùn)練階段,選取數(shù)據(jù)集的80% 來訓(xùn)練模型,20% 作為測(cè)試集。部分實(shí)驗(yàn)數(shù)據(jù)集如圖5 所示。
圖5 數(shù)據(jù)集樣本
3.2 實(shí)驗(yàn)平臺(tái)及訓(xùn)練
實(shí)驗(yàn)所使用的軟硬件環(huán)境如表1 所示。
表1 軟硬件配置
訓(xùn)練參數(shù)如表2 所示。
表2 訓(xùn)練參數(shù)設(shè)置
3.3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)采用平均準(zhǔn)確度(mAP)作為判斷算法性能的標(biāo)準(zhǔn)。在自制的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),檢測(cè)精度達(dá)到了90.1%。所提方法檢測(cè)結(jié)果與直接使用Faster R-CNN的檢測(cè)效果對(duì)比如圖6 所示,圖6(a) 表示直接使用Faster R-CNN 的檢測(cè)效果,圖6(b) 表示所提算法的檢測(cè)效果,通過左右圖片對(duì)比可以看出,使用所提算法檢測(cè)出來的目標(biāo)個(gè)數(shù)要優(yōu)于調(diào)整前的檢測(cè)個(gè)數(shù)。
(a) Faster R-CNN檢測(cè)結(jié)果
(b)本文方法結(jié)果
圖6 測(cè)試結(jié)果對(duì)比
為了比較調(diào)整寬高比對(duì)模型準(zhǔn)確率的影響,在自制數(shù)據(jù)集上對(duì)原算法和所提算法分別訓(xùn)練40 000 次。得到的檢測(cè)準(zhǔn)確率如表3 所示,所提算法的準(zhǔn)確率較原算法提高了1.8%。
表3 調(diào)整寬高比前后測(cè)試結(jié)果
4 結(jié)語
以Faster R-CNN 為基礎(chǔ),通過在卷積層之前加入一個(gè)預(yù)處理層成功實(shí)現(xiàn)行人檢測(cè)的目標(biāo)。以自制數(shù)據(jù)集為訓(xùn)練和測(cè)試網(wǎng)絡(luò)所需的數(shù)據(jù),針對(duì)漏檢和誤檢,提出將紋理特征作為底層特征對(duì)原圖進(jìn)行預(yù)處理,同時(shí)使用K-means 算法對(duì)行人寬高比進(jìn)行統(tǒng)計(jì)分析,得出適合數(shù)據(jù)集中行人的寬高比尺寸,達(dá)到降低漏檢的目的。實(shí)驗(yàn)測(cè)試結(jié)果表明,本文算法可以有效提高交通場(chǎng)景下行人檢測(cè)的準(zhǔn)確率,在漏檢率和誤檢率上,分別提高了5%、6.1%。但存在訓(xùn)練樣本還不夠豐富,因此下一步研究工作的重點(diǎn)將放在提高檢測(cè)模型的實(shí)時(shí)性和魯棒性上。
責(zé)任編輯:tzh
-
視頻監(jiān)控
+關(guān)注
關(guān)注
17文章
1711瀏覽量
65172 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7600瀏覽量
89286 -
檢測(cè)
+關(guān)注
關(guān)注
5文章
4514瀏覽量
91769 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5516瀏覽量
121584
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測(cè)中的應(yīng)用
如何設(shè)計(jì)一種基于DSP的車輛碰撞聲檢測(cè)裝置?
一種基于圖像平移的目標(biāo)檢測(cè)框架
MATLAB的行人目標(biāo)檢測(cè)的方法有哪些?
基于車載視覺的行人檢測(cè)與跟蹤方法
![基于車載視覺的<b class='flag-5'>行人</b><b class='flag-5'>檢測(cè)</b>與跟蹤<b class='flag-5'>方法</b>](https://file1.elecfans.com//web2/M00/A6/2A/wKgZomUMPBCAIK-4AAAMvLojc5E014.jpg)
一種基于交通視頻的攝像機(jī)標(biāo)定方法
![<b class='flag-5'>一種</b>基于<b class='flag-5'>交通</b>視頻的攝像機(jī)標(biāo)定<b class='flag-5'>方法</b>](https://file.elecfans.com/web2/M00/49/5E/pYYBAGKhtEmAPTRDAAALfzNPW-Q489.jpg)
基于改進(jìn)型LBP特征的監(jiān)控視頻行人檢測(cè)
![基于改進(jìn)型LBP特征的監(jiān)控視頻<b class='flag-5'>行人</b><b class='flag-5'>檢測(cè)</b>](https://file.elecfans.com/web2/M00/49/56/poYBAGKhwKOAJvw7AAAOpC5glOA792.jpg)
一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法
![<b class='flag-5'>一種</b>改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>行人</b><b class='flag-5'>檢測(cè)</b><b class='flag-5'>方法</b>](https://file.elecfans.com/web2/M00/49/6F/poYBAGKhwLOAFY1fAAAR9ehJKjo024.jpg)
基于YUV顏色空間的行人視頻檢測(cè)陰影去除算法的實(shí)現(xiàn)
![基于YUV顏色空間的<b class='flag-5'>行人</b>視頻<b class='flag-5'>檢測(cè)</b>陰影去除算法的實(shí)現(xiàn)](https://file.elecfans.com/web1/M00/9E/AD/o4YBAF0-ScuAYhRQAAApQZuHcm4250.jpg)
如何使用級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行行人檢測(cè)的方法說明
![如何使用級(jí)聯(lián)網(wǎng)絡(luò)進(jìn)行<b class='flag-5'>行人</b><b class='flag-5'>檢測(cè)</b>的<b class='flag-5'>方法</b>說明](https://file.elecfans.com/web1/M00/8D/FE/o4YBAFywX4uADIdGAABXwxKu8Mw920.png)
評(píng)論