【導(dǎo)讀】本文提出了一種十億級(jí)數(shù)據(jù)規(guī)模的半監(jiān)督圖像分類模型,通過使用教師-學(xué)生架構(gòu)以及一個(gè)小規(guī)模的帶標(biāo)簽數(shù)據(jù)集,作者提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法。另外,作者對(duì)模型的不同架構(gòu)和模型參數(shù)進(jìn)行了消融實(shí)驗(yàn),并提出了一些構(gòu)建半監(jiān)督學(xué)習(xí)模型的建議。
摘要
本文基于教師-學(xué)生架構(gòu)(teacher-student schema),利用大規(guī)模無標(biāo)簽圖像數(shù)據(jù)集 (多達(dá)十億張),提出了一種基于大規(guī)模卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法,旨在改善給定目標(biāo)模型架構(gòu)的性能,如 ResNet-50 或ResNext。隨后,作者通過大量的評(píng)估分析了本文所提出方法的成功因素,提出了一些用于構(gòu)建高性能半監(jiān)督圖像分類學(xué)習(xí)模型的建議??偟膩碚f,本文的方法在構(gòu)建圖像、視頻及細(xì)粒度分類的標(biāo)準(zhǔn)模型架構(gòu)方面有著重要的意義,如利用一個(gè)含十億張未標(biāo)記的圖像數(shù)據(jù)集訓(xùn)練得到的 vanilla ResNet-50 模型,在 Imagenet 數(shù)據(jù)集的基準(zhǔn)測(cè)試中取得了81.2% 的 top-1 精度。
簡(jiǎn)介
當(dāng)前,利用網(wǎng)絡(luò)弱監(jiān)督數(shù)據(jù)集,圖像和視頻分類技術(shù)在諸如圖像分類、細(xì)粒度識(shí)別等問題上取得了非常好的表現(xiàn)。但是,弱監(jiān)督學(xué)習(xí)的標(biāo)簽存在一些缺陷。首先,非視覺性標(biāo)簽、缺失標(biāo)簽和不相關(guān)標(biāo)簽會(huì)導(dǎo)致噪聲,這將對(duì)模型的訓(xùn)練造成很大影響。第二,弱監(jiān)督的網(wǎng)絡(luò)數(shù)據(jù)集通常遵循齊普夫定律,存在大量長(zhǎng)尾(long-tail)標(biāo)簽,這使得模型只會(huì)對(duì)那些最顯著的標(biāo)簽有良好的性能。最后,這些弱監(jiān)督方法假定其可用于目標(biāo)任務(wù)所使用的大型弱監(jiān)督數(shù)據(jù)集,然而在許多現(xiàn)實(shí)情況中并非如此。
針對(duì)這些問題,本文利用數(shù)十億張未標(biāo)記的圖像以及一個(gè)針對(duì)特定任務(wù)的相對(duì)較小的標(biāo)簽數(shù)據(jù)集,提出了一個(gè)用于網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的半監(jiān)督深度學(xué)習(xí)模型,如圖1所示:
(1)在標(biāo)簽數(shù)據(jù)集上訓(xùn)練以獲得初始的教師模型 (teacher model); (2) 對(duì)于每個(gè) class/label 對(duì),使用該教師模型來對(duì)未標(biāo)記的圖像打標(biāo)簽并進(jìn)行打分,選擇每一標(biāo)簽類別的 top-K 個(gè)圖像來構(gòu)建新的訓(xùn)練數(shù)據(jù); (3)使用新構(gòu)建的數(shù)據(jù)來訓(xùn)練學(xué)生模型 (student model)。通常來說,學(xué)生模型與教師模型存在一定的差異,因此在測(cè)試時(shí)可以降低模型的復(fù)雜性; (4) 在初始的標(biāo)簽數(shù)據(jù)集上,對(duì)預(yù)訓(xùn)練的學(xué)生模型進(jìn)行微調(diào) (fine-tuning) ,以避免一些可能存在的標(biāo)簽錯(cuò)誤。
圖1 半監(jiān)督學(xué)習(xí)方法說明:通過一個(gè)優(yōu)秀的教師模型,從一個(gè)非常大型的無標(biāo)簽圖像數(shù)據(jù)集 (億級(jí)) 構(gòu)建一個(gè)新的訓(xùn)練集。隨后,在這個(gè)帶噪聲的數(shù)據(jù)集上訓(xùn)練學(xué)生模型,再在原始的數(shù)據(jù)集上進(jìn)行微調(diào)。
除此模型之外,本研究還嘗試了幾種其他的模型結(jié)構(gòu),一是移除教師 - 學(xué)生模型并使用自訓(xùn)練模型,二是在進(jìn)行模型微調(diào)時(shí)使用推斷出的標(biāo)簽作為訓(xùn)練數(shù)據(jù)。在實(shí)驗(yàn)分析部分,作者討論了幾個(gè)影響模型性能的敏感因素,如用于標(biāo)簽排名的教師模型的性能,無標(biāo)簽數(shù)據(jù)的規(guī)模以及性質(zhì),教師模型和學(xué)生模型之間的關(guān)系等。研究結(jié)果表明,利用主題標(biāo)簽或查詢作為弱監(jiān)督信號(hào)來收集無標(biāo)簽數(shù)據(jù)能夠顯著地提升模型的性能。
本文的貢獻(xiàn)如下:
提出了一個(gè)用于大規(guī)模億級(jí)無標(biāo)簽數(shù)據(jù)集的半監(jiān)督深度學(xué)習(xí)方法,并展示了在標(biāo)簽數(shù)據(jù)上訓(xùn)練得到的教師模型能夠有效地指導(dǎo)學(xué)生模型在無標(biāo)簽圖像數(shù)據(jù)上的訓(xùn)練學(xué)習(xí)過程。
總結(jié)了這種學(xué)習(xí)策略在何種情況下能帶來最大收益,如圖2。
對(duì)多種模型架構(gòu)進(jìn)行消融實(shí)驗(yàn)并做詳細(xì)分析,如教師/學(xué)生模型的強(qiáng)度,無標(biāo)簽數(shù)據(jù)集的性質(zhì),所選擇樣本的標(biāo)簽數(shù)等。
展示了這種半監(jiān)督學(xué)習(xí)方法在視頻分類和細(xì)粒度識(shí)別任務(wù)中的表現(xiàn)。
圖2 用于構(gòu)建大規(guī)模半監(jiān)督學(xué)習(xí)模型的建議
半監(jiān)督學(xué)習(xí)方法
本文所提出的半監(jiān)督學(xué)習(xí)方法主要包含四個(gè)部分,如圖3所示:
圖3 半監(jiān)督學(xué)習(xí)方法流程
這與當(dāng)前的一些蒸餾研究流程相類似,不同之處如下:(1) 聯(lián)合利用無標(biāo)簽和標(biāo)簽數(shù)據(jù)的方法;(2) 構(gòu)建標(biāo)簽數(shù)據(jù)集 D 的方法;(3) 使用的數(shù)據(jù)規(guī)模以及針對(duì) Imagenet 數(shù)據(jù)集的改進(jìn)。
教師模型訓(xùn)練
這一步驟在標(biāo)簽數(shù)據(jù)集上訓(xùn)練一個(gè)教師模型,以便對(duì)無標(biāo)簽數(shù)據(jù)集的圖像打標(biāo)簽。這種方法的一大優(yōu)點(diǎn)在于推理過程是高度可并行的,這意味著不論是在 CPU 還是在 GPU 上,對(duì)大規(guī)模億級(jí)數(shù)據(jù)的計(jì)算也能在很短時(shí)間內(nèi)完成。該階段訓(xùn)練一個(gè)性能優(yōu)秀的教師模型,以便為無標(biāo)簽數(shù)據(jù)生成可靠的標(biāo)簽信息,且不引入多余的標(biāo)簽噪聲。
數(shù)據(jù)選擇和標(biāo)簽
這一步旨在收集大量的圖像數(shù)據(jù),并對(duì)標(biāo)簽噪聲進(jìn)行控制。由于無標(biāo)簽數(shù)據(jù)的規(guī)模很大,因此對(duì)于每個(gè)目標(biāo)標(biāo)簽,從無標(biāo)簽數(shù)據(jù)集中選用 top-K 個(gè)樣本。首先,用無標(biāo)簽數(shù)據(jù)集的每個(gè)樣本來訓(xùn)練教師模型,以獲得 softmax 預(yù)測(cè)向量。而對(duì)于每張圖像而言,只能得到與類別相關(guān)的 P 個(gè)最高分?jǐn)?shù),其中 P 是一個(gè)用來反映我們期望出現(xiàn)在每個(gè)圖像中的最多的類別數(shù)量。隨后,基于相關(guān)的類別分?jǐn)?shù),對(duì)圖像進(jìn)行排名 (ranking),并選擇用于多類別半監(jiān)督圖像分類的新的圖像數(shù)據(jù)。圖4展示了在 ImageNet-val 數(shù)據(jù)集上基于 ResNet-50 訓(xùn)練出的教師模型在 YFCC100M 數(shù)據(jù)上的排名結(jié)果,其中 P = 5 。排名越高的圖像,所帶的標(biāo)簽噪聲越少。
圖4 通過本文方法從 YFCC100M 上所收集的圖像樣本
學(xué)生模型的訓(xùn)練與微調(diào)
這一步用新的標(biāo)簽數(shù)據(jù)集數(shù)據(jù)來訓(xùn)練學(xué)生模型,旨在得到一個(gè)更簡(jiǎn)單通用的模型。實(shí)際上,這里可以選用與教師模型相同結(jié)構(gòu)的學(xué)生模型。值得注意的是,雖然為標(biāo)簽數(shù)據(jù)集中每個(gè)圖像分配多個(gè)類別標(biāo)簽信息是可以實(shí)現(xiàn)的,但這里仍通過圖像復(fù)制的方式將問題視為一種多類別分類任務(wù)。之后,在原始標(biāo)簽數(shù)據(jù)集上對(duì)學(xué)生模型微調(diào)并進(jìn)行評(píng)估,在預(yù)訓(xùn)練和微調(diào)過程都采用 softmax 損失函數(shù)。
圖像分類實(shí)驗(yàn)與分析
這一部分,作者通過在 ImageNet1K 數(shù)據(jù)集上的一系列圖像分類實(shí)驗(yàn)評(píng)估了該模型的效果。
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:使用下面兩個(gè)網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集作為無標(biāo)簽數(shù)據(jù),用于半監(jiān)督學(xué)習(xí)實(shí)驗(yàn)。
YFCC-100M:這一數(shù)據(jù)集是從 Flickr 網(wǎng)站提取得到的一個(gè)含9千萬張圖像的公開數(shù)據(jù)集。移除數(shù)據(jù)集中的重復(fù)樣本后,作者將該數(shù)據(jù)集用于后續(xù)大部分的實(shí)驗(yàn)。
IG-1B-Targeted:這一數(shù)據(jù)集是作者從社交媒體網(wǎng)站上收集的,包含10億張公共圖像數(shù)據(jù)。
除非有特別的說明,這里統(tǒng)一采用標(biāo)準(zhǔn)的1000個(gè)類別的 ImageNet 作為標(biāo)簽數(shù)據(jù)集。
模型:對(duì)于教師和學(xué)生模型,分別采用殘差網(wǎng)絡(luò)(residul network) ResNet-d ,其中 d = {18, 50} ,以及使用群卷積(group convolution)的殘差網(wǎng)絡(luò) ResNeXt-101 32XCd ,其中分組寬度 C = {4, 8, 16, 48} 。具體的模型參數(shù)如圖5所示:
圖5 改變教師模型容量并用所提出的方法來訓(xùn)練 ResNet-50 學(xué)生模型,這里的收益是相對(duì)于監(jiān)督學(xué)習(xí)基準(zhǔn)準(zhǔn)確度的絕對(duì)提升值。
訓(xùn)練細(xì)節(jié):實(shí)驗(yàn)過程通過使用同步隨機(jī)梯度下降算法(synchronous stochastic gradient descent, SGD)在8臺(tái)機(jī)器的64個(gè) GPU 上訓(xùn)練模型。每個(gè) GPU 一次處理24張圖像,并對(duì)所有的卷積層采用批正則化策略(batch normalization)。權(quán)重衰減參數(shù)設(shè)置為0.0001,訓(xùn)練過程的學(xué)習(xí)率設(shè)置采用帶 warm-up 的縮放策略,整體的 minibatch 大小為 64 * 24 = 1536 。
對(duì)于模型預(yù)訓(xùn)練,采用 0.1 到 0.1/256×1536 的 warm-up 策略,這里的 0.1 和 256分別是 ImageNet 訓(xùn)練中使用的標(biāo)準(zhǔn)學(xué)習(xí)率和 minibatch 尺寸。此外,采用二等分間隔的學(xué)習(xí)率衰減策略,使得在訓(xùn)練過程中學(xué)習(xí)率減少次數(shù)共為13次。在基于 ImageNet 數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)時(shí),將學(xué)習(xí)率設(shè)為 0.00025 / 256 × 1536,并在30 個(gè) epochs 期間采用三等分間隔減少學(xué)習(xí)率。
不同模型的實(shí)驗(yàn)分析
本文方法vs監(jiān)督學(xué)習(xí)方法圖6比較了本文方法與監(jiān)督學(xué)習(xí)方法在 ImageNet 數(shù)據(jù)集上的效果??梢钥吹?,相比于監(jiān)督學(xué)習(xí),本文方法訓(xùn)練的教師模型取得了顯著的性能改進(jìn)。
圖6 本文方法與監(jiān)督學(xué)習(xí)方法在不同容量的學(xué)生模型上微調(diào)前后的 ImageNet1k-val top-1 精度
模型微調(diào)的重要性由于預(yù)訓(xùn)練的數(shù)據(jù)集和標(biāo)簽數(shù)據(jù)集的標(biāo)簽信息是一樣的,作者比較了模型在標(biāo)簽數(shù)據(jù)上微調(diào)前后的性能。如上圖6所示,可以看到在標(biāo)簽數(shù)據(jù)上進(jìn)行微調(diào)對(duì)于模型性能有著至關(guān)重要的影響。
學(xué)生和教師模型容量的影響如上圖5、圖6所示,可以看到對(duì)于容量更低的學(xué)生模型,識(shí)別的精度有顯著地提高。而對(duì)于教師模型而言,增大模型的容量并不會(huì)對(duì)學(xué)生模型的性能造成顯著影響。
自訓(xùn)練:教師/學(xué)生模型的消融實(shí)驗(yàn)(ablation)圖7展示了在自訓(xùn)練模式下,模型在ImageNet 數(shù)據(jù)集上訓(xùn)練得到的不同模型在推斷時(shí)的準(zhǔn)確度。可以看到,對(duì)于容量更大的模型,所取得的準(zhǔn)確度表現(xiàn)相對(duì)更好。
圖7 自訓(xùn)練模式下 ResNet 和 ResNeXt 模型在 YFCC 數(shù)據(jù)集上的 top-1 準(zhǔn)確度,這里的收益是相對(duì)于監(jiān)督學(xué)習(xí)基準(zhǔn)的提升值。
參數(shù)分析
無標(biāo)簽數(shù)據(jù)集的大小下圖8展示不同規(guī)模的無標(biāo)簽數(shù)據(jù)集上半監(jiān)督學(xué)習(xí)模型的準(zhǔn)確度表現(xiàn)。可以看到,在數(shù)據(jù)集規(guī)模達(dá)到2千5百萬之前,每當(dāng)數(shù)據(jù)集規(guī)模成倍增加時(shí),模型能夠取得穩(wěn)定的準(zhǔn)確度提升??偟膩碚f,采用大型的無標(biāo)簽數(shù)據(jù)對(duì)于模型性能的提升是有幫助的。
圖8 ResNet-50 學(xué)生模型在不同規(guī)模的無標(biāo)簽數(shù)據(jù)上的精度
預(yù)訓(xùn)練迭代次數(shù)圖9展示了不同預(yù)訓(xùn)練迭代次數(shù)下的模型性能表現(xiàn)??梢钥吹?,當(dāng)?shù)螖?shù)為10億次時(shí),模型能夠?qū)崿F(xiàn)良好的識(shí)別準(zhǔn)確度和計(jì)算資源的權(quán)衡。
圖9 不同預(yù)訓(xùn)練步數(shù)對(duì)完全監(jiān)督和半監(jiān)督的 ResNet-50 學(xué)生模型性能的影響
參數(shù)K和P圖10展示了當(dāng) P = 10 時(shí),每個(gè)類別選擇的圖片數(shù) K 的變化對(duì)模型性能的影響。作者發(fā)現(xiàn),在所收集的無標(biāo)簽數(shù)據(jù)集規(guī)模不是很大時(shí),令 P = 10 能獲得較好的模型表現(xiàn)。
圖10 對(duì)于超參數(shù) K 的不同取值,學(xué)生模型的精度表現(xiàn)。
此外,實(shí)驗(yàn)還對(duì)一些不同的半監(jiān)督學(xué)習(xí)的方法進(jìn)行了分析,并將模型的表現(xiàn)與當(dāng)前最先進(jìn)的模型性能進(jìn)行對(duì)比。除了圖像分類實(shí)驗(yàn)外,本研究還進(jìn)一步探究在視頻分類、遷移學(xué)習(xí)等不同應(yīng)用中該半監(jiān)督學(xué)習(xí)方法的性能。具體的分析內(nèi)容和說明可參見原論文。
總結(jié)
本文研究利用大規(guī)模的無標(biāo)簽圖像數(shù)據(jù)集,探究了半監(jiān)督學(xué)習(xí)在圖像識(shí)別方面的應(yīng)用,并提高了 CNN 模型的性能表現(xiàn)。通過一系列的實(shí)驗(yàn)分析,作者提出,聯(lián)合使用大型標(biāo)簽數(shù)據(jù)集和小規(guī)模有標(biāo)簽數(shù)據(jù)集能夠有助于構(gòu)建效果更好的卷積神經(jīng)網(wǎng)絡(luò)模型。此外,研究還對(duì)一些模型參數(shù)和模型變體進(jìn)行了實(shí)驗(yàn)分析,并總結(jié)了一些構(gòu)建半監(jiān)督圖像分類模型的經(jīng)驗(yàn)方法。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4346瀏覽量
62998 -
圖像分類
+關(guān)注
關(guān)注
0文章
93瀏覽量
11957 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24845
原文標(biāo)題:10億級(jí)數(shù)據(jù)規(guī)模的半監(jiān)督圖像分類模型,Imagenet測(cè)試精度高達(dá)81.2% | 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
半監(jiān)督的譜聚類圖像分割
基于C均值聚類和圖轉(zhuǎn)導(dǎo)的半監(jiān)督分類算法
![基于C均值聚類和圖轉(zhuǎn)導(dǎo)的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b>算法](https://file.elecfans.com/web2/M00/49/6A/poYBAGKhwLCABwZhAAAU5reSGK0326.jpg)
半監(jiān)督極限學(xué)習(xí)機(jī)分類模型
基于均值漂移參數(shù)自適應(yīng)的半監(jiān)督復(fù)合核支持向量機(jī)圖像分類
一種新的目標(biāo)分類特征深度學(xué)習(xí)模型
![<b class='flag-5'>一種</b>新的目標(biāo)<b class='flag-5'>分類</b>特征深度學(xué)習(xí)<b class='flag-5'>模型</b>](https://file.elecfans.com/web1/M00/4B/70/o4YBAFqw1g2ALCgUAACLywIqD40710.jpg)
如何約束半監(jiān)督分類方法的詳細(xì)資料概述
![如何約束<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b>方法的詳細(xì)資料概述](https://file.elecfans.com/web1/M00/6D/06/o4YBAFvs69yAFeknAAYm_eXqw1Q349.png)
最基礎(chǔ)的半監(jiān)督學(xué)習(xí)
一種基于人臉圖像陰影集的二級(jí)分類模型
![<b class='flag-5'>一種</b>基于人臉<b class='flag-5'>圖像</b>陰影集的二級(jí)<b class='flag-5'>分類</b><b class='flag-5'>模型</b>](https://file.elecfans.com/web1/M00/E7/E1/pIYBAGBif2yABcWzAAGNXSJnHKQ155.png)
一種帶有局部坐標(biāo)約束的半監(jiān)督概念分解算法
![<b class='flag-5'>一種</b>帶有局部坐標(biāo)約束的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b>概念分解算法](https://file.elecfans.com/web1/M00/E8/7A/pIYBAGBkD76AM7ewAACe_Uy0tXs013.png)
一種基于光滑表示的半監(jiān)督分類算法
![<b class='flag-5'>一種</b>基于光滑表示的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b>算法](https://file.elecfans.com/web1/M00/E9/DA/pIYBAGBub1uAetYVAAMltR5kJ0w804.png)
一種基于DE和ELM的半監(jiān)督分類方法
![<b class='flag-5'>一種</b>基于DE和ELM的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>分類</b>方法](https://file.elecfans.com/web1/M00/EA/46/pIYBAGBwDdmAaDgoAAH8rTXkzw8303.png)
評(píng)論