99re8这里有精品热视频,欧美日本一频道一区二区三区

1. 研究背景與動(dòng)機(jī)

知識(shí)蒸餾（knowledge distillation，KD）是一種通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，它使用大的te acher模型來(lái) “教” student模型，在各種AI任務(wù)上有著廣泛應(yīng)用。數(shù)據(jù)增強(qiáng)（data augmentation，DA) 更是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標(biāo)配技巧。

知識(shí)蒸餾按照蒸餾的位置通常分為（1）基于網(wǎng)絡(luò)中間特征圖的蒸餾，（2）基于網(wǎng)絡(luò)輸出的蒸餾。對(duì)于后者來(lái)說(shuō)，近幾年分類任務(wù)上KD的發(fā)展主要集中在新的損失函數(shù)，譬如ICLR’20的CRD和ECCV’20的SSKD將對(duì)比學(xué)習(xí)引入損失函數(shù)，可以從teacher模型中提取到更豐富的信息，供student模型學(xué)習(xí)，實(shí)現(xiàn)了當(dāng)時(shí)的SOTA。

本文沒有探索損失函數(shù)、蒸餾位置等傳統(tǒng)研究問(wèn)題上, 我們延用了最原始版本的KD loss (也就是Hinton等人在NIPS’14 workshop上提出KD的時(shí)候用的Cross-Entropy + KL divergence ）。我們重點(diǎn)關(guān)注網(wǎng)絡(luò)的輸入端：如何度量不同數(shù)據(jù)增強(qiáng)方法在KD中的好壞？（相比之下，之前的KD paper大多關(guān)注網(wǎng)絡(luò)的中間特征，或者輸出端）。系統(tǒng)框圖如下所示，本文的核心目標(biāo)是要提出一種指標(biāo)去度量圖中 “Stronger DA” 的強(qiáng)弱程度。

這一切起源于一個(gè)偶然的實(shí)驗(yàn)發(fā)現(xiàn)：在KD中延長(zhǎng)迭代次數(shù)，通?？梢苑浅Ｃ黠@地提升KD的性能。譬如KD實(shí)驗(yàn)中常用的ResNet34/ResNet18 pair, 在ImageNet-1K上，將迭代次數(shù)從100 epochs增加到200 epochs，可以將top1/top5準(zhǔn)確率從70.66/89.88提升到71.38/90.59, 達(dá)到當(dāng)時(shí)的SOTA方法CRD的性能（71.38/90.49）。這顯得很迷，將最baseline的方法訓(xùn)練久一點(diǎn)就可以SOTA？經(jīng)過(guò)很多實(shí)驗(yàn)分析我們最終發(fā)現(xiàn)，是數(shù)據(jù)增強(qiáng)在背后起作用。

直覺上的解釋是：每次迭代，數(shù)據(jù)增強(qiáng)是隨機(jī)的，得到的樣本都不一樣。那么，迭代次數(shù)變多，student見到的不一樣的樣本就越多，這可以從teacher模型中提取到更豐富的信息（跟對(duì)比學(xué)習(xí)loss似乎有著異曲同工之妙），幫助student模型學(xué)習(xí)。

很自然我們可以進(jìn)一步推想：不同數(shù)據(jù)增強(qiáng)方法引入的數(shù)據(jù)“多樣性”應(yīng)該是不同的，譬如我們期待基于強(qiáng)化學(xué)習(xí)搜出來(lái)的AutoAugment應(yīng)該要比簡(jiǎn)單的隨機(jī)翻轉(zhuǎn)要更具有多樣性。簡(jiǎn)單地說(shuō)，這篇paper就是在回答：具體怎么度量這種多樣性，以及度量完之后我們?cè)趺丛趯?shí)際中應(yīng)用。

為什么這個(gè)問(wèn)題重要？（1）理論意義：幫助我們更深地理解KD和DA，（2）實(shí)際意義：實(shí)驗(yàn)表明在KD中使用更強(qiáng)的DA總能提高性能，如果我們知道了什么因素在控制這種“強(qiáng)弱”，那么我們就可以締造出更強(qiáng)的DA，從而坐享KD性能的提升。

2. 主要貢獻(xiàn)和內(nèi)容

文章的主要貢獻(xiàn)是三點(diǎn)：

（1）我們提出了一個(gè)定理來(lái)嚴(yán)格回答什么樣的數(shù)據(jù)增強(qiáng)是好的，結(jié)論是：好的數(shù)據(jù)增強(qiáng)方法應(yīng)該降低teacher-student交叉熵的協(xié)方差。

定理的核心部分是看不同數(shù)據(jù)增強(qiáng)方法下訓(xùn)練樣本之間的相關(guān)性，相關(guān)性越大意味著樣本越相似，多樣性就越低，student性能應(yīng)該越差。這個(gè)直覺完全符合文中的證明，這是理論上的貢獻(xiàn)。值得一提的是，相關(guān)性不是直接算原始樣本之間的相關(guān)性，而是算樣本經(jīng)過(guò)了teacher得到的logits之間的相關(guān)性，也就是，raw data層面上樣本的相關(guān)性不重要，重要的是在teacher看來(lái)這些樣本有多么相似，越不相似越好。

（2）基于這個(gè)定理，提出了一個(gè)具體可用的指標(biāo)（stddev of teacher’s mean probability, T. stddev），可以對(duì)每一種數(shù)據(jù)增強(qiáng)方法算一個(gè)數(shù)值出來(lái)，按照這個(gè)數(shù)值排序，就知道哪種數(shù)據(jù)增強(qiáng)方法最好。文中測(cè)試了7種既有數(shù)據(jù)增強(qiáng)方法, 發(fā)現(xiàn)CutMix最好用。

（3）基于該定理，提出了一種新的基于信息熵篩選的數(shù)據(jù)增強(qiáng)方法，叫做CutMixPick，它是在CutMix的基礎(chǔ)上挑選出熵最大的樣本（熵大意味著信息量大，多樣性多）進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明，即使是使用最普通的KD loss也可以達(dá)到SOTA KD方法（例如CRD）的水平。

3. 實(shí)驗(yàn)效果

文中最重要的實(shí)驗(yàn)是，驗(yàn)證提出的指標(biāo)（T. Stddev）是否真的能刻畫不同數(shù)據(jù)增強(qiáng)方法下student性能（S. test loss）的好壞，也就是二者之間的相關(guān)性如何。結(jié)果表明：相關(guān)性顯著！

文章總共測(cè)試了9種數(shù)據(jù)增強(qiáng)方法，我們?cè)贑IFAR100，Tiny ImageNet, ImageNet100上均做了驗(yàn)證，相關(guān)性都很強(qiáng)，p-value多數(shù)情況下遠(yuǎn)小于5%的顯著性界限，如下所示：

這其中最有意思的一點(diǎn)是，縱軸是student的性能，而橫軸的指標(biāo)是完全用teacher計(jì)算出來(lái)的，對(duì)于student沒有任何信息，但是somehow，二者呈現(xiàn)出很強(qiáng)的相關(guān)性。這說(shuō)明，KD中對(duì)DA好壞的評(píng)價(jià)很可能獨(dú)立于student的。同時(shí)，對(duì)于不同teacher、數(shù)據(jù)集，DA之間的相對(duì)排序也比較穩(wěn)定（譬如CutMix穩(wěn)定地比Cutout要好）。這些都意味著我們?cè)谝环N網(wǎng)絡(luò)、數(shù)據(jù)集下找到的好的DA有很大概率可以遷移到其他的網(wǎng)絡(luò)跟數(shù)據(jù)集中，大大提升了實(shí)際應(yīng)用價(jià)值。

4. 總結(jié)和局限性

本文關(guān)注數(shù)據(jù)增強(qiáng)在知識(shí)蒸餾中的影響，在理論和實(shí)際算法方面均有貢獻(xiàn)，主要有三點(diǎn)：(1) 我們對(duì) “如何度量知識(shí)蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞” 這一問(wèn)題給出了嚴(yán)格的理論分析（答：好的數(shù)據(jù)增強(qiáng)方法應(yīng)該最小化teacher-student交叉熵的協(xié)方差）；（2）基于該理論提出了一個(gè)實(shí)際可計(jì)算的度量指標(biāo)（stddev of teacher’s mean probability)；（3）最后提出了一個(gè)基于信息熵篩選的新數(shù)據(jù)增強(qiáng)方法（CutMixPick)，可以進(jìn)一步提升CutMix，在KD中達(dá)到新的SOTA性能。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4783

瀏覽量
101241
CRD

CRD

+關(guān)注

關(guān)注
0

文章
14

瀏覽量
4043

原文標(biāo)題：NeurIPS 2022 | 如何度量知識(shí)蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞？一種統(tǒng)計(jì)學(xué)視角

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于AHP度量模型的安全管理度量方法

本文以GB17859、ISO/IEC17799 等相關(guān)標(biāo)準(zhǔn)作為指導(dǎo)依據(jù),針對(duì)信息安全管理績(jī)效的度量問(wèn)題提出了一套基于AHP 模型的安全管理度量方法,并重點(diǎn)闡述了度量模型中

發(fā)表于 06-18 09:36 ?28次下載

基于等級(jí)保護(hù)的安全管理度量方法研究

本文提出了一種基于國(guó)家等級(jí)保護(hù)標(biāo)準(zhǔn)GB17895 的安全管理度量方法，闡述了度量要素的提取及度量結(jié)果的量化等問(wèn)題的解決方案，并依據(jù)ISO/IEC17799 標(biāo)準(zhǔn)設(shè)計(jì)了安全管理

發(fā)表于 08-24 15:22 ?21次下載

構(gòu)件內(nèi)聚性度量方法研究

構(gòu)件的內(nèi)聚性度量是衡量構(gòu)件質(zhì)量的一個(gè)重要指標(biāo)。度量構(gòu)件內(nèi)聚度的經(jīng)典方法程序切片，由于切片劃分的不同，其度量值不同。本文不僅很好地度量構(gòu)件的內(nèi)

發(fā)表于 01-09 11:58 ?7次下載

面向云數(shù)據(jù)的隱私度量研究進(jìn)展

的隱私度量方法進(jìn)行綜述：首先，對(duì)隱私保護(hù)技術(shù)和隱私度量進(jìn)行概述，給出攻擊者背景知識(shí)的量化方法，提出云數(shù)據(jù)

發(fā)表于 12-15 16:46 ?0次下載

混雜數(shù)據(jù)的多核幾何平均度量學(xué)習(xí)

在機(jī)器學(xué)習(xí)和模式識(shí)別任務(wù)中，選擇一種合適的距離度量方法是至關(guān)重要的，度量學(xué)習(xí)主要利用判別性信息學(xué)習(xí)一個(gè)馬氏距離或相似性度量．然而，大多數(shù)現(xiàn)有

發(fā)表于 12-25 17:16 ?0次下載

內(nèi)存取證的內(nèi)核完整性度量方法

內(nèi)核級(jí)攻擊對(duì)操作系統(tǒng)的完整性和安全性造成嚴(yán)重威脅．當(dāng)前，內(nèi)核完整性度量方法在度量對(duì)象選取上存在片面性，且大部分方法采用周期性度量，無(wú)法避免T

發(fā)表于 01-10 14:52 ?2次下載

深度學(xué)習(xí)：知識(shí)蒸餾的全過(guò)程

知識(shí)蒸餾的核心思想是通過(guò)遷移知識(shí)，從而通過(guò)訓(xùn)練好的大模型得到更加適合推理的小模型。本文作者介紹了知識(shí)蒸餾的全過(guò)程，以及引用Hinton等人的

發(fā)表于 01-07 14:36 ?6221次閱讀

基于知識(shí)蒸餾的惡意代碼家族檢測(cè)方法研究綜述

近年來(lái)，惡意代碼變種層出不窮，惡意軟件更具隱蔽性和持久性，亟需快速有效的檢測(cè)方法來(lái)識(shí)別惡意樣本。針對(duì)現(xiàn)文中提出了一種基于知識(shí)蒸餾的惡意代碼家族檢測(cè)方法，該模型通過(guò)逆向反編譯惡意樣本，利

發(fā)表于 04-20 14:49 ?9次下載

電池修復(fù)技術(shù)：做蒸餾水的方法是怎樣的

許多年前，該村經(jīng)常停電，應(yīng)急燈也很流行。每個(gè)人都在玩電池逆變器。電池和應(yīng)急燈必須充滿蒸餾水。如果您不愿購(gòu)買它們，請(qǐng)使用以下本機(jī)方法：這個(gè)方法很好。用這種蒸餾

發(fā)表于 05-18 17:15 ?2359次閱讀

若干蒸餾方法之間的細(xì)節(jié)以及差異

以往的知識(shí)蒸餾雖然可以有效的壓縮模型尺寸，但很難將teacher模型的能力蒸餾到一個(gè)更小詞表的student模型中，而DualTrain+SharedProj解決了這個(gè)難題。

發(fā)表于 05-12 11:39 ?1527次閱讀

關(guān)于快速知識(shí)蒸餾的視覺框架

知識(shí)蒸餾框架包含了一個(gè)預(yù)訓(xùn)練好的 teacher 模型（蒸餾過(guò)程權(quán)重固定），和一個(gè)待學(xué)習(xí)的 student 模型, teacher 用來(lái)產(chǎn)生 soft 的 label 用于監(jiān)督 student 的學(xué)習(xí)。

發(fā)表于 08-31 10:13 ?947次閱讀

用于NAT的選擇性知識(shí)蒸餾框架

盡管NAT在擁有許多潛在的優(yōu)勢(shì)，目前的工作中這類模型仍然在很大程度上依賴于句子級(jí)別的知識(shí)蒸餾（sequence-level knowledge distillation, KD）[2]。由于需要并行預(yù)測(cè)所有token，NAT對(duì)單

發(fā)表于 12-06 14:44 ?781次閱讀

TPAMI 2023 | 用于視覺識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾

representation learning [1] 的擴(kuò)展版本，論文講解鏈接為： https://zhuanlan.zhihu.com/p/574701719 摘要：無(wú)需教師的在線知識(shí)蒸餾聯(lián)合地訓(xùn)練多個(gè)學(xué)生模型并且相互地蒸餾

發(fā)表于 09-19 10:00 ?898次閱讀

任意模型都能蒸餾！華為諾亞提出異構(gòu)模型的知識(shí)蒸餾方法

相比于僅使用logits的蒸餾方法，同步使用模型中間層特征進(jìn)行蒸餾的方法通常能取得更好的性能。然而在異構(gòu)模型的情況下，由于不同架構(gòu)模型對(duì)特征的不同學(xué)習(xí)偏好，它們的中間層特征往往具有較大

發(fā)表于 11-01 16:18 ?1298次閱讀

大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法

的機(jī)制，應(yīng)用于中間層蒸餾時(shí)存在問(wèn)題，其無(wú)法處理不重疊的分布且無(wú)法感知底層流形的幾何結(jié)構(gòu)。為了解決這些問(wèn)題，大連理工大學(xué)的研究人員提出了一種基于 Wasserstein 距離（WD）的知識(shí)蒸餾

發(fā)表于 01-21 09:45 ?141次閱讀