0. 背景介紹
在深度學(xué)習(xí)領(lǐng)域,網(wǎng)絡(luò)上充斥著大量可自由訪(fǎng)問(wèn)的數(shù)據(jù),其中包括像ImageNet和MS-Celeb-1M數(shù)據(jù)集這樣的關(guān)鍵資源。然而,這些數(shù)據(jù)可能攜帶未經(jīng)授權(quán)收集的個(gè)人信息,引發(fā)了公眾對(duì)隱私的擔(dān)憂(yōu)。人們擔(dān)心,私人數(shù)據(jù)可能會(huì)在沒(méi)有所有者授權(quán)的情況下被不當(dāng)?shù)赜糜跇?gòu)建商業(yè)模型
這一問(wèn)題凸顯了在我們追求科技創(chuàng)新和性能提升的同時(shí),更需要關(guān)注數(shù)據(jù)隱私和合理使用的問(wèn)題。為了解決這些難題,越來(lái)越多的研究力量正在集中于使數(shù)據(jù)無(wú)法被濫用的方向。這些方法采用了一些巧妙的手段,比如向圖像中引入難以察覺(jué)的“捷徑”噪聲。通過(guò)這種方式,深度學(xué)習(xí)模型不再僅僅學(xué)習(xí)有用的語(yǔ)義信息,而是開(kāi)始學(xué)習(xí)噪聲和標(biāo)簽之間的對(duì)應(yīng)關(guān)系。因此,在這種數(shù)據(jù)上的訓(xùn)練得到的模型,無(wú)法準(zhǔn)確分類(lèi)干凈的數(shù)據(jù),有效地保護(hù)了用戶(hù)的隱私。這種巧妙的方法被稱(chēng)為不可學(xué)習(xí)樣本(UE),也可稱(chēng)之為可用性攻擊。
然而,隨著研究的深入,我們發(fā)現(xiàn)了在這種保護(hù)中的一個(gè)關(guān)鍵漏洞。如果無(wú)法利用的數(shù)據(jù)是唯一可訪(fǎng)問(wèn)的數(shù)據(jù),那么這種保護(hù)就會(huì)起效果。但現(xiàn)實(shí)情況卻并非總是如此。數(shù)據(jù)保護(hù)人員只能在他們自己的數(shù)據(jù)中添加“不可學(xué)習(xí)”的擾動(dòng),卻無(wú)法阻止未經(jīng)授權(quán)的用戶(hù)訪(fǎng)問(wèn)其他來(lái)源的類(lèi)似的未受保護(hù)數(shù)據(jù)。
因此,通過(guò)研究新收集的未受保護(hù)數(shù)據(jù),人們?nèi)匀豢梢匝芯渴鼙Wo(hù)示例的潛在分布。以人臉識(shí)別為例,雖然不可學(xué)習(xí)的樣本不能直接用于訓(xùn)練分類(lèi)器,但很容易收集到新的未受保護(hù)的人臉數(shù)據(jù)。只要新收集的未受保護(hù)數(shù)據(jù)與原始干凈數(shù)據(jù)之間有足夠的相似性,仍然有可能訓(xùn)練出能夠成功對(duì)原始干凈數(shù)據(jù)進(jìn)行分類(lèi)的分類(lèi)器。
換句話(huà)說(shuō),未經(jīng)授權(quán)的用戶(hù)可以很容易地繞過(guò)數(shù)據(jù)保護(hù),從新收集的未受保護(hù)數(shù)據(jù)中學(xué)習(xí)原始數(shù)據(jù)表示,即使這些數(shù)據(jù)可能規(guī)模很小,與干凈的數(shù)據(jù)不同,缺乏標(biāo)簽注釋?zhuān)⑶覇为?dú)不適合訓(xùn)練分類(lèi)器。為了證明上述漏洞的存在,我們?cè)O(shè)計(jì)了一種新的方法,可以將不可學(xué)習(xí)的樣本轉(zhuǎn)化為可學(xué)習(xí)的樣本。
1. 方法
一個(gè)直接的解決方案是設(shè)計(jì)一個(gè)特定的訓(xùn)練方案,可以在不可利用的數(shù)據(jù)上進(jìn)行訓(xùn)練。這是不太理想的,因?yàn)樗皇菍?duì)不可利用的數(shù)據(jù)進(jìn)行分類(lèi),而沒(méi)有揭示潛在的干凈數(shù)據(jù),即不可學(xué)習(xí)數(shù)據(jù)的未保護(hù)版本。
我們認(rèn)為,最終的對(duì)策是通過(guò)將UE再次轉(zhuǎn)變?yōu)榭蓪W(xué)習(xí)的方式來(lái)推斷/暴露底層的干凈數(shù)據(jù),這可能會(huì)導(dǎo)致進(jìn)一步的未經(jīng)授權(quán)的利用,如標(biāo)準(zhǔn)訓(xùn)練或表示學(xué)習(xí)。因此,理想的可學(xué)習(xí)的非授權(quán)數(shù)據(jù)應(yīng)該獨(dú)立于訓(xùn)練方案之外,可以像原始訓(xùn)練數(shù)據(jù)一樣正常使用。我們將可學(xué)習(xí)的未授權(quán)數(shù)據(jù)中的示例稱(chēng)為可學(xué)習(xí)示例(LEs)。
受擴(kuò)散模型在噪聲凈化和圖像生成中的強(qiáng)大功能的啟發(fā),我們提出了一種基于擴(kuò)散模型的新型凈化方法,用于生成可學(xué)習(xí)的示例。與常見(jiàn)的噪聲凈化(如對(duì)抗性?xún)艋?假設(shè)訓(xùn)練數(shù)據(jù)的可訪(fǎng)問(wèn)性不同,在沒(méi)有訪(fǎng)問(wèn)訓(xùn)練數(shù)據(jù)的情況下訓(xùn)練擴(kuò)散模型對(duì)去除UE保護(hù)提出了關(guān)鍵挑戰(zhàn),這是現(xiàn)有凈化方法尚未探索的。
為了克服這一挑戰(zhàn),獲得可學(xué)習(xí)示例背后的關(guān)鍵思想是從其他類(lèi)似數(shù)據(jù)中學(xué)習(xí)一個(gè)可學(xué)習(xí)的數(shù)據(jù)流形,然后將不可學(xué)習(xí)的示例投射到該流形上。然而,學(xué)習(xí)到的數(shù)據(jù)流形通常與原始數(shù)據(jù)流形不同,導(dǎo)致凈化樣本與原始干凈樣本相比語(yǔ)義偏差。為了緩解這一問(wèn)題,我們進(jìn)一步提出了一種新的聯(lián)合條件擴(kuò)散凈化方法,以捕獲從不可學(xué)習(xí)樣本到相應(yīng)的干凈樣本的映射。
我們首先向不可學(xué)習(xí)圖像中逐步注入一定量的高斯噪聲,直到它們的不可學(xué)習(xí)擾動(dòng)被高斯噪聲淹沒(méi)。接下來(lái),我們?yōu)槿ピ脒^(guò)程提供了一個(gè)新的聯(lián)合條件,在保持圖像語(yǔ)義的同時(shí)加快了去噪速度。聯(lián)合條件由不可學(xué)習(xí)樣本與其相應(yīng)去噪版本之間的像素距離和神經(jīng)感知距離參數(shù)化構(gòu)成。這是基于這樣的觀(guān)察,即不可學(xué)習(xí)的樣本通常與干凈樣本在像素距離上表現(xiàn)出很小的差異,而這種差異對(duì)人類(lèi)視覺(jué)來(lái)說(shuō)是難以察覺(jué)的。因此,通過(guò)最小化與不可學(xué)習(xí)樣本的視覺(jué)差異,降噪后的圖像應(yīng)該與原始樣本非常相似。
2. 結(jié)果與討論
我們?cè)谠S多基準(zhǔn)數(shù)據(jù)集上廣泛評(píng)估了我們?cè)诒O(jiān)督和無(wú)監(jiān)督UE上的方法,并將其與現(xiàn)有的對(duì)抗方法進(jìn)行了比較。結(jié)果表明,LE是唯一一種在監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)下都保持有效性的方法,更重要的是,我們的LE不像現(xiàn)有的對(duì)策那樣與特定的訓(xùn)練方案捆綁在一起,我們的可學(xué)習(xí)樣例是獨(dú)立的,可以作為原始的干凈的訓(xùn)練數(shù)據(jù)正常使用。
令人驚訝的是,我們發(fā)現(xiàn)即使新收集的數(shù)據(jù)(用于訓(xùn)練可學(xué)習(xí)的數(shù)據(jù)流形)和干凈的數(shù)據(jù)之間存在很大的分布差異,我們的方法仍然保持有效性。換句話(huà)說(shuō),訓(xùn)練數(shù)據(jù)和收集的原始數(shù)據(jù)之間的分布可以是不同的,我們?nèi)匀豢梢詫⒉豢蓪W(xué)習(xí)的例子變成可學(xué)習(xí)的。
這無(wú)疑進(jìn)一步加深了我們對(duì)UE保護(hù)脆弱性的擔(dān)憂(yōu),因?yàn)橛?xùn)練數(shù)據(jù)和收集的原始數(shù)據(jù)之間的分布即使是不同的,我們?nèi)匀豢梢詫⒉豢蓪W(xué)習(xí)的樣本變成可學(xué)習(xí)的。
最后,我們做了消融實(shí)驗(yàn),說(shuō)明了聯(lián)合條件凈化相比于直接應(yīng)用簡(jiǎn)單擴(kuò)散模型凈化的有效性。
審核編輯:劉清
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5518瀏覽量
121612
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于數(shù)據(jù)流的脆弱性靜態(tài)分析
基于熵方法的計(jì)算機(jī)網(wǎng)絡(luò)脆弱性檢測(cè)和優(yōu)化
基于模糊集的隱私保護(hù)模型
基于差分隱私的數(shù)據(jù)匿名化隱私保護(hù)模型
![基于差分<b class='flag-5'>隱私</b>的<b class='flag-5'>數(shù)據(jù)</b>匿名化<b class='flag-5'>隱私</b><b class='flag-5'>保護(hù)</b><b class='flag-5'>模型</b>](https://file.elecfans.com/web2/M00/49/7A/poYBAGKhwLuAG9tzAAAX77w13Ns579.jpg)
電網(wǎng)脆弱性綜合評(píng)估
![電網(wǎng)<b class='flag-5'>脆弱性</b>綜合評(píng)估](https://file.elecfans.com/web2/M00/49/82/poYBAGKhwMCADBuqAAAiq41TYXw550.jpg)
網(wǎng)絡(luò)脆弱性擴(kuò)散分析方法
![網(wǎng)絡(luò)<b class='flag-5'>脆弱性</b><b class='flag-5'>擴(kuò)散</b>分析方法](https://file.elecfans.com/web2/M00/49/89/poYBAGKhwMSAWJFUAAATJwpsu_w230.jpg)
基于位置偏移產(chǎn)生關(guān)聯(lián)概率不可區(qū)分的隱私保護(hù)方法
一種非脆弱性同步保性能控制方法
改進(jìn)DEAHP的支路綜合脆弱性評(píng)估
基于鏈路已用率的電力通信網(wǎng)脆弱性分析
SCADA系統(tǒng)該如何解決脆弱性泄露問(wèn)題?
人工智能:機(jī)器學(xué)習(xí)模型存在著對(duì)抗樣本的安全威脅
![人工智能:機(jī)器<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>存在著對(duì)抗<b class='flag-5'>樣本</b>的安全威脅](https://file.elecfans.com/web1/M00/C5/84/pIYBAF9HamWAbYOqAAEgKnay-aY824.png)
基于深度學(xué)習(xí)的自然語(yǔ)言處理對(duì)抗樣本模型
![基于深度<b class='flag-5'>學(xué)習(xí)</b>的自然語(yǔ)言處理對(duì)抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>](https://file.elecfans.com/web1/M00/EB/F9/pIYBAGB-dzCAC9oRAAA9EVEsk4U298.png)
通過(guò)擴(kuò)散模型理解不可學(xué)習(xí)樣本對(duì)于數(shù)據(jù)隱私保護(hù)的脆弱性
![<b class='flag-5'>通過(guò)</b><b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b><b class='flag-5'>理解</b><b class='flag-5'>不可學(xué)習(xí)</b><b class='flag-5'>樣本</b><b class='flag-5'>對(duì)于</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>隱私</b><b class='flag-5'>保護(hù)</b>的<b class='flag-5'>脆弱性</b>](https://file1.elecfans.com/web2/M00/B1/1A/wKgaomVhmHqAMyJqAAA4AsxfXHs393.png)
評(píng)論