Continual Test-Time 的領(lǐng)域適應(yīng)
目錄
前言
相關(guān)工作
Source Data Adaptation
Target Data Adaptation
CoTTA 概述
CoTTA 詳細(xì)介紹
Weight-Averaged Pseudo-Labels
Augmentation-Averaged Pseudo-Labels
實(shí)驗(yàn)
結(jié)論
參考
前言
Continual Test-Time 的領(lǐng)域適應(yīng)(CoTTA)在 CVPR 2022 上被提出,目的是在不使用任何源數(shù)據(jù)(source domain)的情況下,將源預(yù)訓(xùn)練模型適應(yīng)于目標(biāo)域(target domain)?,F(xiàn)有的研究主要關(guān)注于處理靜態(tài) target domain 的情況。然而,在現(xiàn)實(shí)世界中,機(jī)器感知系統(tǒng)必須在不穩(wěn)定且不斷變化的環(huán)境中運(yùn)行,target domain 的分布會(huì)隨時(shí)間不斷變化。
現(xiàn)有的方法主要基于自訓(xùn)練和熵正則化,但它們還是可能受到這些非穩(wěn)定環(huán)境的影響。由于 target domain 內(nèi)的分布隨時(shí)間發(fā)生偏移,偽標(biāo)簽變得不可靠。因此,帶有噪聲的偽標(biāo)注進(jìn)一步導(dǎo)致錯(cuò)誤積累和災(zāi)難性遺忘。為了應(yīng)對(duì)這些問題,這篇文章提出了一種測(cè)試時(shí)領(lǐng)域適應(yīng)方法(CoTTA)。
在正式介紹 CoTTA 之前,我們先來熟悉一些相關(guān)工作。
相關(guān)工作
Source Data Adaptation
Domain Adaptation (DA) :此時(shí),我們有源數(shù)據(jù) + 源標(biāo)簽 + 目標(biāo)數(shù)據(jù),希望模型做到在沒看過的?標(biāo)數(shù)據(jù)上性能好,目標(biāo)數(shù)據(jù)的標(biāo)簽限制到很少或者為零。
Domain Generalization (DG) :此時(shí),我們有源數(shù)據(jù) + 源標(biāo)簽,希望模型做到在?標(biāo)數(shù)據(jù)上性能好。
Target Data Adaptation
Source-Free Domain Adaptation (SFDA): 在上面的 settings 中,訓(xùn)練過程是可以訪問到源域數(shù)據(jù)的。但是在實(shí)際情況中,由于隱私原因(醫(yī)療數(shù)據(jù)不能公開)或者數(shù)據(jù)量問題,我們并不能獲取到源域數(shù)據(jù),而只能獲取到源域所訓(xùn)練好的模型。這個(gè) setting 的目的就是只利用源模型來完成 Domain Adaptation。
Test-Time Training (TTT): 從信息的角度,從前我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)都只利用了訓(xùn)練集的信息(監(jiān)督學(xué)習(xí)),但其實(shí)測(cè)試集也從數(shù)據(jù)分布的角度提供了信息。這個(gè) setting 主要就是提出了一種同時(shí)利用了訓(xùn)練集信息,和測(cè)試集所提供的數(shù)據(jù)分布的信息去訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法。允許?次性獲得整個(gè)測(cè)試數(shù)據(jù)集,并且多次迭代。測(cè)試時(shí)根據(jù)測(cè)試樣本泛化,可以獲取源數(shù)據(jù)。
Test-Time Adaptation (TTA): 傳統(tǒng)的模型訓(xùn)練后固定,在測(cè)試時(shí)無法改變。TTA 可以讓模型在測(cè)試時(shí)可以快速地微調(diào)和調(diào)整,從而能夠面對(duì)現(xiàn)實(shí)世界中,數(shù)據(jù)的分布不斷演化的過程。TTA 是 Domain Adaptation 的一個(gè)分支。它們同樣有一個(gè)源域和一個(gè)目標(biāo)域,首先在源域上進(jìn)行預(yù)訓(xùn)練,然后半監(jiān)督或無監(jiān)督地適應(yīng)到目標(biāo)域上。兩者的主要區(qū)別在于,Test-Time Adaptation 的訓(xùn)練在測(cè)試的同時(shí)完成。可以簡(jiǎn)單理解為,Test-Time Adaptation 是只經(jīng)過一個(gè) epoch 的 DA。另一個(gè)區(qū)別在于,DA 往往報(bào)告模型訓(xùn)練完成后的模型性能,而 TTA 的測(cè)試和訓(xùn)練是同時(shí)進(jìn)行的,故報(bào)告的性能介于訓(xùn)練前和訓(xùn)練結(jié)束之間。我們可以獲得源模型 + 整個(gè)測(cè)試數(shù)據(jù)。
CoTTA 概述
先考慮一個(gè)問題,為什么要從 TTA 到 CoTTA?現(xiàn)有的方法通常遭受錯(cuò)誤累積和遺忘(Error Accumulation and Forgetting)的問題,問題只出現(xiàn)在 Backward-based model 中。Error Accumulation:切換 domain 時(shí)性能會(huì)直接崩掉,因?yàn)?overfit 上?個(gè) domain 的噪聲。Forgetting:long-term update 導(dǎo)致遺忘 pre-trained model 的信息.
CoTTA 能使預(yù)先訓(xùn)練好的源模型適應(yīng)不斷變化的測(cè)試數(shù)據(jù)。它克服了現(xiàn)有方法的兩個(gè)主要局限性。該方法的第一個(gè)組成部分旨在減少誤差積累。CoTTA 采用了兩種不同的方式來提高自訓(xùn)練框架下的偽標(biāo)簽質(zhì)量。首先,使用了平均權(quán)重教師模型來提供更準(zhǔn)確的預(yù)測(cè),因?yàn)槠骄處燁A(yù)測(cè)通常比標(biāo)準(zhǔn)模型具有更高的質(zhì)量。其次,對(duì)于存在較大域差異的測(cè)試數(shù)據(jù),使用增強(qiáng)平均預(yù)測(cè)來進(jìn)一步提高偽標(biāo)簽的質(zhì)量。該方法的第二部分旨在幫助保存源知識(shí)并避免遺忘。建議將網(wǎng)絡(luò)中的一小部分神經(jīng)元隨機(jī)恢復(fù)到預(yù)先訓(xùn)練好的源模型中。通過減少誤差積累并保留知識(shí),CoTTA能夠在不斷變化的環(huán)境中進(jìn)行長(zhǎng)期適應(yīng),并實(shí)現(xiàn)對(duì)訓(xùn)練網(wǎng)絡(luò)的所有參數(shù)的調(diào)整。
需要指出的是,權(quán)重平均和增強(qiáng)平均策略以及隨機(jī)恢復(fù)可以輕松地整合到任何現(xiàn)有的預(yù)訓(xùn)練模型中,而無需重新訓(xùn)練源數(shù)據(jù)。這篇證明了我們提出的方法在四個(gè)分類任務(wù)和分割任務(wù)中的有效性,并顯著提高了現(xiàn)有方法的性能。CoTTA 的貢獻(xiàn)包括:
提出了一種持續(xù)測(cè)試時(shí)間自適應(yīng)方法,能夠使現(xiàn)有的預(yù)訓(xùn)練源模型有效適應(yīng)不斷變化的目標(biāo)數(shù)據(jù)。
通過采用更準(zhǔn)確的權(quán)重平均和增強(qiáng)平均偽標(biāo)簽,減少了誤差積累。
通過明確保留源模型中的知識(shí),緩解了長(zhǎng)期遺忘效應(yīng)。
CoTTA 詳細(xì)介紹
給定一個(gè)現(xiàn)有的預(yù)訓(xùn)練模型 ,參數(shù)θ訓(xùn)練在源數(shù)據(jù) 上,我們的目標(biāo)是在推理期間以不訪問任何源數(shù)據(jù)的在線方式,使用持續(xù)更改的目標(biāo)域,提高這個(gè)現(xiàn)有模型的性能。未標(biāo)記的目標(biāo)域數(shù)據(jù) 依次提供,模型只能訪問當(dāng)前時(shí)間步長(zhǎng)的數(shù)據(jù)。在時(shí)間步 t,提供目標(biāo)數(shù)據(jù) 作為輸入,模型 需要進(jìn)行預(yù)測(cè) ,并相應(yīng)地適應(yīng)未來的輸入 。 的數(shù)據(jù)分布也在不斷變化。該模型是基于在線預(yù)測(cè)進(jìn)行評(píng)估的。這種 setting 很大程度上是由于在不斷變化的環(huán)境中對(duì)機(jī)器感知應(yīng)用程序的需要。例如,由于位置、天氣和時(shí)間的原因,自動(dòng)駕駛汽車的周圍環(huán)境正在不斷變化。感知決策需要在網(wǎng)上(online)做出,模型需要進(jìn)行調(diào)整。如下圖所示,CoTTA 是一種在線連續(xù)測(cè)試時(shí)間自適應(yīng)方法。該方法采用一個(gè)現(xiàn)成的源預(yù)訓(xùn)練模型,并以在線的方式適應(yīng)不斷變化的目標(biāo)數(shù)據(jù)。由于誤差積累是自訓(xùn)練框架中的關(guān)鍵瓶頸之一,CoTTA 建議使用權(quán)重平均和增強(qiáng)平均偽標(biāo)簽減少錯(cuò)誤積累。此外,為了幫助減少持續(xù)適應(yīng)中的遺忘,CoTTA 建議明確地保留從源模型中獲得的信息。下面的部分將分別介紹 CoTTA 貢獻(xiàn)中涉及到的三個(gè)內(nèi)容。
Weight-Averaged Pseudo-Labels
權(quán)重平均一致性的好處是雙重的。一方面,通過使用通常更準(zhǔn)確的權(quán)重平均預(yù)測(cè)作為偽標(biāo)簽?zāi)繕?biāo),模型在連續(xù)適應(yīng)過程中遭受較少的誤差積累。另一方面,平均教師預(yù)測(cè) 編碼了過去迭代中模型的信息,因此在長(zhǎng)期持續(xù)適應(yīng)中不太可能發(fā)生災(zāi)難性遺忘,提高了對(duì)新的看不見領(lǐng)域的泛化能力。這一步?jīng)]什么可以進(jìn)一步介紹的,受到了在半監(jiān)督學(xué)習(xí)中提出的平均教師方法的啟發(fā)。
Augmentation-Averaged Pseudo-Labels
數(shù)據(jù)增強(qiáng)是在訓(xùn)練期間對(duì)原始數(shù)據(jù)進(jìn)行一系列變換和擴(kuò)充的技術(shù),旨在增加訓(xùn)練數(shù)據(jù)的多樣性,從而提高模型的性能。研究人員通常手動(dòng)設(shè)計(jì)或搜索適合不同數(shù)據(jù)集的增強(qiáng)策略。另外,經(jīng)過證明,在測(cè)試期間進(jìn)行數(shù)據(jù)增強(qiáng)也可以提高模型的魯棒性,即對(duì)不同類型的輸入能夠更好地進(jìn)行預(yù)測(cè)。然而,測(cè)試時(shí)間的增強(qiáng)策略通常是為特定數(shù)據(jù)集確定并固定的,沒有考慮到推理期間數(shù)據(jù)分布的變化。在實(shí)際應(yīng)用中,測(cè)試數(shù)據(jù)的分布可能會(huì)因?yàn)榄h(huán)境的不斷變化而發(fā)生顯著改變,這可能導(dǎo)致原先確定的增強(qiáng)策略失效。為了解決這個(gè)問題,這篇文章提出了一種考慮測(cè)試時(shí)間領(lǐng)域遷移的方法,并通過預(yù)測(cè)的置信度來近似領(lǐng)域之間的差異。只有當(dāng)領(lǐng)域之間的差異較大時(shí),才會(huì)應(yīng)用增強(qiáng)技術(shù),以減少由于錯(cuò)誤累積而引起的問題。這種方法能夠更好地適應(yīng)不斷變化的環(huán)境,提高模型在測(cè)試期間的性能和魯棒性。
其中 是教師模型的增強(qiáng)平均預(yù)測(cè), 是教師模型的直接預(yù)測(cè), 是源預(yù)訓(xùn)練模型對(duì)當(dāng)前輸入 的預(yù)測(cè)置信度, 是一個(gè)置信閾值。通過使用上面中預(yù)先訓(xùn)練的模型 計(jì)算當(dāng)前輸入 的預(yù)測(cè)一致性,試圖近似源和當(dāng)前域之間的域差。假設(shè),較低的置信度表示越大的域間隙,相對(duì)較高的置信度表示域間隙越小。因此,當(dāng)置信度高且大于閾值時(shí),我們直接使用 作為偽標(biāo)簽,而不使用任何增強(qiáng)。當(dāng)置信度較低時(shí),額外應(yīng)用 N 個(gè)隨機(jī)增強(qiáng)來進(jìn)一步提高偽標(biāo)簽的質(zhì)量。當(dāng)觀察到隨機(jī)的增加時(shí),過濾是關(guān)鍵的對(duì)于具有較小域間隙的自信樣本,有時(shí)會(huì)降低模型的性能??傊?,使用置信度來近似域的差異,并確定何時(shí)應(yīng)用增強(qiáng)。
Stochastic Restoration
隨機(jī)恢復(fù)可以被看作是一種特殊的 Dropout 形式。在這種方法中,網(wǎng)絡(luò)通過隨機(jī)地將可訓(xùn)練權(quán)重中的一小部分張量元素恢復(fù)到初始權(quán)重,以避免與初始源模型之間的差異過大,從而防止災(zāi)難性遺忘的發(fā)生。此外,通過保留源模型的信息,可以訓(xùn)練所有可訓(xùn)練參數(shù)而不會(huì)導(dǎo)致模型崩潰。這種方法可以有效地平衡源模型知識(shí)的保留和新數(shù)據(jù)的學(xué)習(xí)。上面這三個(gè)內(nèi)容,都可以在 CoTTA 的框架圖里找到。
實(shí)驗(yàn)
首先我們看下 CoTTA 在分類任務(wù)上的表現(xiàn),從 CIFAR10 跨域到 CIFAR10C 的結(jié)果如下表,CIFAR10C 包括了各種可能下手動(dòng)增加的噪聲。
在這里插入圖片描述
下表是 CoTTA 在分割任務(wù)上的表現(xiàn),從 Cityscapes 跨域到 ACDC,包括霧天,夜晚,雨天和雪天四種不同的情況,從左到右時(shí)間步依次增長(zhǎng)。
在這里插入圖片描述
結(jié)論
該論文提出了一種名為 CoTTA 的新方法,用于在非平穩(wěn)環(huán)境下進(jìn)行持續(xù)的測(cè)試時(shí)間適應(yīng)。在這種環(huán)境中,目標(biāo)域的數(shù)據(jù)分布會(huì)隨著時(shí)間的推移而不斷變化。該方法由兩個(gè)主要組成部分構(gòu)成:一是使用權(quán)重平均和增強(qiáng)平均偽標(biāo)簽來減少誤差的累積,二是通過隨機(jī)地恢復(fù)一小部分權(quán)重到源預(yù)訓(xùn)練的權(quán)重,以保留源模型中的知識(shí)。CoTTA 方法可以方便地集成到現(xiàn)有的預(yù)訓(xùn)練模型中,而無需訪問源數(shù)據(jù)。該方法的有效性在四個(gè)分類任務(wù)和一項(xiàng)針對(duì)持續(xù)測(cè)試時(shí)間適應(yīng)的分割任務(wù)中得到了驗(yàn)證,并且在實(shí)驗(yàn)中表現(xiàn)出優(yōu)于現(xiàn)有方法的性能。通過使用權(quán)重平均和增強(qiáng)平均偽標(biāo)簽來減少誤差累積,CoTTA 方法能夠更好地適應(yīng)不斷變化的目標(biāo)分布。同時(shí),通過隨機(jī)恢復(fù)一小部分權(quán)重到源預(yù)訓(xùn)練權(quán)重,CoTTA 方法能夠保留源模型中的知識(shí),從而避免災(zāi)難性遺忘的問題。這項(xiàng)研究為在非平穩(wěn)環(huán)境中進(jìn)行持續(xù)的測(cè)試時(shí)間適應(yīng)提供了一種有效的方法,并在實(shí)驗(yàn)中展示了其優(yōu)越性,可以適應(yīng)在一些 online 任務(wù)上。此外,在下一篇文章中我們將介紹 CVPR 2023 中的 EcoTTA: Memory-Efficient Continual Test-Time Adaptation via Self-Distilled Regularization,是基于 CoTTA 在內(nèi)存上做的優(yōu)化。
責(zé)任編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7170瀏覽量
89705 -
感知系統(tǒng)
+關(guān)注
關(guān)注
1文章
72瀏覽量
15999 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
36瀏覽量
3889
原文標(biāo)題:Continual Test-Time 的領(lǐng)域適應(yīng)
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
矢量混頻器表征和混頻器測(cè)試系統(tǒng)矢量誤差修正的新方法 白皮書
基于LabVIEW8.2提取ECG特征點(diǎn)的新方法
運(yùn)用于matlab中的矩陣求逆的新方法有哪些啊(不是函數(shù)inv)
虛擬環(huán)境中軟體的包圍盒更新方法分析
高精度非接觸測(cè)量轉(zhuǎn)速新方法研究
虛擬環(huán)境中軟體的包圍盒更新方法分析
一種新的非平穩(wěn)噪聲環(huán)境下的噪聲功率譜估計(jì)方法
VLSI系統(tǒng)設(shè)計(jì)的最新方法
![VLSI系統(tǒng)設(shè)計(jì)的最<b class='flag-5'>新方法</b>](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
評(píng)論