欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

深度學(xué)習(xí)自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:Fareise ? 2022-03-21 15:33 ? 次閱讀

NLP中,預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型,在下游不同任務(wù)上分別進(jìn)行finetune,得到下游任務(wù)的模型。然而,這種方式的代價也很大,經(jīng)常要對所有任務(wù)都保存一個完整的task-specific模型,隨著預(yù)訓(xùn)練模型體積越來越大,這種方式會占用很多存儲空間,當(dāng)下游任務(wù)很多的時候要存儲大量的預(yù)訓(xùn)練模型。同時,為每個任務(wù)finetune一個如此龐大的模型,訓(xùn)練資源的消耗也比較大。

為了實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移,近兩年來業(yè)內(nèi)提出了很多優(yōu)化finetune的方法,例如adapter finetune、mask finetune等。最近很火的prompt更是極大減輕了finetune開銷,甚至不進(jìn)行finetune就能應(yīng)用于下游任務(wù)。本文重點介紹近兩年幾個NLP中finetune優(yōu)化的經(jīng)典工作,包括adapter-finetune、side-tuning、mask-finetune以及prefix-finetune等工作。

Adapter-tuning

遷移NLP預(yù)訓(xùn)練模型的方法主要分為finetune和feature-based。Finetune將原來的模型在下游任務(wù)上進(jìn)行訓(xùn)練,而feature-based方法使用預(yù)訓(xùn)練模型產(chǎn)出的詞、句子等embedding作為輸入,接下游一個獨立的模型進(jìn)行預(yù)測。其中finetune的效果往往由于feature-based方法。然而finetune的計算開銷要比feature-based大很多,能不能采用一種折中的方式呢?Parameter-Efficient Transfer Learning for NLP(ICML 2019)提出了一種更經(jīng)濟(jì)的遷移學(xué)習(xí)方法adapter-tuning,只需要finetune少量參數(shù)就能達(dá)到和finetune整個模型不相上下的效果。具體做法為,在原來的Bert模型的每層中間加入兩個adapter,adapter首先通過全連接對原輸入進(jìn)行降維進(jìn)一步縮小參數(shù)量,經(jīng)過內(nèi)部的NN后再將維度還原,形成一種bottleneck的結(jié)構(gòu)。在finetune過程中,原預(yù)訓(xùn)練Bert模型的參數(shù)freeze住不更新,只更新adapter的參數(shù),大大減少了finetune階段需要更新和保存的參數(shù)量。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

AdapterFusion: Non-Destructive Task Composition for Transfer Learning(2021)在Adapter Finetune的基礎(chǔ)上,提出當(dāng)下游存在多個任務(wù)的時候,使用兩階段的Finetune。第一階段和Adapter Finetune的思路一樣,在預(yù)訓(xùn)練大模型基礎(chǔ)上加上每個任務(wù)的adapter進(jìn)行finetune,大模型參數(shù)freeze。在第二階段,繼續(xù)freeze預(yù)訓(xùn)練模型,同時freeze住第一階段訓(xùn)練的adapter模型參數(shù),學(xué)習(xí)一個AdapterFusion模型,這個模塊的作用是融合各個adapter的信息,實現(xiàn)下游多個任務(wù)之間的信息共享。AdapterFusion部分的思路是,利用當(dāng)前樣本在FF層的輸出和各個任務(wù)的adapter輸出做Attention,實現(xiàn)從多個Adapter產(chǎn)出信息中的選擇和融合。這樣模型實現(xiàn)了根據(jù)每個樣本選擇合適的adapter輸出,綜合了多任務(wù)的adapter信息。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Side-Tuning

Side-tuning: A baseline for network adaptation via additive side networks(ECCV 2019)提出了一種side-tuning的方法。如下圖,side-tune是在原來的預(yù)訓(xùn)練模型基礎(chǔ)上,增加一個小的side network,然后將預(yù)訓(xùn)練模型的輸入和side-network的輸出進(jìn)行融合。融合的方法文中提出使用一個可學(xué)習(xí)的參數(shù)α進(jìn)行加權(quán)融合就能取得比較的效果。在訓(xùn)練過程中,預(yù)訓(xùn)練模型不會進(jìn)行更新,只更新side-network部分的參數(shù)。Side模型的尺寸和復(fù)雜度也可以根據(jù)任務(wù)的難易程度進(jìn)行調(diào)整。Side-tuning和adapt-tuning有相似之處,都是利用一個附屬的小模型對原預(yù)訓(xùn)練大模型的表示進(jìn)行更精細(xì)化的針對下游任務(wù)的調(diào)整。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Mask-tuning

Masking as an efficient alternative to finetuning for pretrained language models(2020)提出一種簡單的mask方法實現(xiàn)高效finetune。相比一般的finetune,該方法在finetune階段不對參數(shù)進(jìn)行調(diào)整,而是學(xué)習(xí)一個mask矩陣。對于每一個Transformer層,都會學(xué)習(xí)一個0-1的矩陣,然后用這個矩陣對該層所有全連接權(quán)重進(jìn)行縮放。公式如下,m表示矩陣中某一個元素,根據(jù)一個閾值設(shè)置為1或0,再用這個矩陣和每層的全連接參數(shù)相乘進(jìn)行對應(yīng)元素的縮放。

Mask-tuning的出發(fā)點為,在預(yù)訓(xùn)練模型finetune的過程中,其實不需要finetune那么多參數(shù),只要finetune一些關(guān)鍵參數(shù)就能達(dá)到較好的效果,減少finetune階段計算的冗余性。在How fine can fine-tuning be? Learning efficient language models(2020)一文中也提出了類似的思路。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Mask-tuning的出發(fā)點為,在預(yù)訓(xùn)練模型finetune的過程中,其實不需要finetune那么多參數(shù),只要finetune一些關(guān)鍵參數(shù)就能達(dá)到較好的效果,減少finetune階段計算的冗余性。在How fine can fine-tuning be? Learning efficient language models(2020)一文中也提出了類似的思路。

Prefix-tuning

REFORMER: THE EFFICIENT TRANSFORMER(ICLR 2020)提出了采用局部敏感哈希的方法提升Transformer效率。當(dāng)序列較長時,QK^T的維度[batch_size, L, L]的計算量和存儲開銷會非常大,但是由于我們關(guān)注的是softmax后的結(jié)果,并不關(guān)注QK^T本身是什么,而softmax只關(guān)注值最大的幾個元素,因此我們可以只選擇k<

Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021)提出的方法只finetune 0.1%的參數(shù)就取得和finetune相當(dāng)?shù)男Ч?,并且在少樣本任?wù)上效果優(yōu)于finetune。本文提出針對自然語言生成任務(wù)(如摘要生成、table-to-text等任務(wù))的遷移預(yù)訓(xùn)練大模型的方法?;贚anguage models are few-shot learners(2020,GPT3)等文章中提出的Prompt思路,只要能給模型一個合適的上下文信息context,預(yù)訓(xùn)練的語言模型不需要修改參數(shù)就能很好的解決下游問題。例如當(dāng)我們想生成Obama這個詞,只要上下文信息給Barack,模型就可有可能生成Obama,因為模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)到了這些信息。

該方法的具體實現(xiàn)為,將預(yù)訓(xùn)練的Transformer模型參數(shù)整體Freeze住,當(dāng)正常輸入文本序列的時候,在最前端添加幾個prefix id,每一個prefix id都對應(yīng)一個隨機(jī)初始化的embedding,不同的任務(wù)有不同的prefix id。這樣在模型中,prefix之后每個時刻的表示都會受到prefix的影響,prefix代表某個對應(yīng)具體任務(wù)的上下文信息。在Finetune過程中,模型的其他參數(shù)都Freeze,只finetune prefix的embedding,以及prefix后面接的一些全連接層,F(xiàn)inetune參數(shù)量只占整體模型的0.1%,遠(yuǎn)小于其他的Finetune方法。該方法核心思想利用了prefix embedding去學(xué)習(xí)對于某個任務(wù)來說,需要從預(yù)訓(xùn)練語言模型中提取什么樣的信息。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

總結(jié)

NLP領(lǐng)域預(yù)訓(xùn)練大模型的發(fā)展,催生出很多針對如何提升遷移效率的研究工作。從目前的研究趨勢來看,基于prompt思想的finetune是未來的一個重要研究趨勢,充分利用預(yù)訓(xùn)練模型的信息,讓下游任務(wù)更貼近預(yù)訓(xùn)練模型,而不是讓預(yù)訓(xùn)練模型貼近下游任務(wù)。后續(xù)我們也會對prompt進(jìn)行更為詳細(xì)的介紹。

原文標(biāo)題:NLP中的綠色Finetune方法

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲
    +關(guān)注

    關(guān)注

    13

    文章

    4359

    瀏覽量

    86210
  • 參數(shù)
    +關(guān)注

    關(guān)注

    11

    文章

    1860

    瀏覽量

    32447
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3342

    瀏覽量

    49270

原文標(biāo)題:NLP中的綠色Finetune方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于不同量級預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

    NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個字符的語料經(jīng)過預(yù)訓(xùn)練模型匯主導(dǎo)。那么對于一個預(yù)訓(xùn)練
    發(fā)表于 03-03 11:21 ?1911次閱讀

    【大語言模型:原理與工程實踐】大語言模型預(yù)訓(xùn)練

    大語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)
    發(fā)表于 05-07 17:10

    為什么要使用預(yù)訓(xùn)練模型?8種優(yōu)秀預(yù)訓(xùn)練模型大盤點

    正如我們在本文中所述,ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),將其在WikiText-103數(shù)據(jù)集(維基百科的長期依賴語言建模數(shù)據(jù)集Wik
    的頭像 發(fā)表于 04-04 11:26 ?2.4w次閱讀
    為什么要使用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>?8種優(yōu)秀<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>大盤點

    遷移學(xué)習(xí)與模型預(yù)訓(xùn)練:何去何從

    把我們當(dāng)前要處理的NLP任務(wù)叫做T(T稱為目標(biāo)任務(wù)),遷移學(xué)習(xí)技術(shù)做的事是利用另一個任務(wù)S(S稱為源任務(wù))來提升任務(wù)T的效果,也即把S的信息遷移到T中。至于怎么遷移信息就有很多方法了,
    的頭像 發(fā)表于 07-18 11:29 ?7959次閱讀
    <b class='flag-5'>遷移</b>學(xué)習(xí)與<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>:何去何從

    小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

    導(dǎo)讀:預(yù)訓(xùn)練模型NLP大放異彩,并開啟了預(yù)訓(xùn)練-微調(diào)的NL
    的頭像 發(fā)表于 12-31 10:17 ?2673次閱讀
    小米在<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>的探索與優(yōu)化

    基于BERT的中文科技NLP預(yù)訓(xùn)練模型

    深度學(xué)習(xí)模型應(yīng)用于自然語言處理任務(wù)時依賴大型、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集。為降低深度學(xué)習(xí)模型對大型數(shù)據(jù)集的依賴,提出一種基于BERT的中文科技自然語言處理預(yù)訓(xùn)練
    發(fā)表于 05-07 10:08 ?14次下載

    2021 OPPO開發(fā)者大會:NLP預(yù)訓(xùn)練模型

    2021 OPPO開發(fā)者大會:NLP預(yù)訓(xùn)練模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預(yù)
    的頭像 發(fā)表于 10-27 14:18 ?1809次閱讀
    2021 OPPO開發(fā)者大會:<b class='flag-5'>NLP</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>模型</b>

    2021年OPPO開發(fā)者大會 融合知識的NLP預(yù)訓(xùn)練模型

    2021年OPPO開發(fā)者大會劉海鋒:融合知識的NLP預(yù)訓(xùn)練模型,知識融合學(xué)習(xí)運用在小布助手里面。
    的頭像 發(fā)表于 10-27 14:48 ?2478次閱讀
    2021年OPPO開發(fā)者大會 融合知識的<b class='flag-5'>NLP</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>模型</b>

    使用 NVIDIA TAO 工具套件和預(yù)訓(xùn)練模型加快 AI 開發(fā)

    可以訪問預(yù)訓(xùn)練模型的完整源代碼和模型權(quán)重。 該工具套件能夠高效訓(xùn)練視覺和對話式 AI 模型。由于
    的頭像 發(fā)表于 12-15 19:40 ?1088次閱讀

    什么是預(yù)訓(xùn)練 AI 模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 04-04 01:45 ?1548次閱讀

    什么是預(yù)訓(xùn)練AI模型

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 05-25 17:10 ?1148次閱讀

    NLP中的遷移學(xué)習(xí):利用預(yù)訓(xùn)練模型進(jìn)行文本分類

    遷移學(xué)習(xí)徹底改變了自然語言處理(NLP)領(lǐng)域,允許從業(yè)者利用預(yù)先訓(xùn)練模型來完成自己的任務(wù),從而大大減少了訓(xùn)練時間和計算資源。在本文中,我們
    發(fā)表于 06-14 09:30 ?483次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?3210次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?553次閱讀

    預(yù)訓(xùn)練遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個重要概念,它們在提高模型性能、減少訓(xùn)練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?1268次閱讀