欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認(rèn)識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式的代價也很大，經(jīng)常要對所有任務(wù)都保存一個完整的task-specific模型，隨著預(yù)訓(xùn)練模型體積越來越大，這種方式會占用很多存儲空間，當(dāng)下游任務(wù)很多的時候要存儲大量的預(yù)訓(xùn)練模型。同時，為每個任務(wù)finetune一個如此龐大的模型，訓(xùn)練資源的消耗也比較大。

為了實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移，近兩年來業(yè)內(nèi)提出了很多優(yōu)化finetune的方法，例如adapter finetune、mask finetune等。最近很火的prompt更是極大減輕了finetune開銷，甚至不進(jìn)行finetune就能應(yīng)用于下游任務(wù)。本文重點介紹近兩年幾個NLP中finetune優(yōu)化的經(jīng)典工作，包括adapter-finetune、side-tuning、mask-finetune以及prefix-finetune等工作。

Adapter-tuning

遷移NLP預(yù)訓(xùn)練模型的方法主要分為finetune和feature-based。Finetune將原來的模型在下游任務(wù)上進(jìn)行訓(xùn)練，而feature-based方法使用預(yù)訓(xùn)練模型產(chǎn)出的詞、句子等embedding作為輸入，接下游一個獨立的模型進(jìn)行預(yù)測。其中finetune的效果往往由于feature-based方法。然而finetune的計算開銷要比feature-based大很多，能不能采用一種折中的方式呢?Parameter-Efficient Transfer Learning for NLP(ICML 2019)提出了一種更經(jīng)濟(jì)的遷移學(xué)習(xí)方法adapter-tuning，只需要finetune少量參數(shù)就能達(dá)到和finetune整個模型不相上下的效果。具體做法為，在原來的Bert模型的每層中間加入兩個adapter，adapter首先通過全連接對原輸入進(jìn)行降維進(jìn)一步縮小參數(shù)量，經(jīng)過內(nèi)部的NN后再將維度還原，形成一種bottleneck的結(jié)構(gòu)。在finetune過程中，原預(yù)訓(xùn)練Bert模型的參數(shù)freeze住不更新，只更新adapter的參數(shù)，大大減少了finetune階段需要更新和保存的參數(shù)量。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Adapte rFusion: Non-Destructive Task Composition for Transfer Learning(2021)在Adapter Finetune的基礎(chǔ)上，提出當(dāng)下游存在多個任務(wù)的時候，使用兩階段的Finetune。第一階段和Adapter Finetune的思路一樣，在預(yù)訓(xùn)練大模型基礎(chǔ)上加上每個任務(wù)的adapter進(jìn)行finetune，大模型參數(shù)freeze。在第二階段，繼續(xù)freeze預(yù)訓(xùn)練模型，同時freeze住第一階段訓(xùn)練的adapter模型參數(shù)，學(xué)習(xí)一個AdapterFusion模型，這個模塊的作用是融合各個adapter的信息，實現(xiàn)下游多個任務(wù)之間的信息共享。AdapterFusion部分的思路是，利用當(dāng)前樣本在FF層的輸出和各個任務(wù)的adapter輸出做Attention，實現(xiàn)從多個Adapter產(chǎn)出信息中的選擇和融合。這樣模型實現(xiàn)了根據(jù)每個樣本選擇合適的adapter輸出，綜合了多任務(wù)的adapter信息。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Side-Tuning

Side-tuning: A baseline for network adaptation via additive side networks(ECCV 2019)提出了一種side-tuning的方法。如下圖，side-tune是在原來的預(yù)訓(xùn)練模型基礎(chǔ)上，增加一個小的side network，然后將預(yù)訓(xùn)練模型的輸入和side-network的輸出進(jìn)行融合。融合的方法文中提出使用一個可學(xué)習(xí)的參數(shù)α進(jìn)行加權(quán)融合就能取得比較的效果。在訓(xùn)練過程中，預(yù)訓(xùn)練模型不會進(jìn)行更新，只更新side-network部分的參數(shù)。Side模型的尺寸和復(fù)雜度也可以根據(jù)任務(wù)的難易程度進(jìn)行調(diào)整。Side-tuning和adapt-tuning有相似之處，都是利用一個附屬的小模型對原預(yù)訓(xùn)練大模型的表示進(jìn)行更精細(xì)化的針對下游任務(wù)的調(diào)整。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Mask-tuning

Masking as an efficient alternative to finetuning for pretrained language models(2020)提出一種簡單的mask方法實現(xiàn)高效finetune。相比一般的finetune，該方法在finetune階段不對參數(shù)進(jìn)行調(diào)整，而是學(xué)習(xí)一個mask矩陣。對于每一個Transformer層，都會學(xué)習(xí)一個0-1的矩陣，然后用這個矩陣對該層所有全連接權(quán)重進(jìn)行縮放。公式如下，m表示矩陣中某一個元素，根據(jù)一個閾值設(shè)置為1或0，再用這個矩陣和每層的全連接參數(shù)相乘進(jìn)行對應(yīng)元素的縮放。

Mask-tuning的出發(fā)點為，在預(yù)訓(xùn)練模型finetune的過程中，其實不需要finetune那么多參數(shù)，只要finetune一些關(guān)鍵參數(shù)就能達(dá)到較好的效果，減少finetune階段計算的冗余性。在How fine can fine-tuning be? Learning efficient language models(2020)一文中也提出了類似的思路。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Mask-tuning的出發(fā)點為，在預(yù)訓(xùn)練模型finetune的過程中，其實不需要finetune那么多參數(shù)，只要finetune一些關(guān)鍵參數(shù)就能達(dá)到較好的效果，減少finetune階段計算的冗余性。在How fine can fine-tuning be? Learning efficient language models(2020)一文中也提出了類似的思路。

Prefix-tuning

REFORMER: THE EFFICIENT TRANSFORMER(ICLR 2020)提出了采用局部敏感哈希的方法提升Transformer效率。當(dāng)序列較長時，QK^T的維度[batch_size, L, L]的計算量和存儲開銷會非常大，但是由于我們關(guān)注的是softmax后的結(jié)果，并不關(guān)注QK^T本身是什么，而softmax只關(guān)注值最大的幾個元素，因此我們可以只選擇k<

Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021)提出的方法只finetune 0.1%的參數(shù)就取得和finetune相當(dāng)?shù)男Ч?，并且在少樣本任?wù)上效果優(yōu)于finetune。本文提出針對自然語言生成任務(wù)(如摘要生成、table-to-text等任務(wù))的遷移預(yù)訓(xùn)練大模型的方法?；贚anguage models are few-shot learners(2020，GPT3)等文章中提出的Prompt思路，只要能給模型一個合適的上下文信息context，預(yù)訓(xùn)練的語言模型不需要修改參數(shù)就能很好的解決下游問題。例如當(dāng)我們想生成Obama這個詞，只要上下文信息給Barack，模型就可有可能生成Obama，因為模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)到了這些信息。

該方法的具體實現(xiàn)為，將預(yù)訓(xùn)練的Transformer模型參數(shù)整體Freeze住，當(dāng)正常輸入文本序列的時候，在最前端添加幾個prefix id，每一個prefix id都對應(yīng)一個隨機(jī)初始化的embedding，不同的任務(wù)有不同的prefix id。這樣在模型中，prefix之后每個時刻的表示都會受到prefix的影響，prefix代表某個對應(yīng)具體任務(wù)的上下文信息。在Finetune過程中，模型的其他參數(shù)都Freeze，只finetune prefix的embedding，以及prefix后面接的一些全連接層，F(xiàn)inetune參數(shù)量只占整體模型的0.1%，遠(yuǎn)小于其他的Finetune方法。該方法核心思想利用了prefix embedding去學(xué)習(xí)對于某個任務(wù)來說，需要從預(yù)訓(xùn)練語言模型中提取什么樣的信息。

如何實現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

總結(jié)

NLP領(lǐng)域預(yù)訓(xùn)練大模型的發(fā)展，催生出很多針對如何提升遷移效率的研究工作。從目前的研究趨勢來看，基于prompt思想的finetune是未來的一個重要研究趨勢，充分利用預(yù)訓(xùn)練模型的信息，讓下游任務(wù)更貼近預(yù)訓(xùn)練模型，而不是讓預(yù)訓(xùn)練模型貼近下游任務(wù)。后續(xù)我們也會對prompt進(jìn)行更為詳細(xì)的介紹。

原文標(biāo)題：NLP中的綠色Finetune方法

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

存儲

存儲

+關(guān)注

關(guān)注
13

文章
4359

瀏覽量
86210
參數(shù)

參數(shù)

+關(guān)注

關(guān)注
11

文章
1860

瀏覽量
32447
模型

模型

+關(guān)注

關(guān)注
1

文章
3342

瀏覽量
49270

原文標(biāo)題：NLP中的綠色Finetune方法

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

相關(guān)推薦

基于不同量級預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個字符的語料經(jīng)過預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對于一個預(yù)訓(xùn)練

發(fā)表于 03-03 11:21 ?1911次閱讀

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對預(yù)

發(fā)表于 05-07 17:10

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤點

正如我們在本文中所述，ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長期依賴語言建模數(shù)據(jù)集Wik

發(fā)表于 04-04 11:26 ?2.4w次閱讀

遷移學(xué)習(xí)與模型預(yù)訓(xùn)練：何去何從

把我們當(dāng)前要處理的NLP任務(wù)叫做T（T稱為目標(biāo)任務(wù)），遷移學(xué)習(xí)技術(shù)做的事是利用另一個任務(wù)S（S稱為源任務(wù)）來提升任務(wù)T的效果，也即把S的信息遷移到T中。至于怎么遷移信息就有很多方法了，

發(fā)表于 07-18 11:29 ?7959次閱讀

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開啟了預(yù)訓(xùn)練-微調(diào)的NL

發(fā)表于 12-31 10:17 ?2673次閱讀

基于BERT的中文科技NLP預(yù)訓(xùn)練模型

深度學(xué)習(xí)模型應(yīng)用于自然語言處理任務(wù)時依賴大型、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集。為降低深度學(xué)習(xí)模型對大型數(shù)據(jù)集的依賴，提出一種基于BERT的中文科技自然語言處理預(yù)訓(xùn)練

發(fā)表于 05-07 10:08 ?14次下載

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預(yù)

發(fā)表于 10-27 14:18 ?1809次閱讀

2021年OPPO開發(fā)者大會融合知識的NLP預(yù)訓(xùn)練大模型

2021年OPPO開發(fā)者大會劉海鋒：融合知識的NLP預(yù)訓(xùn)練大模型，知識融合學(xué)習(xí)運用在小布助手里面。

發(fā)表于 10-27 14:48 ?2478次閱讀

使用 NVIDIA TAO 工具套件和預(yù)訓(xùn)練模型加快 AI 開發(fā)

可以訪問預(yù)訓(xùn)練模型的完整源代碼和模型權(quán)重。該工具套件能夠高效訓(xùn)練視覺和對話式 AI 模型。由于

發(fā)表于 12-15 19:40 ?1088次閱讀

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，

發(fā)表于 04-04 01:45 ?1548次閱讀

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，

發(fā)表于 05-25 17:10 ?1148次閱讀

NLP中的遷移學(xué)習(xí)：利用預(yù)訓(xùn)練模型進(jìn)行文本分類

遷移學(xué)習(xí)徹底改變了自然語言處理（NLP）領(lǐng)域，允許從業(yè)者利用預(yù)先訓(xùn)練的模型來完成自己的任務(wù)，從而大大減少了訓(xùn)練時間和計算資源。在本文中，我們

發(fā)表于 06-14 09:30 ?483次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機(jī)視覺（CV）等領(lǐng)域中得到了廣泛應(yīng)用。

發(fā)表于 07-03 18:20 ?3210次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?553次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個重要概念，它們在提高模型性能、減少訓(xùn)練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定

發(fā)表于 07-11 10:12 ?1268次閱讀

深度學(xué)習(xí)自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 一個給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實踐經(jīng)驗

精選推薦
更多

文章

資料

帖子

基于FPGA的DVP協(xié)議實現(xiàn)標(biāo)準(zhǔn)圖像數(shù)據(jù)流轉(zhuǎn)換

FPGA設(shè)計論壇
3小時前

143 閱讀

通過采樣減緩信號的頻率

KiCad
3小時前

145 閱讀

開關(guān)電源MOS的8大損耗計算與選型原則

臺懋半導(dǎo)體（無錫）有限公司
6小時前

271 閱讀

在RF或信號鏈中VRM有何特別之處

Qorvo半導(dǎo)體
6小時前

247 閱讀

艾為電子汽車氛圍燈解決方案

艾為之家
7小時前

284 閱讀

GitHub標(biāo)星139K的：“嵌入式Linux系統(tǒng)開發(fā)教程”

吳湛
1.95MB

3積分

21下載

Cashbox區(qū)塊鏈錢包

陳艷
7.15 MB

免費

0下載

iMACcheck網(wǎng)口測試、MAC管控工具

廉鼎琮
0.26 MB

免費

0下載

ZenPen在線編輯器

李微波
0.03 MB

免費

0下載

LwMEM輕量級動態(tài)內(nèi)存管理器

李玲
1.09 MB

2積分

1下載

RK3588 EVB開發(fā)板原理圖講解【一】

h1654155861.7375
17小時前

12 閱讀

VirtualLab Fusion應(yīng)用：光柵級次分析器

jf_37601689
17小時前

78 閱讀

【ELF 2學(xué)習(xí)板試用】命令行功能測試-shell腳本進(jìn)行IO控制-紅綠燈項目-實現(xiàn)開機(jī)起動

lustao
17小時前

91 閱讀

嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡-開發(fā)板適配之I2C-溫濕度傳感器

jf_13411809
17小時前

234 閱讀

CS32L010的相關(guān)資料(數(shù)據(jù)手冊、用戶手冊、Pack包和例程等)

jf_54347278
17小時前

198 閱讀

推薦專欄
更多

華秋（原“華強(qiáng)聚豐”）：

電子發(fā)燒友

華秋開發(fā)

華秋電路(原"華強(qiáng)PCB")

華秋商城(原"華強(qiáng)芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設(shè)計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設(shè)計

存儲技術(shù)

光電顯示

EMC/EMI設(shè)計

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計資源

設(shè)計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務(wù)

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設(shè)計大賽

華秋

關(guān)于我們

投資關(guān)系

新聞動態(tài)

加入我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò)

微博

移動端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：[email protected]

內(nèi)容合作

黃晶晶：[email protected]

內(nèi)容合作（海外）

張迎輝：[email protected]

供應(yīng)鏈服務(wù) PCB/IC/PCBA

江良華：[email protected]

投資合作

曾海銀：[email protected]

社區(qū)合作

劉勇：[email protected]

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

電子工程師社區(qū)

1-32層PCB打樣·中小批量

元器件現(xiàn)貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業(yè)動態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權(quán)所有 ? 湖南華秋數(shù)字科技有限公司

長沙市望城經(jīng)濟(jì)技術(shù)開發(fā)區(qū)航空路6號手機(jī)智能終端產(chǎn)業(yè)園2號廠房3層（0731-88081133）
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023018690號-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区