在本章前面的章節(jié)中,我們?yōu)樽匀徽Z言處理應(yīng)用設(shè)計了不同的模型,例如基于 RNNs、CNNs、attention 和 MLPs。當(dāng)存在空間或時間限制時,這些模型很有用,但是,為每個自然語言處理任務(wù)制作一個特定模型實際上是不可行的。在 15.8 節(jié)中,我們介紹了一種預(yù)訓(xùn)練模型 BERT,它需要對各種自然語言處理任務(wù)進行最少的架構(gòu)更改。一方面,在提出建議時,BERT 改進了各種自然語言處理任務(wù)的最新技術(shù)水平。另一方面,如 第 15.10 節(jié)所述,原始 BERT 模型的兩個版本帶有 1.1 億和 3.4 億個參數(shù)。因此,當(dāng)有足夠的計算資源時,我們可以考慮為下游自然語言處理應(yīng)用程序微調(diào) BERT。
在下文中,我們將自然語言處理應(yīng)用程序的一個子集概括為序列級和標(biāo)記級。在序列層面,我們介紹了如何在單個文本分類和文本對分類或回歸中將文本輸入的 BERT 表示轉(zhuǎn)換為輸出標(biāo)簽。在令牌級別,我們將簡要介紹文本標(biāo)記和問答等新應(yīng)用,并闡明 BERT 如何表示其輸入并轉(zhuǎn)換為輸出標(biāo)簽。在微調(diào)期間,BERT 在不同應(yīng)用程序中所需的“最小架構(gòu)更改”是額外的全連接層。在下游應(yīng)用程序的監(jiān)督學(xué)習(xí)期間,額外層的參數(shù)是從頭開始學(xué)習(xí)的,而預(yù)訓(xùn)練 BERT 模型中的所有參數(shù)都經(jīng)過微調(diào)。
16.6.1。單一文本分類
單文本分類以單個文本序列作為輸入并輸出其分類結(jié)果。除了我們在本章中學(xué)習(xí)的情感分析之外,語言可接受性語料庫(CoLA)也是一個用于單一文本分類的數(shù)據(jù)集,判斷給定的句子是否在語法上可以接受(Warstadt et al . , 2019)。例如,“我應(yīng)該學(xué)習(xí)?!?是可以接受的,但“我應(yīng)該學(xué)習(xí)”。不是。
圖 16.6.1針對單一文本分類應(yīng)用微調(diào) BERT,例如情感分析和測試語言可接受性。假設(shè)輸入的單個文本有六個標(biāo)記。
15.8 節(jié)描述了 BERT 的輸入表示。BERT 輸入序列明確表示單個文本和文本對,其中特殊分類標(biāo)記“”用于序列分類,特殊分類標(biāo)記“”標(biāo)記單個文本的結(jié)尾或分隔一對文本. 如圖 16.6.1所示 ,在單文本分類應(yīng)用中,特殊分類標(biāo)記“”的 BERT 表示對整個輸入文本序列的信息進行編碼。作為輸入單個文本的表示,它將被送入一個由全連接(密集)層組成的小型 MLP,以輸出所有離散標(biāo)簽值的分布。
16.6.2。文本對分類或回歸
我們還在本章中研究了自然語言推理。屬于文本對分類,對一對文本進行分類的一類應(yīng)用。
以一對文本作為輸入但輸出連續(xù)值, 語義文本相似度是一種流行的文本對回歸任務(wù)。該任務(wù)測量句子的語義相似性。例如,在語義文本相似性基準(zhǔn)數(shù)據(jù)集中,一對句子的相似性得分是從 0(無意義重疊)到 5(意義等同)的有序尺度(Cer等人,2017 年)。目標(biāo)是預(yù)測這些分?jǐn)?shù)。來自語義文本相似性基準(zhǔn)數(shù)據(jù)集的示例包括(句子 1、句子 2、相似性分?jǐn)?shù)):
-
“一架飛機正在起飛?!?,“一架飛機正在起飛?!?,5.000;
-
“一個女人在吃東西?!保耙粋€女人在吃肉。”,3.000;
-
“一個女人在跳舞?!保耙粋€男人在說話?!保?.000。
圖 16.6.2為文本對分類或回歸應(yīng)用微調(diào) BERT,例如自然語言推理和語義文本相似性。假設(shè)輸入文本對有兩個和三個標(biāo)記。
與 圖16.6.1中的單一文本分類相比,圖16.6.2中用于文本對分類的微調(diào)BERT在輸入表示上有所不同。對于語義文本相似性等文本對回歸任務(wù),可以應(yīng)用微不足道的更改,例如輸出連續(xù)的標(biāo)簽值并使用均方損失:它們在回歸中很常見。
16.6.3。文本標(biāo)記
現(xiàn)在讓我們考慮標(biāo)記級任務(wù),例如文本標(biāo)記,其中為每個標(biāo)記分配一個標(biāo)簽。在文本標(biāo)注任務(wù)中,詞性標(biāo)注根據(jù)詞在句子中的作用為每個詞分配一個詞性標(biāo)簽(例如,形容詞和限定詞)。例如,根據(jù) Penn Treebank II 標(biāo)簽集,句子“John Smith's car is new”應(yīng)該被標(biāo)記為“NNP(名詞,專有單數(shù))NNP POS(所有格結(jié)尾)NN(名詞,單數(shù)或質(zhì)量)VB (動詞,基本形式)JJ(形容詞)”。
圖 16.6.3為文本標(biāo)記應(yīng)用微調(diào) BERT,例如詞性標(biāo)記。假設(shè)輸入的單個文本有六個標(biāo)記。
文本標(biāo)記應(yīng)用程序的微調(diào) BERT 如圖 16.6.3所示。與 圖 16.6.1相比,唯一的區(qū)別在于在文本標(biāo)記中,輸入文本的每個標(biāo)記的 BERT 表示被饋送到相同的額外全連接層以輸出標(biāo)記的標(biāo)簽,例如部分 -詞性標(biāo)簽。
16.6.4。問答
問答作為另一個token級的應(yīng)用,體現(xiàn)了閱讀理解能力。例如,斯坦福問答數(shù)據(jù)集 (SQuAD v1.1) 由閱讀文章和問題組成,其中每個問題的答案只是與問題相關(guān)的文章中的一段文本(文本跨度)(Rajpurkar 等人,2008 年)。 , 2016 年). 為了解釋,請考慮一段話“一些專家報告說口罩的功效尚無定論。然而,口罩制造商堅稱,他們的產(chǎn)品,如 N95 口罩,可以抵御病毒。” 以及“誰說N95口罩可以防病毒?”的問題。答案應(yīng)該是段落中的文本跨度“面具制造商”。因此,SQuAD v1.1 的目標(biāo)是在給定一對問題和段落的情況下預(yù)測段落中文本跨度的開始和結(jié)束。
圖 16.6.4為問答微調(diào) BERT。假設(shè)輸入文本對有兩個和三個標(biāo)記。
為了微調(diào) BERT 以進行問答,問題和段落分別打包為 BERT 輸入中的第一和第二文本序列。為了預(yù)測文本跨度的開始位置,相同的附加全連接層將從位置通道轉(zhuǎn)換任何標(biāo)記的 BERT 表示i進入標(biāo)量分?jǐn)?shù) si. 這樣所有passage token的得分通過softmax操作進一步轉(zhuǎn)化為概率分布,使得每個token位置i在段落中分配了一個概率pi作為文本跨度的開始。預(yù)測文本跨度的結(jié)束與上述相同,只是其附加的全連接層中的參數(shù)獨立于預(yù)測開始的參數(shù)。預(yù)測結(jié)束時,位置的任何通道令牌i由相同的全連接層轉(zhuǎn)換為標(biāo)量分?jǐn)?shù)ei. 圖 16.6.4描述了用于問答的微調(diào) BERT。
對于問答,監(jiān)督學(xué)習(xí)的訓(xùn)練目標(biāo)與最大化地面實況開始和結(jié)束位置的對數(shù)似然一樣簡單。在預(yù)測跨度時,我們可以計算分?jǐn)?shù)si+ej對于位置的有效跨度i定位j(i≤j), 并輸出得分最高的跨度。
16.6.5。概括
-
BERT 需要對序列級和令牌級自然語言處理應(yīng)用進行最小的架構(gòu)更改(額外的全連接層),例如單個文本分類(例如,情感分析和測試語言可接受性)、文本對分類或回歸(例如,自然語言推理和語義文本相似性)、文本標(biāo)記(例如,詞性標(biāo)記)和問題回答。
-
在下游應(yīng)用程序的監(jiān)督學(xué)習(xí)期間,額外層的參數(shù)是從頭開始學(xué)習(xí)的,而預(yù)訓(xùn)練 BERT 模型中的所有參數(shù)都經(jīng)過微調(diào)。
16.6.6。練習(xí)
-
讓我們?yōu)樾侣勎恼略O(shè)計一個搜索引擎算法。當(dāng)系統(tǒng)收到查詢(例如,“冠狀病毒爆發(fā)期間的石油工業(yè)”)時,它應(yīng)該返回與查詢最相關(guān)的新聞文章的排名列表。假設(shè)我們有大量新聞文章和大量查詢。為了簡化問題,假設(shè)已為每個查詢標(biāo)記了最相關(guān)的文章。我們?nèi)绾?在算法設(shè)計中應(yīng)用負(fù)采樣(參見第 15.2.1 節(jié))和 BERT?
-
我們?nèi)绾卫?BERT 訓(xùn)練語言模型?
-
我們可以在機器翻譯中利用 BERT 嗎?
評論