国产清纯白嫩初高生在线c,亚洲成av人在线影视

在prompt learning中一個(gè)核心問(wèn)題是模型存在死記硬背現(xiàn)象。Prompt learnin主要應(yīng)用在few-shot learning場(chǎng)景，先將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換成prompt的形式，在訓(xùn)練過(guò)程模型側(cè)重于記憶訓(xùn)練數(shù)據(jù)，然后使用記憶的信息做預(yù)測(cè)。這個(gè)過(guò)程會(huì)導(dǎo)致模型缺乏泛化能力，一些長(zhǎng)尾的case預(yù)測(cè)效果不好。

NIPS 2022中浙大和阿里提出使用檢索方法增強(qiáng)prompt learning，利用訓(xùn)練數(shù)據(jù)構(gòu)造知識(shí)庫(kù)，在訓(xùn)練階段使用知識(shí)庫(kù)+KNN檢索相關(guān)信息輔助學(xué)習(xí)，通過(guò)這種方式將需要記憶的信息從模型中拆分出來(lái)，直接輸入到模型中。通過(guò)這種方式，可以讓模型參數(shù)更側(cè)重泛化信息的學(xué)習(xí)，而不是過(guò)擬合訓(xùn)練數(shù)據(jù)。下面為大家詳細(xì)介紹一下這篇工作。

NLP Prompt系列——Prompt Engineering方法詳細(xì)梳理

1 Prompt Learning回顧

Prompt learning主要面向的是訓(xùn)練數(shù)據(jù)較少的場(chǎng)景。首先需要一個(gè)預(yù)訓(xùn)練模型，然后將下游任務(wù)轉(zhuǎn)換成完形填空的形式。對(duì)于分類問(wèn)題，判斷某個(gè)text屬于哪個(gè)label，轉(zhuǎn)換成如下的文本輸入到預(yù)訓(xùn)練語(yǔ)言模型中：

利用預(yù)訓(xùn)練語(yǔ)言模型，預(yù)測(cè)出[MASK]對(duì)應(yīng)的文本，后面接一個(gè)文本到label的映射函數(shù)，即可實(shí)現(xiàn)文本分類任務(wù)。Prompt learning的好處是可以充分利用預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)，讓下游任務(wù)和預(yù)訓(xùn)練任務(wù)更加適配，以提升樣本量不足情況下的效果。我在之前的文章NLP Prompt系列——Prompt Engineering方法詳細(xì)梳理詳細(xì)介紹過(guò)prompt相關(guān)工作，感興趣的同學(xué)可以進(jìn)一步閱讀。

雖然這種方法充分運(yùn)用了預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)，但畢竟finetune的數(shù)據(jù)少，模型更像在死記硬背訓(xùn)練prompt數(shù)據(jù)中的信息。這對(duì)于長(zhǎng)尾樣本或非典型的句子的預(yù)測(cè)效果不友好。為了解決上述問(wèn)題，本文的核心思路是，如果我們把這些需要記憶的信息單獨(dú)拿出來(lái)存儲(chǔ)到一個(gè)知識(shí)庫(kù)中，在需要的時(shí)候檢索它們并作為模型額外輸入，就能讓模型參數(shù)沒必要再死記硬背這些信息了，從而實(shí)現(xiàn)記憶和泛化更好的平衡，有點(diǎn)【好記性不如爛筆頭】的感覺。下圖是本文提出的基本框架示意圖。

2 從知識(shí)庫(kù)中檢索信息

實(shí)現(xiàn)上面的框架核心是從知識(shí)庫(kù)中檢索信息，這也就涉及到兩個(gè)問(wèn)題，一個(gè)是如何構(gòu)造知識(shí)庫(kù)，另一個(gè)是如何進(jìn)行信息檢索和利用。

在知識(shí)庫(kù)的構(gòu)造上，文中構(gòu)造的是一個(gè){K, V}格式的數(shù)據(jù)，訓(xùn)練集中的每條樣本對(duì)應(yīng)一個(gè){K, V}。K代表這個(gè)樣本的prompt輸入模型后[MASK]位置的隱向量，V代表這個(gè)樣本的label對(duì)應(yīng)的單詞。由于K是模型輸出的向量，因此每訓(xùn)練幾輪，就會(huì)動(dòng)態(tài)更新知識(shí)庫(kù)中的Key，避免Key和模型最新參數(shù)隔代太多不匹配。

在信息檢索和利用上，對(duì)于當(dāng)前樣本模型先得到其[MASK]位置的向量，然后用這個(gè)向量在知識(shí)庫(kù)中進(jìn)行KNN檢索，每個(gè)類別的樣本都取出topK個(gè)，檢索的距離度量是向量?jī)?nèi)積。對(duì)于每個(gè)類別檢索出的向量，使用內(nèi)積做softmax后進(jìn)行加權(quán)融合，得到這個(gè)類別最終向量，拼接到當(dāng)前樣本embedding后面輸入到模型中：

這部分檢索出來(lái)的樣本就是將需要記憶的知識(shí)直接引入到了當(dāng)前樣本中，不再需要模型參數(shù)去記憶了。此外，這種將向量引入而不是引入對(duì)應(yīng)的token，可以讓信息的擴(kuò)展更方便，直接引入樣本的token會(huì)拉長(zhǎng)輸入樣本長(zhǎng)度，導(dǎo)致模型性能下降，且長(zhǎng)度也有上限。

3 使用KNN指導(dǎo)模型訓(xùn)練和預(yù)測(cè)

上面收的引入知識(shí)庫(kù)+KNN的方法，緩解了模型參數(shù)需要強(qiáng)記憶訓(xùn)練樣本的問(wèn)題。此外，文中還通過(guò)KNN檢索結(jié)果來(lái)指導(dǎo)模型的學(xué)習(xí)過(guò)程。KNN檢索的好處是不需要模型訓(xùn)練，直接根據(jù)預(yù)訓(xùn)練的表示計(jì)算距離，利用鄰居樣本的label，就能預(yù)測(cè)當(dāng)前樣本的label。這對(duì)于模型來(lái)說(shuō)是另一個(gè)維度的信息補(bǔ)充，文中通過(guò)區(qū)分難樣本指導(dǎo)訓(xùn)練和在inference階段指導(dǎo)預(yù)測(cè)兩個(gè)方面進(jìn)一步指導(dǎo)模型的訓(xùn)練和預(yù)測(cè)。

KNN的檢索結(jié)果可以用來(lái)區(qū)分難樣本和簡(jiǎn)單樣本。通過(guò)KNN檢索以及檢索鄰居的label，可以得到當(dāng)前樣本各個(gè)類別的預(yù)測(cè)概率。這個(gè)KNN的預(yù)測(cè)結(jié)果可以作為是否是難樣本的參考，如果模型預(yù)測(cè)預(yù)測(cè)結(jié)果和KNN結(jié)果不一致，就是難樣本。對(duì)于難樣本，加大其學(xué)習(xí)權(quán)重，通過(guò)將KNN預(yù)測(cè)概率引入到交叉熵?fù)p失中實(shí)現(xiàn)：

另一方面，在預(yù)測(cè)階段，也直接將KNN的預(yù)測(cè)結(jié)果拿出來(lái)和模型對(duì)于[MASK]的預(yù)測(cè)結(jié)果做插值，得到最終的預(yù)測(cè)結(jié)果：

4 實(shí)驗(yàn)結(jié)果

文中在9個(gè)NLU數(shù)據(jù)集的few-shot和zero-shot learning上對(duì)比了效果，可以看到本文提出的方法對(duì)于效果的提升還是非常明顯的。

此外，文中也對(duì)比了跨領(lǐng)域的效果，在source domain進(jìn)行prompt learning，對(duì)比在target domain上的效果：

5 總結(jié)

檢索在NLP各類任務(wù)中的應(yīng)用越來(lái)越多，本文也將檢索用于分離可記憶的信息來(lái)提升模型的泛化能力，并取得了顯著效果。檢索通過(guò)信息記憶+查詢的方式，引入了豐富的外部信息，能夠讓模型更多的容量服務(wù)于學(xué)習(xí)泛化性，而非簡(jiǎn)單的記住訓(xùn)練數(shù)據(jù)。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7157

瀏覽量
89643
KNN

KNN

+關(guān)注

關(guān)注
0

文章
22

瀏覽量
10832
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
540

瀏覽量
10342

原文標(biāo)題：不要讓模型死記硬背—用檢索增強(qiáng)Prompt Learning

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

學(xué)習(xí)STM32必備的知識(shí)庫(kù)

學(xué)習(xí)STM32必備的知識(shí)庫(kù)包括STM32F103C8T6寄存器手冊(cè)、STM32F103ZET6各IO口功能、STM32固件庫(kù)使用手冊(cè)(中文版)、stm32學(xué)習(xí)方法，參考手冊(cè)還有樣品申請(qǐng)

發(fā)表于 04-01 14:16

使用KNN進(jìn)行分類和回歸

，這種學(xué)習(xí)器很少或根本不處理訓(xùn)練數(shù)據(jù)。與線性回歸等積極學(xué)習(xí)的算法不同，KNN 不會(huì)估計(jì)在訓(xùn)練階段

發(fā)表于 10-28 14:44

基于知識(shí)庫(kù)的智能策略翻譯技術(shù)

提出基于知識(shí)庫(kù)的策略翻譯方法，設(shè)計(jì)策略翻譯組成結(jié)構(gòu)，分析策略知識(shí)及其表示形式，建立動(dòng)態(tài)可擴(kuò)展的策略知識(shí)庫(kù)，開發(fā)可擴(kuò)展的策略編譯器和策略組裝器。實(shí)例測(cè)試表明，該

發(fā)表于 04-22 09:42 ?11次下載

一種基于解釋的知識(shí)庫(kù)綜合

從知識(shí)庫(kù)的解釋出發(fā)，對(duì)概念和概念間關(guān)系的解釋進(jìn)行了分析，定義了知識(shí)庫(kù)系統(tǒng)的最小概念集合，設(shè)計(jì)了生成最小概念集合的方法，提出了基于解釋的知識(shí)庫(kù)綜合算法，討論了該

發(fā)表于 05-07 20:44 ?16次下載

領(lǐng)域知識(shí)庫(kù)的研究與設(shè)計(jì)

領(lǐng)域知識(shí)庫(kù)的構(gòu)建有利于知識(shí)的檢索和共享。分析了領(lǐng)域知識(shí)庫(kù)應(yīng)具備的條件，指出構(gòu)建領(lǐng)域知識(shí)庫(kù)的有效方法

發(fā)表于 08-29 14:39 ?0次下載

NXP NFC知識(shí)庫(kù)

NXP NFC知識(shí)庫(kù)

發(fā)表于 12-30 17:32 ?49次下載

一種面向微生物領(lǐng)域的知識(shí)庫(kù)構(gòu)建方法

一種面向微生物領(lǐng)域的知識(shí)庫(kù)構(gòu)建方法_陳航

發(fā)表于 01-07 20:49 ?0次下載

本體知識(shí)庫(kù)的模塊與保守?cái)U(kuò)充

模塊化是軟件工程的一種方法，近年來(lái)被引入到本體領(lǐng)域，用以支持本體的重用和本體的整合。已有的工作沒有討論同時(shí)含有TBox和ABox的本體知識(shí)庫(kù)的模塊化的相關(guān)問(wèn)題。在定義本體知識(shí)庫(kù)的模塊和

發(fā)表于 11-24 09:58 ?0次下載

虛擬儀器知識(shí)庫(kù)文件的結(jié)構(gòu)組成和知識(shí)庫(kù)文件自動(dòng)生成器的設(shè)計(jì)與應(yīng)用

在前幾章中，重點(diǎn)介紹了VISA規(guī)范、儀器驅(qū)動(dòng)程序規(guī)范及軟面板規(guī)范，這些構(gòu)成了虛擬儀器及系統(tǒng)設(shè)計(jì)的關(guān)鍵部分。為了將VXI產(chǎn)品更有效地集成到虛擬儀器系統(tǒng)中去，VXI總線即插即用系統(tǒng)聯(lián)盟還定義了虛擬儀器知識(shí)庫(kù)文件的結(jié)構(gòu)。本章介紹了虛擬儀器知識(shí)庫(kù)文件的結(jié)構(gòu)組成，并重點(diǎn)介紹了

發(fā)表于 12-05 14:21 ?2次下載

如何使用Arduino KNN庫(kù)進(jìn)行簡(jiǎn)單的機(jī)器學(xué)習(xí)？

除了像TensorFlow for Arduino這樣強(qiáng)大的深度學(xué)習(xí)架構(gòu)外，還有一些經(jīng)典的ML方法適用于嵌入式設(shè)備上的較小數(shù)據(jù)集，這些方法有用且易于理解-最簡(jiǎn)單的方法之一就是

發(fā)表于 04-01 10:07 ?3624次閱讀

復(fù)雜知識(shí)庫(kù)問(wèn)答任務(wù)的典型挑戰(zhàn)和解決方案

基于語(yǔ)義解析（基于SP）的方法和基于信息檢索（基于IR）的方法。首先，我們形式化地定義了知識(shí)庫(kù)問(wèn)答任務(wù)并介紹了該任務(wù)下

發(fā)表于 06-13 09:49 ?2476次閱讀

面向異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述

面向異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述

發(fā)表于 06-09 14:12 ?13次下載

如何基于亞馬遜云科技LLM相關(guān)工具打造知識(shí)庫(kù)

了解其核心組件、快速部署指南以及LangChain集成及其在電商的應(yīng)用場(chǎng)景。通用場(chǎng)景：基于企業(yè)內(nèi)部知識(shí)庫(kù)例如IT/HR信息的問(wèn)答制造行業(yè)：裝備維保知識(shí)庫(kù)問(wèn)答和售后客服金融行業(yè)：智能客服和智能報(bào)告生成教育行業(yè)：面向?qū)W生和面

發(fā)表于 11-23 17:53 ?1090次閱讀

無(wú)監(jiān)督域自適應(yīng)場(chǎng)景：基于檢索增強(qiáng)的情境學(xué)習(xí)實(shí)現(xiàn)知識(shí)遷移

本文對(duì)比了多種基線方法，包括無(wú)監(jiān)督域自適應(yīng)的傳統(tǒng)方法（如Pseudo-labeling和對(duì)抗訓(xùn)練）、基于檢索的LM方法（如REALM和RAG

發(fā)表于 12-05 14:14 ?662次閱讀

如何手?jǐn)]一個(gè)自有知識(shí)庫(kù)的RAG系統(tǒng)

用于自然語(yǔ)言處理任務(wù)，如文本生成、問(wèn)答系統(tǒng)等。我們通過(guò)一下幾個(gè)步驟來(lái)完成一個(gè)基于京東云官網(wǎng)文檔的RAG系統(tǒng) 數(shù)據(jù)收集建立知識(shí)庫(kù) 向量檢索提示詞與模型數(shù)據(jù)收集數(shù)據(jù)的收集再整個(gè)RAG實(shí)施過(guò)程中無(wú)疑是最耗人工的，涉及到收集、清洗、格式化、切分等過(guò)程。這里我們使用京東云

發(fā)表于 06-17 14:59 ?667次閱讀