欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練語言模型的字典描述

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-08-11 10:37 ? 次閱讀

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習(xí)的字典描述知識增強的預(yù)訓(xùn)練語言模型-DictBERT,全名為《Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning》

又鴿了許久,其實最近看到一些有趣的論文,大多以知乎想法的形式發(fā)了,感興趣可以去看看,其實碼字還是很不易的~

介紹

預(yù)訓(xùn)練語言模型(PLMs)目前在各種自然語言處理任務(wù)中均取得了優(yōu)異的效果,并且部分研究學(xué)者將外部知識(知識圖譜)融入預(yù)訓(xùn)練語言模型中后獲取了更加優(yōu)異的效果,但具體場景下的知識圖譜信息往往是不容易獲取的,因此,我們提出一種新方法DictBert,將字典描述信息作為外部知識增強預(yù)訓(xùn)練語言模型,相較于知識圖譜的信息增強,字典描述更容易獲取。

在預(yù)訓(xùn)練階段,提出來兩種新的預(yù)訓(xùn)練任務(wù)來訓(xùn)練DictBert模型,通過掩碼語言模型任務(wù)和對比學(xué)習(xí)任務(wù)將字典知識注入到DictBert模型中,其中,掩碼語言模型任務(wù)為字典中詞條預(yù)測任務(wù)(Dictionary Entry Prediction);對比學(xué)習(xí)任務(wù)為字典中詞條描述判斷任務(wù)(Entry Description Discrimination)。

在微調(diào)階段,我們將DictBert模型作為可插拔的外部知識庫,對輸入序列中所包含字典中的詞條信息作為外部隱含知識內(nèi)容,注入到輸入中,并通過注意機制來增強輸入的表示,最終提升模型表征效果。

模型

字典描述知識

字典是一種常見的資源,它列出了某一種語言所包含的字/詞,并通過解釋性描述對其進行含義的闡述,常常也會指定它們的發(fā)音、來源、用法、同義詞、反義詞等,如下表所示,9b54f80c-1895-11ed-ba43-dac502259ad0.png我們主要利用四種信息進行模型的預(yù)訓(xùn)練,包括:詞條、描述、同義詞和反義詞。在詞條預(yù)測任務(wù)中,利用字典的詞條及其描述進行知識學(xué)習(xí);在詞條描述判斷任務(wù)中,利用同義詞和反義詞來進行對比學(xué)習(xí),從而學(xué)習(xí)到知識表征。

預(yù)訓(xùn)練任務(wù)

預(yù)訓(xùn)練任務(wù)主要包含字典中詞條預(yù)測任務(wù)和字典中詞條描述判斷任務(wù),如下圖所示。9b6402ac-1895-11ed-ba43-dac502259ad0.png詞條預(yù)測任務(wù),實際上是一個掩碼語言模型任務(wù),給定詞條和它對于的描述,然后將詞條的內(nèi)容使用特殊字符[MASK]進行替換,最終將其[MASK]內(nèi)容進行還原。注意,當(dāng)詞條包含多個token時,需要將其全部掩掉。

詞條描述判斷任務(wù),實際上是一個對比學(xué)習(xí)任務(wù),而對比學(xué)習(xí)就是以拉近相似數(shù)據(jù),推開不相似數(shù)據(jù)為目標(biāo),有效地學(xué)習(xí)數(shù)據(jù)表征。如下表所示,9b93dbe4-1895-11ed-ba43-dac502259ad0.png對于詞條“forest”,正例樣本為同義詞“woodland”,負(fù)例樣本為反義詞“desert”。對比學(xué)習(xí)中,分別對原始詞條+描述、正例樣本+描述和負(fù)例樣本+描述進行模型編碼,獲取、和,獲取對比學(xué)習(xí)損失,

最終,模型預(yù)訓(xùn)練的損失為

其中,為0.4,為0.6。

微調(diào)任務(wù)

在微調(diào)過程中,將DictBert模型作為可插拔的外部知識庫,如下圖所示,首先識別出輸入序列中所包含字典中的詞條信息,然后通過DictBert模型獲取外部信息表征,再通過三種不同的方式進行外部知識的注入,最終將其綜合表征進行下游具體的任務(wù)。并且由于可以事先離線對一個字典中所有詞條進行外部信息表征獲取,因此,在真實落地場景時并不會增加太多的額外耗時。9bacbe8e-1895-11ed-ba43-dac502259ad0.png知識注入的方式包含三種:

Pooled Output Concatenation,即將所有詞條的信息表征進行求和,然后與原始模型的進行拼接,最終進行下游任務(wù);

Extra-hop Attention,即將所有詞條的信息表征對進行attition操作,獲取分布注意力后加權(quán)求和的外部信息表征,然后與原始模型的進行拼接,最終進行下游任務(wù);

Layer-wise Extra-hop Attention,即將所有詞條的信息表征對每一層的進行attition操作,獲取每一層分布注意力后加權(quán)求和的外部信息表征,然后對其所有層進行mean-pooling操作,然后與原始模型的進行拼接,最終進行下游任務(wù);

結(jié)果

如下表所示,采用劍橋字典進行預(yù)訓(xùn)練后的DictBert模型,在CoNLL2003、TACRED、CommonsenseQA、OpenBookQA和GLUE上均有提高。其中,Concat表示Pooled Output Concatenation方式,EHA表示Extra-hop Attention,LWA表示Layer-wise Extra-hop Attention,K表示僅采用詞條進行信息表征,K+V表示采用詞條和描述進行信息表征。9bd971a4-1895-11ed-ba43-dac502259ad0.png9bf0d920-1895-11ed-ba43-dac502259ad0.png9c07435e-1895-11ed-ba43-dac502259ad0.png

總結(jié)

挺有意思的一篇論文吧,相較于知識圖譜來說,字典確實較容易獲取,并在不同領(lǐng)域中,也比較好通過爬蟲的形式進行詞條和描述的獲取;并且由于字典的表征可以進行離線生成,所以對線上模型的耗時并不明顯,主要在attention上。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    958

    瀏覽量

    54965
  • 字典
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    7724
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    541

    瀏覽量

    10343

原文標(biāo)題:IJCAI2022 | DictBert:采用對比學(xué)習(xí)的字典描述知識增強的預(yù)訓(xùn)練語言模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一文詳解知識增強的語言預(yù)訓(xùn)練模型

    隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展,各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識,但仍舊存在很多問題,如知識量有限、受
    的頭像 發(fā)表于 04-02 17:21 ?9738次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先,概述自然語言的基本表示,這是理解大語言模型技術(shù)的前提。接著,詳細介紹自然
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】大語言模型預(yù)訓(xùn)練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學(xué)習(xí)容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對預(yù)
    發(fā)表于 05-07 17:10

    預(yù)訓(xùn)練語言模型設(shè)計的理論化認(rèn)識

    在這篇文章中,我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文,出自MASS的同一作者。這篇文章的亮點是:將兩種經(jīng)典的預(yù)
    的頭像 發(fā)表于 11-02 15:09 ?2767次閱讀

    如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識?

    本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發(fā)表于 06-23 15:07 ?4316次閱讀
    如何向大規(guī)模<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入知識?

    Multilingual多語言預(yù)訓(xùn)練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練語言模型,整體思路基于BERT,并提出了針
    的頭像 發(fā)表于 05-05 15:23 ?3061次閱讀

    一種基于亂序語言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測空間大小為輸入序列長度,使得計算效率高于掩碼語言
    的頭像 發(fā)表于 05-10 15:01 ?1603次閱讀

    如何更高效地使用預(yù)訓(xùn)練語言模型

    本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實在是太多了,很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個
    的頭像 發(fā)表于 07-08 11:28 ?1324次閱讀

    利用視覺語言模型對檢測器進行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計算機視覺領(lǐng)域,以增強主干網(wǎng)絡(luò)的特征提取能力,達到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場景文本
    的頭像 發(fā)表于 08-08 15:33 ?1467次閱讀

    CogBERT:腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語言模型

    另一方面,從語言處理的角度來看,認(rèn)知神經(jīng)科學(xué)研究人類大腦中語言處理的生物和認(rèn)知過程。研究人員專門設(shè)計了預(yù)訓(xùn)練模型來捕捉大腦如何表示
    的頭像 發(fā)表于 11-03 15:07 ?1130次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)訓(xùn)練
    的頭像 發(fā)表于 03-03 11:20 ?1528次閱讀

    什么是預(yù)訓(xùn)練 AI 模型?

    該向孩子展示這種生物的圖像并描述其獨有特征。 那么,如果要教一臺人工智能(AI)機器什么是獨角獸,該從什么地方做起呢? 預(yù)訓(xùn)練 AI 模型提供了解決方案。
    的頭像 發(fā)表于 04-04 01:45 ?1544次閱讀

    什么是預(yù)訓(xùn)練AI模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,
    的頭像 發(fā)表于 05-25 17:10 ?1142次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?3197次閱讀

    語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?550次閱讀