欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM作用下的成分句法分析基礎(chǔ)研究

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-11-10 10:47 ? 次閱讀

作者:cola

自訓練已被證明是一種有效的針對跨域任務的方法。傳統(tǒng)的自訓練方法依賴于有限且低質(zhì)量的源語料庫。為克服這一限制,本文提出用大型語言模型(LLM)增強自訓練,以迭代地生成特定領(lǐng)域的語料庫。并針對句法成分解析,引入了指導LLM生成源語料庫的語法規(guī)則,建立了選擇偽實例的標準。

背景介紹

成分解析作為NLP中的一項基本任務,已經(jīng)在領(lǐng)內(nèi)基準上取得了顯著的進展,這表明解析器在捕獲底層語法結(jié)構(gòu)方面的能力日益增強。然而,開放域句法成分解析具仍具有挑戰(zhàn)。在不同的開放域中,成分解析面臨的復雜性超出了定義明確的任務。解決這些挑戰(zhàn)對于其現(xiàn)實世界的NLP應用至關(guān)重要。

為了解決域偏移問題,基于自訓練的無監(jiān)督域適應已經(jīng)成為一種有效的方法。例如在每次迭代過程中利用源域模型自動標注來自目標域的大規(guī)模源語料,然后選擇置信度高的偽數(shù)據(jù)作為額外的訓練數(shù)據(jù),以提高目標域性能。然而,在低資源領(lǐng)域,源語料庫的質(zhì)量和數(shù)量往往無法保證,這限制了自訓練方法的使用。而LLM具有強大的生成能力,可以作為解決目標域源語料庫數(shù)量和質(zhì)量挑戰(zhàn)的潛在解決方案。

c5a4c958-7ef0-11ee-939d-92fbcf53809c.png

在生成句子時解決LLM的靈活性和幻覺問題面臨挑戰(zhàn),我們采用語法規(guī)則作為LLM生成目標域句子的指令。語法規(guī)則與句法成分解析密切相關(guān)。

方法

采用伯克利神經(jīng)解析器(Berkeley Neural Parser)作為方法的基礎(chǔ)。該解析器是一種基于圖表的方法,采用自注意力編碼器和圖表解碼器,利用預訓練的嵌入作為輸入來增強解析過程。由于融合了預訓練語言模型,伯克利神經(jīng)解析器天生具有跨域句法分析能力。這使得解析器可以在源域上進行訓練,可直接應用于目標域。

自訓練

自訓練的主要目標是為目標域生成高質(zhì)量的訓練實例,然后使用這些實例訓練目標域模型。具體來說,在基礎(chǔ)方法的每次迭代中,都進行了三個主要步驟:

訓練解析器:使用源域成分樹訓練伯克利神經(jīng)解析器。

解析源語料庫:用訓練好的模型來解析來自目標域的源文本,生成解析樹,作為下一步的候選偽樹。

偽數(shù)據(jù)選擇:選擇高置信度的偽樹作為額外的訓練實例,然后用于增強模型在目標域上的性能。

通過迭代地重復這些步驟,自訓練方法使解析器適應目標域,利用源注釋樹生成高質(zhì)量的偽樹。

LLM增強自訓練

如圖2所示,動態(tài)嵌入LLM作為迭代自訓練過程中的一個關(guān)鍵組件。在每次迭代中,我們基于上一步更新的樹,利用LLM為目標域生成源語料庫。語法規(guī)則(GRs)從樹中提取,對指導目標域源語料的LLMs生成起著至關(guān)重要的作用。

c5cb1dce-7ef0-11ee-939d-92fbcf53809c.png

在每次迭代中,LLM增強的自訓練句法成分解析可劃分為6個詳細步驟:

LLM生成:利用LLM為目標域生成一個源語料庫。

解析訓練:用源樹庫和目標域選擇的偽樹來訓練成分解析器。初始化時,偽樹為空,解析器僅在源域數(shù)據(jù)上進行訓練。

域解析:我們用訓練過的解析器來解析生成的源語料庫,產(chǎn)生一組候選解析樹。

樹的選擇:從生成的解析樹中,選擇一個高質(zhì)量解析樹的子集來組成偽樹庫。

更新樹庫:通過添加選定的偽樹庫來更新源樹庫。

GRs抽取:從更新的樹庫中抽取語法規(guī)則。

LLM增強的自訓練過程不斷迭代,直到收斂。

實例選擇

本文提出了一種基于語法規(guī)則的偽數(shù)據(jù)選擇準則。與之前僅關(guān)注任務的自訓練選擇標準不同,該標準同時考慮了任務和LLM 生成語料庫的特征,確保所選擇的偽數(shù)據(jù)適用于使用自訓練的跨域解析。

給定源集和候選實例(候選集),與之間的距離為:c5e74116-7ef0-11ee-939d-92fbcf53809c.png然后,在自訓練過程中選擇最接近源域集的前個候選集作為額外的訓練實例。c5ff0b34-7ef0-11ee-939d-92fbcf53809c.png距離計算可以在token級進行,也可以在語法規(guī)則級進行,通過調(diào)整集合來分別表示token分布和語法規(guī)則分布。實例選擇過程包含三個層次的標準:token、置信度和語法規(guī)則。并結(jié)合兩個表現(xiàn)最好的標準,即基于置信度的選擇和基于語法規(guī)則的選擇,從而產(chǎn)生了一個更有效的標準,用于識別高質(zhì)量實例以適應目標領(lǐng)域。

LLM提示

為了生成包含全面結(jié)構(gòu)信息并與目標域句子風格密切相似的句子,本文提出了一個融合語法規(guī)則和目標域示例的LLM提示。在生成過程中,我們需要準備以下參數(shù):1)從樹庫中提取的條語法規(guī)則,2)從目標領(lǐng)域中采樣的個句子,3)生成句子的長度約束。

通過從樹庫句子長度的分布中采樣來確定的值,并從中提取語法規(guī)則。注意,語法規(guī)則是直接從成分樹中提取的,其中父節(jié)點對應于語法規(guī)則的左側(cè),所有子節(jié)點對應于右側(cè)尾部。例如,如果樹庫是源域數(shù)據(jù)PTB,我們?yōu)槠骄L度引入高斯分布,記為,以獲得條語法規(guī)則。

我們抽取了5個目標域句子。由于生成的句子的長度與語法規(guī)則數(shù)量密切相關(guān),因此使用另一種正態(tài)分布來采樣兩個值和,這兩個值定義了生成句子的長度限制。圖3給出了一個具體的例子:

c61be6a0-7ef0-11ee-939d-92fbcf53809c.png

實驗

數(shù)據(jù):PTB-源數(shù)據(jù),MCTB-目標數(shù)據(jù)。

主要結(jié)果

為方便起見,主要的對比實驗采用bert-base-uncased進行,僅在bert-large-uncased上進行比較。表1報告了句法成分解析器在五個目標域上的性能。

c633633e-7ef0-11ee-939d-92fbcf53809c.png

分析

實例選擇策略

首先研究了每次迭代的四種不同的選擇策略:基于Token的、基于Conf的、基于GRs的和基于GRsConf的。圖4中的折線圖分為兩個部分,說明了基本的和LLM增強的自訓練成分解析在迭代期間的解析器性能。從圖中可知,對于基礎(chǔ)的方法,除GRsConf外,所有策略的性能都呈現(xiàn)出先上升后下降的趨勢。這種趨勢表明,經(jīng)過幾次迭代后,候選數(shù)據(jù)的特征偏差越來越大,越來越不適合域遷移。在評論領(lǐng)域,使用GRsConf選擇的偽數(shù)據(jù)進行自訓練取得了最好的性能。

c65b7c02-7ef0-11ee-939d-92fbcf53809c.png

相比之下,LLM增強的自訓練對所有選擇策略都表現(xiàn)出一致的上升趨勢,這表明所選擇的數(shù)據(jù)是高質(zhì)量的,適應過程是漸進的。這一結(jié)果突出了將LLM納入自訓練迭代過程的可行性和有效性,實現(xiàn)了從源域到目標域的更細粒度的遷移。

來自GRsConf的偽數(shù)據(jù)

在基于LLM增強自訓練的跨域句法成分解析中,性能提升的關(guān)鍵在于所選擇的偽數(shù)據(jù)是否逐漸向目標域靠攏。LLM生成過程和選擇策略從兩個相反的方向指導迭代:LLM生成的原始文本逐步向目標域偏移,而選擇標準旨在確保偽數(shù)據(jù)保持接近源域。因此,我們分析了評論域的最佳選擇策略GRsConf,并考察了每次迭代中所選擇的偽數(shù)據(jù)的分布。同時,使用GRs的JS散度來測量所選偽數(shù)據(jù)與源域和目標域之間的距離。如圖5所示,所選偽數(shù)據(jù)與源域的距離逐漸增大,而與目標域的距離逐漸減小。趨勢表明,域遷移在第一次迭代中是最小的,在第二次和第三次迭代中發(fā)生了更多的適應,并最終在第四次迭代中穩(wěn)定下來。這種距離的演化趨勢表明領(lǐng)域遷移過程是漸進的,印證了GRsConf選擇策略結(jié)合LLM增強自訓練的跨域句法解析方法的有效性。

c67257c4-7ef0-11ee-939d-92fbcf53809c.png

目標句的影響

采用基于GRsConf的偽數(shù)據(jù)選擇方法在評論領(lǐng)域進行了對比實驗。如表2所示,可以得出結(jié)論,句子的數(shù)量不會顯著影響最終的目標域解析器。

c804df3a-7ef0-11ee-939d-92fbcf53809c.png

GRs的影響

此外,我們用5個目標域句子建立了LLM生成過程,省去了語法規(guī)則的引入。從表3所示的實驗結(jié)果可以看出,在沒有語法規(guī)則的情況下,解析器的性能要低于標準的LLM增強的自訓練方法。這表明,用語法規(guī)則約束LLM的生成是一個合理的選擇。

c81d2e32-7ef0-11ee-939d-92fbcf53809c.png

總結(jié)

提出了一種用于句法成分解析中的跨域自適應的增強自訓練方法。通過利用LLM的生成并將其整合到自訓練過程中,該方法大大提高了跨域的成分解析性能。并有效地將高置信度選擇標準與基于語法規(guī)則的選擇相結(jié)合,逐步使訓練數(shù)據(jù)更接近目標域。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    540

    瀏覽量

    10342
  • 語法
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    9868
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    300

    瀏覽量

    407

原文標題:EMNLP2023 | LLM作用下的成分句法分析基礎(chǔ)研究

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    單片機與電磁兼容基礎(chǔ)研究

    本帖最后由 eehome 于 2013-1-5 10:04 編輯 單片機與電磁兼容基礎(chǔ)研究
    發(fā)表于 08-13 15:52

    依存句法分析器的簡單實現(xiàn)

    ,不做考慮。本文主要利用了詞匯+詞性生成聯(lián)合概率模型,使用最大生成樹Prim算法搜索最終結(jié)果,得到了一個簡單的漢語依存句法分析器。開源項目本文代碼已集成到HanLP中開源:(hanlp網(wǎng)站自己搜索一
    發(fā)表于 10-17 13:12

    在Python中調(diào)用Java擴展包HanLP測試記錄

    、用戶自定義詞典、詞性標注),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構(gòu)名識別),關(guān)鍵詞提取,自動摘要,短語提取,拼音轉(zhuǎn)換,簡繁轉(zhuǎn)換,文本推薦,依存句法分析(MaxEnt依存句法分析
    發(fā)表于 12-12 16:27

    pyhanlp兩種依存句法分類器

    依存句法分析器在HanLP中一共有兩種句法分析器·依存句法分析(1)基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器(2)MaxEnt依存句法分析基于神經(jīng)
    發(fā)表于 12-21 11:26

    基于CRF序列標注的中文依存句法分析器的Java實現(xiàn)

    這是一個基于CRF的中文依存句法分析器,內(nèi)部CRF模型的特征函數(shù)采用 雙數(shù)組Trie樹(DoubleArrayTrie)儲存,解碼采用特化的維特比后向算法。相較于《最大熵依存句法分析器的實現(xiàn)》,分析
    發(fā)表于 01-16 14:21

    自然語言處理句法分析

    Dependency Parser研究進展及主流方法
    發(fā)表于 09-18 06:02

    基于本體和句法分析的領(lǐng)域分詞的實現(xiàn)

    針對基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法所存在的缺陷,提出基于本體和句法分析的某領(lǐng)域分詞方法,通過建立體裁本體進行句法分析,從智能
    發(fā)表于 04-09 09:10 ?20次下載

    基于淺層句法信息的翻譯實例獲取方法研究

    翻譯實例庫是基于實例的機器翻譯系統(tǒng)的主要知識源。本文采用基于淺層句法分析的方法進行翻譯實例的獲取。首先根據(jù)淺層句法信息劃分源語言和目標語言的翻譯單元,然后在詞
    發(fā)表于 11-24 15:32 ?13次下載

    助焊劑成分作用分析

    焊接用的助焊劑的成分作用進行了詳細的分析和選用指導。
    發(fā)表于 05-06 14:12 ?0次下載

    如何使用中文信息MMT模型進行句法自動分析資料免費下載

    本文敘述采用中文信息MMT模型對句子進行句法自動分析的工程實踐。研制了可在互聯(lián)網(wǎng)在線運行的句法分析專家系統(tǒng)。對使用的理論、方法和工具作了詳細介紹。介紹了粒計算與符號學理論在句法分析中的
    發(fā)表于 12-19 14:53 ?1次下載
    如何使用中文信息MMT模型進行<b class='flag-5'>句法</b>自動<b class='flag-5'>分析</b>資料免費下載

    自然語言處理中極其重要的句法分析

    深層文法句法分析,即利用深層文法,例如詞匯化樹鄰接文法(Lexicalized Tree Adjoining Grammar,LTAG)、詞匯功能文法(Lexical Functional
    的頭像 發(fā)表于 04-09 10:23 ?1.3w次閱讀

    什么是句法分析

    要深入研究句法分析,首先要知道,什么樣的句法分析算是好的句法分析,所以句法分析方法的評價是首要思考的問題,目前進行
    的頭像 發(fā)表于 11-24 09:36 ?8213次閱讀
    什么是<b class='flag-5'>句法分析</b>

    基于句法語義依存分析的金融事件抽取

    事件抽取在自然語言處理應用中扮演著重要的角色,如股票市場趨勢預測.傳統(tǒng)事件抽取較為關(guān)注觸發(fā)詞和論元所屬類型的正確性,較少地結(jié)合應用需求去分析研究事件抽取效果及使用價值.在財經(jīng)領(lǐng)域,事件作用對象及動作
    發(fā)表于 03-24 14:03 ?8次下載
    基于<b class='flag-5'>句法</b>語義依存<b class='flag-5'>分析</b>的金融事件抽取

    自然語言處理過程的五個層次

    和語法結(jié)構(gòu)。 詞法分析包括分詞(Tokenization)、去除停用詞(Stopword Removal)、詞干提?。⊿temming)和詞形還原(Lemmatization)等過程。 句法分析
    的頭像 發(fā)表于 07-03 14:27 ?832次閱讀

    LLM在數(shù)據(jù)分析中的作用

    的游戲規(guī)則。 1. 數(shù)據(jù)預處理 數(shù)據(jù)預處理是數(shù)據(jù)分析的第一步,也是至關(guān)重要的一步。LLM在這一階段可以發(fā)揮重要作用。 文本清洗 :LLM可以幫助識別和糾正文本數(shù)據(jù)中的拼寫錯誤、語法錯誤
    的頭像 發(fā)表于 11-19 15:35 ?436次閱讀