欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過循環(huán)訓(xùn)練實(shí)現(xiàn)忠實(shí)的低資源數(shù)據(jù)文本生成

深度學(xué)習(xí)自然語言處理 ? 來源:機(jī)器翻譯學(xué)堂 ? 2023-08-24 14:53 ? 次閱讀

摘要

近年來,從結(jié)構(gòu)化數(shù)據(jù)生成文本的方法有了長(zhǎng)足的進(jìn)步,這主要?dú)w功于在大型數(shù)據(jù)集上對(duì)預(yù)先訓(xùn)練好的語言模型進(jìn)行微調(diào)。然而,這些模型可能無法生成忠實(shí)于輸入數(shù)據(jù)的輸出結(jié)果,尤其是在域外數(shù)據(jù)上。對(duì)于特定領(lǐng)域來說,通常無法獲得足夠的注釋數(shù)據(jù),因此本文需要尋求一種無監(jiān)督的方法來提高輸出文本的忠實(shí)性。

由于問題的根本在于結(jié)構(gòu)化數(shù)據(jù)和文本表征之間的一致性,本文在這項(xiàng)工作中評(píng)估了循環(huán)訓(xùn)練的有效性。循環(huán)訓(xùn)練使用兩個(gè)互為逆變的模型:一個(gè)模型從結(jié)構(gòu)化數(shù)據(jù)生成文本,另一個(gè)模型從自然語言文本生成結(jié)構(gòu)化數(shù)據(jù)。本文的研究表明,在 WebNLG、E2E、WTQ 和 WSQL 數(shù)據(jù)集的數(shù)據(jù)到文本生成任務(wù)中,循環(huán)訓(xùn)練在使用少量監(jiān)督數(shù)據(jù)(在本文的案例中為 100 個(gè)樣本)進(jìn)行初始化時(shí),可獲得與完全監(jiān)督方法幾乎相同的性能。

本文利用自動(dòng)評(píng)估指標(biāo)和新設(shè)計(jì)的人工評(píng)估模式進(jìn)行了廣泛的實(shí)證分析,以揭示不同循環(huán)訓(xùn)練策略在減少各類生成錯(cuò)誤方面的有效性。

引言

大量信息(如電影信息數(shù)據(jù)庫(kù)或產(chǎn)品目錄)以結(jié)構(gòu)化知識(shí)的形式存在,為了充分利用這些數(shù)據(jù)到各種任務(wù)中,本文希望將這些信息闡述化。現(xiàn)階段有研究人員利用免費(fèi)公開的數(shù)據(jù)來解決這種數(shù)據(jù)到文本的生成任務(wù)。然而,仍然存在兩大挑戰(zhàn)。

1 要實(shí)現(xiàn)良好的性能,所需的訓(xùn)練數(shù)據(jù)量非常大,尤其是在現(xiàn)有語料庫(kù)不能包含的領(lǐng)域。

2 從結(jié)構(gòu)化數(shù)據(jù)中自然語言生成(NLG)往往會(huì)產(chǎn)生多種錯(cuò)誤,從而限制了這些模型在面向客戶的應(yīng)用中的實(shí)用性。當(dāng)NLG 模型在生成的輸出文本時(shí)注入與輸入結(jié)構(gòu)化數(shù)據(jù)無關(guān)的無意義詞語或信息就會(huì)產(chǎn)生幻覺。

為了在數(shù)據(jù)轉(zhuǎn)文本的過程中解決這些問題,一般有兩條研究思路:

1 設(shè)計(jì)能直接生成更忠實(shí)于輸入數(shù)據(jù)的輸出的模型。

2 設(shè)計(jì)在輸出文本生成后檢測(cè)并糾正事實(shí)錯(cuò)誤或幻覺的模型。

針對(duì)這兩種情況,先前的研究一般都假定有足夠多的結(jié)構(gòu)化數(shù)據(jù)和文本對(duì)作為訓(xùn)練數(shù)據(jù),從而在任務(wù)中達(dá)到相持與人類水平的性能。由于它們一般都是在 100,000 個(gè)或更多實(shí)例的大型語料庫(kù)中訓(xùn)練出來的,雖然在域內(nèi)數(shù)據(jù),事實(shí)驗(yàn)證模型可以達(dá)到很高的性能,卻在域外數(shù)據(jù)上下降,這對(duì)事實(shí)驗(yàn)證模型來說是一個(gè)很大的限制。同樣,像 WebNLG 這樣的語料庫(kù)包含約 20,000 個(gè)示例;這可能太小,即使在完全監(jiān)督下也無法達(dá)到人類性能,但其規(guī)模足以使生成 WebNLG 規(guī)模的特定領(lǐng)域語料。盡管存在上述事實(shí),但很少有為數(shù)據(jù)到文本和表到文本任務(wù)模型針對(duì)數(shù)據(jù)和相應(yīng)文本之間的一致性出發(fā)而開發(fā)模型。

本文從克服缺乏訓(xùn)練數(shù)據(jù)(尤其是域外數(shù)據(jù))和結(jié)構(gòu)化數(shù)據(jù)與文本之間需要一致性兩方面出發(fā),采用了循環(huán)訓(xùn)練法。主要思想為:用主謂賓三元組形式的無配對(duì)數(shù)據(jù) D 和不一定來自同一領(lǐng)域文本 T。還用一小組(100 個(gè)樣本)配對(duì)數(shù)據(jù)Dpr和文本Tpr,用來循環(huán)訓(xùn)練兩個(gè)反復(fù)訓(xùn)練的模型(正向模型 F:D → T,反向模型 R:T → D)。訓(xùn)練是無監(jiān)督的,即凍結(jié)一個(gè)模型,用它來解碼一組輸入,用來訓(xùn)練另一個(gè)模型,之后用新的模型反向預(yù)測(cè)第一個(gè)模型輸入。具體來說,在一個(gè)循環(huán)中,本文凍結(jié) F,并通過將輸入 D 重構(gòu)為 R(F(D))來訓(xùn)練 R。一個(gè)訓(xùn)練周期后,本文將兩個(gè)模型的角色互換。值得注意的是,正如本文將要展示的那樣,即使最初的模型很差,也能收斂到接近監(jiān)督性能的模型。此外,本文還證明,即使配對(duì)數(shù)據(jù)很少或根本沒有,這一過程也能確保輸出文本忠實(shí)于輸入數(shù)據(jù),反之亦然。

此外,本文還詳細(xì)研究循環(huán)訓(xùn)練的有效條件,重點(diǎn)關(guān)注領(lǐng)域以及訓(xùn)練文本和結(jié)構(gòu)化數(shù)據(jù)的性質(zhì)。發(fā)現(xiàn),無監(jiān)督循環(huán)訓(xùn)練的效果優(yōu)于低資源微調(diào)模型,而且在使用少量注釋數(shù)據(jù)進(jìn)行初始化和后期調(diào)整時(shí),可以達(dá)到接近完全監(jiān)督的效果。

本文主要貢獻(xiàn):

1、僅使用一個(gè)預(yù)先訓(xùn)練的語言模型 T5,就成功地將循環(huán)訓(xùn)練應(yīng)用于數(shù)據(jù)到文本和文本到數(shù)據(jù)模型,而無需使用圖方法或其他輔助模型。

2、證明了循環(huán)訓(xùn)練在某些領(lǐng)域的性能幾乎與監(jiān)督模型相同。

3、對(duì)循環(huán)訓(xùn)練效果良好的條件以及不同類型生成錯(cuò)誤下數(shù)據(jù)到文本的忠實(shí)性進(jìn)行了廣泛的實(shí)證分析。

4、設(shè)計(jì)了一種新穎的基于計(jì)數(shù)和排名的注釋模式,以便從正確性、忠實(shí)性、數(shù)據(jù)覆蓋率和流暢性等角度更全面地評(píng)估生成文本的忠實(shí)性。本文采用的方案在客觀性、一致性、精確性和易評(píng)估性方面改進(jìn)了WebNLG 2020 挑戰(zhàn)賽使用的基于評(píng)級(jí)的方案。

相關(guān)研究

與以往研究主要由維基百科等通用來源的數(shù)據(jù)為基礎(chǔ),模型已在大規(guī)模表對(duì)文語料庫(kù)上進(jìn)行了訓(xùn)練,以執(zhí)行事實(shí)驗(yàn)證。然而,這些模型在它們沒有訓(xùn)練過的特定領(lǐng)域的表現(xiàn)可能不理想。有些研究嘗試使用 GPT-3 來增加訓(xùn)練數(shù)據(jù),而另一些則使用信息檢索系統(tǒng)來建立生成原型。本文直接利用了目標(biāo)語料庫(kù)的未配對(duì)基礎(chǔ)數(shù)據(jù)和文本,而無需借助任何額外的信息檢索或生成系統(tǒng)。此外,以往研究數(shù)據(jù)到文本的任務(wù)主要是通過 BLEU或 METEOR等單詞或語法級(jí)別的自動(dòng)指標(biāo)進(jìn)行評(píng)估,對(duì)忠實(shí)度的評(píng)估很少(而且大多是主觀的)。本文中設(shè)計(jì)了一種新穎的評(píng)估模式來對(duì)生成文本對(duì)輸入數(shù)據(jù)的忠實(shí)度進(jìn)行更全面的評(píng)估。

循環(huán)訓(xùn)練依賴于兩個(gè)模型,這兩個(gè)模型本質(zhì)上是彼此的逆變換,用于創(chuàng)建 “循環(huán)”,其返回的輸出應(yīng)與給定的輸入完全相同。循環(huán)訓(xùn)練有兩種不同的形式。第一種形式旨在學(xué)習(xí)從一種輸入形式轉(zhuǎn)換到另一種輸入形式。另一種形式是使用 “周期一致性損失 ”作為其他任務(wù)的輔助損失。在這項(xiàng)工作中,作者只使用循環(huán)一致性進(jìn)行訓(xùn)練。在一個(gè)文本到文本的應(yīng)用中,有研究用類似的無監(jiān)督方法進(jìn)行雙向文本轉(zhuǎn)換,將關(guān)鍵詞搜索查詢轉(zhuǎn)換為自然語言問題。在沒有大量注釋文本的情況下,它也被用于命名實(shí)體識(shí)別。在這種情況下,一個(gè)模型提取實(shí)體,反向模型根據(jù)這些實(shí)體創(chuàng)建文本。這種方法的局限性在于,有許多方法可以實(shí)現(xiàn)具有相同實(shí)體的句子。

WebNLG 數(shù)據(jù)集上的數(shù)據(jù)到文本生成而開發(fā)的 CycleGT 模型明確提出數(shù)據(jù)到文本生成任務(wù)的一致性要求。不過,CycleGT 依靠已有的 NER 模型從輸出文本中提取實(shí)體。然后,訓(xùn)練一個(gè)反向模型來預(yù)測(cè)實(shí)體和謂詞之間的聯(lián)系。如果實(shí)體未被他們的NER 系統(tǒng)識(shí)別,將影響珍整體模型的性能。原則上,可以像 CycleNER那樣,利用循環(huán)訓(xùn)練建立一個(gè)單獨(dú)的NER模型,但 CycleGT 的作者并沒有這樣做。而循環(huán)訓(xùn)練的一個(gè)主要優(yōu)點(diǎn)是無需依賴任何監(jiān)督,而是主要或完全依賴輸入和輸出的自一致性,在本工作中,作者設(shè)計(jì)了一種簡(jiǎn)單的方法,使用預(yù)先訓(xùn)練好的語言生成模型,針對(duì)數(shù)據(jù)到文本和文本到數(shù)據(jù)的生成循環(huán)進(jìn)行微調(diào)。

方法及骨干模型

循環(huán)訓(xùn)練的前提是有兩個(gè)互逆模型。根據(jù) WebNLG2020 挑戰(zhàn)賽,本文采用了性能明顯較強(qiáng)的 T5 模型,作為正向生成(F: D→T,執(zhí)行 RDF 到文本的生成)和反向生成(R : T → D,執(zhí)行文本到 RDF 的生成)的骨干模型。將每個(gè)樣本的 RDF 三元組線性化為序列 d,分別用 [S]、[P] 和 [O] 標(biāo)記表示每個(gè)三元組的主語、謂語和賓語。因此,RDF 到文本和文本到 RDF 都可以作為序列到序列生成任務(wù)來處理和訓(xùn)練。

本文應(yīng)用迭代回譯可以增強(qiáng)各種 NLP任務(wù)的循環(huán)一致性的思想來迭代循環(huán)訓(xùn)練模型。這包括強(qiáng)制數(shù)據(jù)自洽的數(shù)據(jù)-文本-數(shù)據(jù) (DTD) 循環(huán)和文本-數(shù)據(jù)-文本 (TDT) 循環(huán)。如圖 1 所示,對(duì)于 DTD 循環(huán),數(shù)據(jù)到文本模型將線性化三元組 d 作為輸入并生成關(guān)聯(lián)的中間文本 。接下來,訓(xùn)練文本到數(shù)據(jù)模型,目標(biāo)是使用提供的 重建 d。重建損失 Ld′ 是平均負(fù)對(duì)數(shù)似然,如下所示,其中 di 表示序列 t 的第 i 個(gè)標(biāo)記,|d|是序列長(zhǎng)度:

用相反的方式,對(duì) TDT 循環(huán),文本到數(shù)據(jù)模型首先將文本 t 作為輸入并生成關(guān)聯(lián)的線性化三元組 。接下來,訓(xùn)練文本到數(shù)據(jù)模型,目標(biāo)是使用提供的 重建 t。重建損失 是平均負(fù)對(duì)數(shù)似然,如下所示,其中 表示序列 t 的第 i 個(gè)標(biāo)記,|t|是序列長(zhǎng)度:

由于生成離散中間輸出標(biāo)記的過程是無差別的,重構(gòu)損失只能通過每個(gè)循環(huán)的第二個(gè)模型傳播,即DTD 循環(huán)的文本到數(shù)據(jù)模型和 TDT 循環(huán)的數(shù)據(jù)到文本模型。因此,兩個(gè)模型的訓(xùn)練只能通過 TDT 循環(huán)和 DTD 循環(huán)的交替進(jìn)行,這樣兩個(gè)模型的性能才能逐步提高。

實(shí)驗(yàn)設(shè)置

本文在現(xiàn)有的數(shù)據(jù)源上進(jìn)行實(shí)了驗(yàn),這些數(shù)據(jù)源已注釋了成對(duì)的數(shù)據(jù)三元組和參考文本。其中英語數(shù)據(jù)使用來自WebNLG 3.0 版本的WebNLG+ 2020 挑戰(zhàn)賽。為了更好地促進(jìn)在不同領(lǐng)域的實(shí)驗(yàn)和評(píng)估,分別利用 DART 的 E2E、WTQ 和 WSQL 的人工注釋部分。為了按照 WebNLG 的格式調(diào)整數(shù)據(jù),還刪除了一些包含非常規(guī)結(jié)構(gòu)標(biāo)簽的 WSQL 和 WTQ 示例。

eb4c0e86-4247-11ee-a2ef-92fbcf53809c.png

表1顯示了該文詳細(xì)的數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)。在使用這些數(shù)據(jù)進(jìn)行循環(huán)訓(xùn)練時(shí),本文沿用了之前的工作方法,將所有配對(duì)樣本拆分為一個(gè)獨(dú)立的洗碼文本語料庫(kù)和另一個(gè)獨(dú)立的洗碼三元組語料庫(kù)。如圖 1 所示:

eb5fa3ce-4247-11ee-a2ef-92fbcf53809c.png

微調(diào)大型預(yù)訓(xùn)練模型已被證明在眾多任務(wù)中表現(xiàn)很出色的性能。在這項(xiàng)工作中,詳細(xì)介紹并運(yùn)用完全監(jiān)督下的微調(diào)、低資源微調(diào)及額外的預(yù)訓(xùn)練進(jìn)行低資源微調(diào)三個(gè)基線微調(diào)策略。還探索了無監(jiān)督循環(huán)訓(xùn)練和低資源循環(huán)訓(xùn)練兩種不同的訓(xùn)練策略,評(píng)估不同數(shù)據(jù)約束下循環(huán)訓(xùn)練的有效性和通用性。為了憑經(jīng)驗(yàn)評(píng)估“文本語料庫(kù)和數(shù)據(jù)語料庫(kù)的潛在內(nèi)容或?qū)嶓w分布必須具有某種不確定程度的重疊才能使循環(huán)訓(xùn)練方法發(fā)揮作用”這個(gè)先決條件,本文在不同匹配級(jí)別應(yīng)用相同大小的文本和數(shù)據(jù)語料庫(kù)的無監(jiān)督循環(huán)訓(xùn)練以作為潛在內(nèi)容或?qū)嶓w分布重疊的粗略近似。具體來說,隨機(jī)選擇一半的 WebNLG 三元組作為數(shù)據(jù)語料庫(kù)。針對(duì)性地選擇五個(gè)大小相等的文本語料庫(kù),其中包含0%、25%、50%、75%和100%的原始相關(guān)參考文本,并分別補(bǔ)充包括100%、75%、50%、25%、0%的不相關(guān)參考文本。

本文選擇了T5-base模型作為基線,具有線性權(quán)重衰減的 AdamW 作為優(yōu)化器,最大輸入長(zhǎng)度設(shè)為256,Learningrate設(shè)為3e-4,batchisze設(shè)為了256,共訓(xùn)練了50輪。

實(shí)驗(yàn)結(jié)果和討論

本文使用自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)兩種方法對(duì)使用的策略進(jìn)行了評(píng)估。使用ROUGE、 BLEU、 METEOR、BertScore和PARENT五個(gè)廣泛使用的自動(dòng)評(píng)估指標(biāo)來評(píng)估每個(gè)策略,這些指標(biāo)從字符的匹配、語義相似性和忠實(shí)度三個(gè)方面衡量生成的質(zhì)量。表 2 顯示了多種數(shù)據(jù)到文本生成方法在不同設(shè)置下的性能。發(fā)現(xiàn),無監(jiān)督循環(huán)訓(xùn)練法的性能普遍低于全監(jiān)督微調(diào)法。與低資源微調(diào)方法相比,它在 WebNLG 和 WTQ 上的得分較高,但在 E2E 和 WSQL 上的表現(xiàn)較差,其中在 WSQL 上的性能差距更大。作者將這種差異歸因于獨(dú)特謂詞和詞匯量的不同。通過接觸更多不同的文本和結(jié)構(gòu)化數(shù)據(jù),以及通過逐步學(xué)習(xí)不同的數(shù)據(jù)-文本關(guān)聯(lián)的能力,循環(huán)訓(xùn)練應(yīng)該能夠提高模型的泛化能力和魯棒性。對(duì)于 E2E 和 WSQL 這樣的數(shù)據(jù)集來說,它們的詞匯量和獨(dú)特謂詞的數(shù)量都較少,這意味著少量的注釋樣本就可能涵蓋數(shù)據(jù)集的大量潛在變化。這成就了強(qiáng)大的低資源微調(diào)性能,與相應(yīng)的完全監(jiān)督的方法只有很小的性能差距,并掩蓋了無監(jiān)督的循環(huán)訓(xùn)練方法。

eb95d55c-4247-11ee-a2ef-92fbcf53809c.png

ebce9c5c-4247-11ee-a2ef-92fbcf53809c.png

無論如何,當(dāng)有少量注釋數(shù)據(jù)可用于初始化循環(huán)訓(xùn)練時(shí),低資源循環(huán)訓(xùn)練策略顯著提高了生成性能,超過了低資源微調(diào)方法,并達(dá)到了與完全監(jiān)督方法堪比的性能。這種改進(jìn)在所有四個(gè)數(shù)據(jù)集和五種評(píng)估指標(biāo)中都是一致的。值得注意的是,當(dāng)應(yīng)用于多領(lǐng)域和開放域數(shù)據(jù)集(WebNLG、WTQ 和 WSQL)時(shí),與完全監(jiān)督的相比,低資源循環(huán)訓(xùn)練生成的文本對(duì)輸入數(shù)據(jù)具有更好的忠實(shí)度(從 PARENT 分?jǐn)?shù)可以明顯看出)。與采用額外預(yù)訓(xùn)練的設(shè)置相比,循環(huán)訓(xùn)練的作用顯然不僅僅是提高生成目標(biāo)域標(biāo)記的概率。至于使用不同重疊度的無配對(duì)數(shù)據(jù)集進(jìn)行循環(huán)訓(xùn)練的實(shí)驗(yàn),表 3 中的結(jié)果顯示,隨著重疊度的增加,性能在開始時(shí)急劇上升,然后在重疊度達(dá)到 50%左右時(shí)趨于平穩(wěn)。這表明,在規(guī)模相同的情況下,用于循環(huán)訓(xùn)練的未配對(duì)數(shù)據(jù)語料庫(kù)和文本語料庫(kù)至少需要有 50%的實(shí)體(或者說潛在信息)重疊,才能達(dá)到理想的性能水平。作者認(rèn)為 50% 是一個(gè)合理的水平,因?yàn)樵S多相關(guān)但未配對(duì)的文本和結(jié)構(gòu)化數(shù)據(jù)可能具有更高的信息重疊。我們認(rèn)為低資源循環(huán)訓(xùn)練是一種普遍適用的方法,它能以最少的人力從大量未配對(duì)的結(jié)構(gòu)化數(shù)據(jù)和文本中有效地學(xué)習(xí)。

為了定量比較生成文本的正確性、忠實(shí)性、數(shù)據(jù)覆蓋率和流暢性,作者開發(fā)了新的基于計(jì)數(shù)和排名的注釋模式,采用事實(shí)錯(cuò)誤計(jì)數(shù) (FE)、幻覺錯(cuò)誤計(jì)數(shù) (HE)、信息丟失計(jì)數(shù) (IM)和流暢性偏好 (FP)并用來進(jìn)行人工評(píng)估。與 WebNLG 2020 挑戰(zhàn)賽使用的基于 0-100 評(píng)分的模式相比,本文使用的模式具有更好的客觀性、一致性和精確性。人工評(píng)估表明,低資源循環(huán)訓(xùn)練持續(xù)減少事實(shí)錯(cuò)誤、幻覺錯(cuò)誤和信息遺漏。人工評(píng)估表明,低資源循環(huán)訓(xùn)練可以持續(xù)減少事實(shí)錯(cuò)誤、幻覺錯(cuò)誤和信息遺漏。當(dāng)循環(huán)訓(xùn)練應(yīng)用于底層關(guān)系和表面實(shí)現(xiàn)變化較多的數(shù)據(jù)集時(shí),其性能會(huì)有較大提升。人類對(duì)錯(cuò)誤和信息覆蓋率的評(píng)價(jià)與 PARENT 分?jǐn)?shù)的相關(guān)性更好,這證實(shí)了 PARENT 衡量忠實(shí)性的能力。從結(jié)果中還可以看出,所有三種被評(píng)估的數(shù)據(jù)到文本生成模型都更容易出現(xiàn)幻覺錯(cuò)誤,而不是事實(shí)錯(cuò)誤,這就要求我們?cè)诮窈蟮墓ぷ髦懈优Φ販p少幻覺錯(cuò)誤。在生成文本的流暢性方面,低資源循環(huán)訓(xùn)練比低資源微調(diào)方法有所改進(jìn),但仍無法持續(xù)擊敗完全監(jiān)督方法。

結(jié)論

在這項(xiàng)工作中,作者將循環(huán)訓(xùn)練應(yīng)用在數(shù)據(jù)到文本生成任務(wù)當(dāng)中。系統(tǒng)地研究了跨不同領(lǐng)域的循環(huán)訓(xùn)練的有效性,以及循環(huán)前微調(diào)在資源匱乏環(huán)境中的應(yīng)用。表明,本文使用的方法大大提高了低資源環(huán)境中數(shù)據(jù)到文本的生成性能,與完全監(jiān)督的模型相比,實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能,并且還通過減少事實(shí)錯(cuò)誤、幻覺和信息遺漏提高了生成文本的忠實(shí)度,即使與完全監(jiān)督的方法相比也是如此。此外還設(shè)計(jì)了一種對(duì)數(shù)據(jù)到文本生成進(jìn)行有效人類評(píng)估的模式,該模式改進(jìn)了之前的工作并鼓勵(lì)對(duì)忠實(shí)度進(jìn)行更客觀和一致的審查。

本方法局限性

作者認(rèn)識(shí)到,本文的注釋和分析方法可能需要大量的人力,這可能會(huì)限制可以收集的注釋數(shù)據(jù)量。此外,盡管循環(huán)訓(xùn)練被普遍認(rèn)為是一種與模型無關(guān)的方法,但由于資源限制,無法測(cè)試各種骨干模型。此外,盡管本文放寬了實(shí)體約束并對(duì)數(shù)據(jù)到文本生成進(jìn)行端到端的循環(huán)訓(xùn)練,但不可微性問題仍未解決。假設(shè)每個(gè)周期的第一個(gè)模型生成的中間輸出是正確是一個(gè)弱假設(shè),可能會(huì)將誤導(dǎo)性的訓(xùn)練信號(hào)傳播到每個(gè)周期的第二個(gè)模型,特別是在訓(xùn)練的早期階段。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)庫(kù)
    +關(guān)注

    關(guān)注

    7

    文章

    3851

    瀏覽量

    64710
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3329

    瀏覽量

    49246
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    540

    瀏覽量

    10342
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13406

原文標(biāo)題:通過循環(huán)訓(xùn)練實(shí)現(xiàn)忠實(shí)的低資源數(shù)據(jù)文本生成

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    我用labview調(diào)用matlab腳本,想保存matlab腳本生成數(shù)據(jù)向量,怎么實(shí)現(xiàn)

    我用labview調(diào)用matlab腳本,想保存matlab腳本生成數(shù)據(jù)向量,怎么實(shí)現(xiàn)?
    發(fā)表于 02-20 10:07

    如何構(gòu)建文本生成器?如何實(shí)現(xiàn)馬爾可夫鏈以實(shí)現(xiàn)更快的預(yù)測(cè)模型

    準(zhǔn)確的,內(nèi)存少(只存儲(chǔ)1個(gè)以前的狀態(tài))并且執(zhí)行速度快。文本生成實(shí)現(xiàn)這里將通過6個(gè)步驟完成文本生成器:1、生成查找表:創(chuàng)建表來記錄詞頻2、將
    發(fā)表于 11-22 15:06

    循環(huán)神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力文本生成變換器編碼器序列表征

    序列表征循環(huán)神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力文本生成變換器編碼器自注意力解碼器自注意力殘差的重要性圖像生成概率圖像生成結(jié)合注意力和局部性音樂變換器音樂的原始表征音樂的語言模型音樂
    的頭像 發(fā)表于 07-19 14:40 ?3308次閱讀
    <b class='flag-5'>循環(huán)</b>神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)注意力<b class='flag-5'>文本生成</b>變換器編碼器序列表征

    基于生成對(duì)抗網(wǎng)絡(luò)GAN模型的陸空通話文本生成系統(tǒng)設(shè)計(jì)

    可以及時(shí)發(fā)現(xiàn)飛行員錯(cuò)誤的復(fù)誦內(nèi)容。考慮到訓(xùn)練一個(gè)有效的差錯(cuò)校驗(yàn)網(wǎng)絡(luò)模型需要大量的文本數(shù)據(jù),本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)GAN的陸空通話文本生成方法。首先對(duì)現(xiàn)有真實(shí)的陸空通話
    發(fā)表于 03-26 09:22 ?34次下載
    基于<b class='flag-5'>生成</b>對(duì)抗網(wǎng)絡(luò)GAN模型的陸空通話<b class='flag-5'>文本生成</b>系統(tǒng)設(shè)計(jì)

    基于生成器的圖像分類對(duì)抗樣本生成模型

    ,并保證攻擊成功率。模型將對(duì)抗樣本生成的過程視為對(duì)原圖進(jìn)行圖像増強(qiáng)的操作引入生成對(duì)抗網(wǎng)絡(luò),并改進(jìn)感知損失函數(shù)以增加對(duì)抗樣本與原圖在內(nèi)容與特征空間上的相似性,采用多分類器損失函數(shù)優(yōu)化訓(xùn)練從而提高攻擊效率。實(shí)
    發(fā)表于 04-07 14:56 ?2次下載
    基于<b class='flag-5'>生成</b>器的圖像分類對(duì)抗樣<b class='flag-5'>本生成</b>模型

    文本生成任務(wù)中引入編輯方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成
    的頭像 發(fā)表于 07-23 16:56 ?1784次閱讀
    <b class='flag-5'>文本生成</b>任務(wù)中引入編輯方法的<b class='flag-5'>文本生成</b>

    受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

    來自:哈工大訊飛聯(lián)合實(shí)驗(yàn)室 本期導(dǎo)讀:本文是對(duì)受控文本生成任務(wù)的一個(gè)簡(jiǎn)單的介紹。首先,本文介紹了受控文本生成模型的一般架構(gòu),點(diǎn)明了受控文本生成模型的特點(diǎn)。然后,本文介紹了受控文本生成
    的頭像 發(fā)表于 10-13 09:46 ?3596次閱讀
    受控<b class='flag-5'>文本生成</b>模型的一般架構(gòu)及故事<b class='flag-5'>生成</b>任務(wù)等方面的具體應(yīng)用

    基于GPT-2進(jìn)行文本生成

    系統(tǒng)投入使用。這些系統(tǒng)根據(jù)格式化數(shù)據(jù)或自然語言文本生成新聞、財(cái)報(bào)或者其他解釋性文本。例如,Automated Insights的WordSmith技術(shù)已經(jīng)被美聯(lián)社等機(jī)構(gòu)使用,幫助美聯(lián)社報(bào)道大學(xué)橄欖球賽
    的頭像 發(fā)表于 04-13 08:35 ?4853次閱讀

    基于用于自然語言生成的“語境調(diào)優(yōu)”技術(shù)

    自然語言生成(又稱為文本生成)旨在基于輸入數(shù)據(jù)用人類語言生成合理且可讀的文本。隨著預(yù)訓(xùn)練語言模型
    的頭像 發(fā)表于 10-14 15:38 ?1096次閱讀

    基于VQVAE的長(zhǎng)文本生成 利用離散code來建模文本篇章結(jié)構(gòu)的方法

    寫在前面 近年來,多個(gè)大規(guī)模預(yù)訓(xùn)練語言模型 GPT、BART、T5 等被提出,這些預(yù)訓(xùn)練模型在自動(dòng)文摘等多個(gè)文本生成任務(wù)上顯著優(yōu)于非預(yù)訓(xùn)練語言模型。但對(duì)于開放式
    的頭像 發(fā)表于 12-01 17:07 ?1810次閱讀

    ELMER: 高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型

    每個(gè)單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關(guān)系,依次生成的結(jié)構(gòu)也使得自回歸模型難以并行化。目前大部分預(yù)訓(xùn)練
    的頭像 發(fā)表于 03-13 10:39 ?1460次閱讀

    ETH提出RecurrentGPT實(shí)現(xiàn)交互式超長(zhǎng)文本生成

    RecurrentGPT 則另辟蹊徑,是利用大語言模型進(jìn)行交互式長(zhǎng)文本生成的首個(gè)成功實(shí)踐。它利用 ChatGPT 等大語言模型理解自然語言指令的能力,通過自然語言模擬了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)的
    的頭像 發(fā)表于 05-29 14:34 ?906次閱讀
    ETH提出RecurrentGPT<b class='flag-5'>實(shí)現(xiàn)</b>交互式超長(zhǎng)<b class='flag-5'>文本生成</b>

    面向結(jié)構(gòu)化數(shù)據(jù)文本生成技術(shù)研究

    今天我們要講的文本生成是現(xiàn)在最流行的研究領(lǐng)域之一。文本生成的目標(biāo)是讓計(jì)算機(jī)像人類一樣學(xué)會(huì)表達(dá),目前看基本上接近實(shí)現(xiàn)。這些突然的技術(shù)涌現(xiàn),使得計(jì)算機(jī)能夠撰寫出高質(zhì)量的自然文本,滿足特定的
    的頭像 發(fā)表于 06-26 14:39 ?682次閱讀
    面向結(jié)構(gòu)化<b class='flag-5'>數(shù)據(jù)</b>的<b class='flag-5'>文本生成</b>技術(shù)研究

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過以下幾種方式實(shí)現(xiàn),取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?547次閱讀

    如何訓(xùn)練自己的LLM模型

    于什么任務(wù),比如文本生成、翻譯、問答等。 明確你的模型需要達(dá)到的性能標(biāo)準(zhǔn)。 數(shù)據(jù)收集與處理 : 收集大量的文本數(shù)據(jù),這些數(shù)據(jù)將用于訓(xùn)練模型。
    的頭像 發(fā)表于 11-08 09:30 ?829次閱讀