欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

改進(jìn)版BERT——SpanBERT,通過(guò)表示和預(yù)測(cè)分詞提升預(yù)訓(xùn)練效果!

WpOh_rgznai100 ? 來(lái)源:lq ? 2019-08-02 09:29 ? 次閱讀

【導(dǎo)讀】本文提出了一個(gè)新的模型預(yù)訓(xùn)練方法 SpanBERT ,該方法能夠更好地表示和預(yù)測(cè)文本的分詞情況。新方法對(duì) BERT 模型進(jìn)行了改進(jìn),在實(shí)驗(yàn)中, SpanBERT 的表現(xiàn)優(yōu)于 BERT 及其他基線,并在問(wèn)答任務(wù)、指代消解等分詞選擇類任務(wù)中取得了重要進(jìn)展。特別地,在使用和 BERT 相同的訓(xùn)練數(shù)據(jù)和模型大小時(shí),SpanBERT 在 SQuAD 1.0 和 2.0 中的 F1 score 分別為 94.6% 和 88.7% 。在 OntoNotes 指代消解任務(wù)中,SpanBERT 獲得了 79.6% 的 F1 score,優(yōu)于現(xiàn)有模型。另外, SpanBERT 在 TACRED 關(guān)系抽取任務(wù)中的表現(xiàn)也超過(guò)了基線,獲得 70.8% 的 F1 score,在 GLUE 數(shù)據(jù)集上的表現(xiàn)也有所提升。

介紹

在現(xiàn)有研究中,包括 BERT 在內(nèi)的許多預(yù)訓(xùn)練模型都有很好的表現(xiàn),已有模型在單個(gè)單詞或更小的單元上增加掩膜,并使用自監(jiān)督方法進(jìn)行模型訓(xùn)練。但是在許多 NLP 任務(wù)中都涉及對(duì)多個(gè)文本分詞間關(guān)系的推理。例如,在抽取式問(wèn)答任務(wù)中,在回答問(wèn)題“Which NFL team won Super Bown 50?”時(shí),判斷“Denver Broncos” 是否屬于“NFL team”是非常重要的步驟。相比于在已知“Broncos”預(yù)測(cè)“Denver”的情況,直接預(yù)測(cè)“Denver Broncos”難度更大,這意味著這類分詞對(duì)自監(jiān)督任務(wù)提出了更多的挑戰(zhàn)。

在本文中,作者提出了一個(gè)新的分詞級(jí)別的預(yù)訓(xùn)練方法 SpanBERT ,其在現(xiàn)有任務(wù)中的表現(xiàn)優(yōu)于 BERT ,并在問(wèn)答、指代消解等分詞選擇任務(wù)中取得了較大的進(jìn)展。對(duì) BERT 模型進(jìn)行了如下改進(jìn):(1)對(duì)隨機(jī)的鄰接分詞(span)而非隨機(jī)的單個(gè)詞語(yǔ)(token)添加掩膜;(2)通過(guò)使用分詞邊界的表示來(lái)預(yù)測(cè)被添加掩膜的分詞的內(nèi)容,不再依賴分詞內(nèi)單個(gè) token 的表示。

SpanBERT 能夠?qū)Ψ衷~進(jìn)行更好地表示和預(yù)測(cè)。該模型和 BERT 在掩膜機(jī)制和訓(xùn)練目標(biāo)上存在差別。首先,SpanBERT 不再對(duì)隨機(jī)的單個(gè) token 添加掩膜,而是對(duì)隨機(jī)對(duì)鄰接分詞添加掩膜。其次,本文提出了一個(gè)新的訓(xùn)練目標(biāo) span-boundary objective (SBO) 進(jìn)行模型訓(xùn)練。通過(guò)對(duì)分詞添加掩膜,作者能夠使模型依據(jù)其所在語(yǔ)境預(yù)測(cè)整個(gè)分詞。另外,SBO 能使模型在邊界詞中存儲(chǔ)其分詞級(jí)別的信息,使得模型的調(diào)優(yōu)更佳容易。圖1展示了模型的原理。

圖1 SpanBERT 圖示。在該示例中,分詞 an American football game上添加了掩膜。模型之后使用邊界詞 was和 to來(lái)預(yù)測(cè)分詞中的每個(gè)單詞。

為了搭建 SpanBERT ,作者首先構(gòu)建了一個(gè) BERT 模型的并進(jìn)行了微調(diào),該模型的表現(xiàn)優(yōu)于原始 BERT 模型。在搭建基線的時(shí)候,作者發(fā)現(xiàn)對(duì)單個(gè)部分進(jìn)行預(yù)訓(xùn)練的效果,比使用 next sentence prediction (NSP) 目標(biāo)對(duì)兩個(gè)長(zhǎng)度為一半的部分進(jìn)行訓(xùn)練的效果更優(yōu),在下游任務(wù)中表現(xiàn)尤其明顯。因此,作者在經(jīng)過(guò)調(diào)優(yōu)的 BERT 模型的頂端對(duì)模型進(jìn)行了改進(jìn)。

本文模型在多個(gè)任務(wù)中的表現(xiàn)都超越了所有的 BERT 基線模型,且在分詞選擇類任務(wù)中取得了重要提升。SpanBERT 在 SQuAD 1.0 和 2.0 中分別獲得 94.6% 和 88.7% 的 F1 score 。另外,模型在其他五個(gè)抽取式問(wèn)答基線(NewsQA, TriviaQA, SearchQA, HotpotQA, Natural Questions)中的表現(xiàn)也有所提升。

SpanBERT 在另外兩個(gè)具有挑戰(zhàn)性的任務(wù)中也取得了新進(jìn)展。在 CoNLL-2012 ("OnroNoets")的文本級(jí)別指代消解任務(wù)中,模型獲得了 79.6% 的 F1 socre ,超出現(xiàn)有最優(yōu)模型 6.6% 。在關(guān)系抽取任務(wù)中,SpanBERT 在 TACRED 中的 F1 score 為 70.8% ,超越現(xiàn)有最優(yōu)模型 2.8% 。另外,模型在一些不涉及分詞選擇的任務(wù)中也取得了進(jìn)展,例如提升了 GLUE 上的表現(xiàn)。

在已有的一些研究中,學(xué)者提出了增加數(shù)據(jù)、擴(kuò)大模型能夠帶來(lái)的優(yōu)勢(shì)。本文則探討了設(shè)計(jì)合理的預(yù)訓(xùn)練任務(wù)和目標(biāo)的重要性。

研究背景:BERT

BERT 是一個(gè)用于預(yù)訓(xùn)練深度 transformer 編碼器的自監(jiān)督方法,在預(yù)訓(xùn)練后可以針對(duì)不同的下游任務(wù)進(jìn)行微調(diào)。BERT 針對(duì)兩個(gè)訓(xùn)練目標(biāo)進(jìn)行最優(yōu)化—— 帶掩膜的語(yǔ)言模型(mask language modeling, MLM)和單句預(yù)測(cè)(next sentence prediction, NSP),其訓(xùn)練只需使用不帶標(biāo)簽的大數(shù)據(jù)集。

符號(hào)

對(duì)于每一個(gè)單詞或子單元的序列 X = (x1, ..., xn) ,BERT 通過(guò)編碼器產(chǎn)生出其基于語(yǔ)境的向量表示: x1, ..., xn = enc(x1, ..., xn)。由于 BERT 是通過(guò)使用一個(gè)深度 transformor 結(jié)構(gòu)使用該編碼器,模型使用其位置嵌入 p1, ..., pn 來(lái)標(biāo)識(shí)序列中每個(gè)單詞的絕對(duì)位置。

帶掩膜的語(yǔ)言模型(MLM)

MLM 又稱填空測(cè)驗(yàn),其內(nèi)容為預(yù)測(cè)一個(gè)序列中某一位置的缺失單詞。該步驟從單詞集合 X 中采樣一個(gè)子集合 Y ,并使用另一個(gè)單詞集合替換。在 BERT 中, Y 占 X 的 15% 。在 Y 中,80% 的詞被使用 [MASK] 替換,10% 的詞依據(jù) unigram 分布使用隨機(jī)的單詞替換,10% 保持不變。任務(wù)即使用這些被替換的單詞預(yù)測(cè) Y 中的原始單詞。

在 BERT 中,模型通過(guò)隨機(jī)選擇一個(gè)子集來(lái)找出 Y ,每個(gè)單詞的選擇是相互獨(dú)立的。在 SpanBERT 中,Y 的選擇是通過(guò)隨機(jī)選擇鄰接分詞得到的(詳見(jiàn)3.1)。

單句預(yù)測(cè)(NSP)

NSP 任務(wù)中包含兩個(gè)輸入序列 XA, XB,并預(yù)測(cè) XB 是否為 XA 的直接鄰接句。在 BERT 中,模型首先首先從詞匯表中讀取 XA ,之后有兩種操作的選擇:(1)從 XA 結(jié)束的地方繼續(xù)讀取 XB;(2)從詞匯表的另一個(gè)部分隨機(jī)采樣得到 XB 。兩句之間使用 [SEP] 符號(hào)隔開。另外,模型使用 [CLS] 符號(hào)表示 XB 是否是 XA 中的鄰接句,并加入到輸入之中。

在 SpanBERT 中,作者不再使用 NSP 目標(biāo),且只采樣一個(gè)全長(zhǎng)度的序列(詳見(jiàn)3.3)。

模型

3.1 分詞掩膜

對(duì)于每一個(gè)單詞序列 X = (x1, ..., xn),作者通過(guò)迭代地采樣文本的分詞選擇單詞,直到達(dá)到掩膜要求的大?。ɡ?X 的 15%),并形成 X 的子集 Y。在每次迭代中,作者首先從幾何分布 l ~ Geo(p) 中采樣得到分詞的長(zhǎng)度,該幾何分布是偏態(tài)分布,偏向于較短的分詞。之后,作者隨機(jī)(均勻地)選擇分詞的起點(diǎn)。

基于預(yù)進(jìn)行的實(shí)驗(yàn),作者設(shè)定 p = 0.2,并將 l 裁剪為 lmax = 10 。因此分詞的平均長(zhǎng)度為 3.8 。作者還測(cè)量了詞語(yǔ)(word)中的分詞程度,使得添加掩膜的分詞更長(zhǎng)。圖2展示了分詞掩膜長(zhǎng)度的分布情況。

圖2 分詞長(zhǎng)度(單詞)

和在 BERT 中一樣,作者將 Y 的規(guī)模設(shè)定為 X 的15%,其中 80% 使用 [MASK] 進(jìn)行替換,10% 使用隨機(jī)單詞替換,10%保持不變。與之不同的是,作者是在分詞級(jí)別進(jìn)行的這一替換,而非將每個(gè)單詞單獨(dú)替換。

3.2 分詞邊界目標(biāo)(SBO)

分詞選擇模型一般使用其邊界詞創(chuàng)建一個(gè)固定長(zhǎng)度的分詞表示。為了于該模型相適應(yīng),作者希望結(jié)尾分詞的表示的總和與中間分詞的內(nèi)容盡量相同。為此,作者引入了 SBO ,其僅使用觀測(cè)到的邊界詞來(lái)預(yù)測(cè)帶掩膜的分詞的內(nèi)容(如圖1)。

對(duì)于每一個(gè)帶掩膜的分詞 (xs, ..., xe) ,使用(s, e)表示其起點(diǎn)和終點(diǎn)。對(duì)于分詞中的每個(gè)單詞 xi ,使用外邊界單詞 xs-1 和 xe+1 的編碼進(jìn)行表示,并添加其位置嵌入信息 pi ,如下:

在本文中,作者使用一個(gè)兩層的前饋神經(jīng)網(wǎng)絡(luò)作為表示函數(shù),該網(wǎng)絡(luò)使用 GeLu 激活函數(shù),并使用層正則化:

作者使用向量表示 yi 來(lái)預(yù)測(cè) xi ,并和 MLM 一樣使用交叉熵作為損失函數(shù)。

對(duì)于帶掩膜的分詞中的每一個(gè)單詞,SpanBERT 對(duì)分詞邊界和帶掩膜的語(yǔ)言模型的損失進(jìn)行加和。

3.3 單序列訓(xùn)練

BERT 使用兩個(gè)序列 (XA, XB)進(jìn)行訓(xùn)練,并預(yù)測(cè)兩個(gè)句子是否鄰接(NSP)。本文發(fā)現(xiàn)使用單個(gè)序列并移除 NSP 的效果比該方法更優(yōu)。作者推測(cè)其可能原因如下:(a)更長(zhǎng)的語(yǔ)境對(duì)模型更有利;(b)加入另一個(gè)文本的語(yǔ)境信息會(huì)給帶掩膜的語(yǔ)言模型帶來(lái)噪音。

因此,本文僅采樣一個(gè)單獨(dú)的鄰接片段,該片段長(zhǎng)度最多為512個(gè)單詞,其長(zhǎng)度與 BERT 使用的兩片段的最大長(zhǎng)度總和相同。

實(shí)驗(yàn)設(shè)置

4.1 任務(wù)

本文在多個(gè)任務(wù)中對(duì)模型進(jìn)行了評(píng)測(cè),包括7個(gè)問(wèn)答任務(wù),指代消解任務(wù),9個(gè) BLUE 基線中對(duì)任務(wù),以及關(guān)系抽取任務(wù)。

抽取式問(wèn)答

該任務(wù)的內(nèi)容為,給定一個(gè)短文本和一個(gè)問(wèn)題作為輸入,模型從中抽取一個(gè)鄰接分詞作為答案。

本文首先在兩個(gè)主要的問(wèn)答任務(wù)基線 SQuAD 1.1 和 2.0 上進(jìn)行了評(píng)測(cè),之后在 5 個(gè) MRQA 的共享任務(wù)中進(jìn)行了評(píng)測(cè),包括 NewsQA, TirviaQA, HotpotQA, Natural Questions(Natural QA)。由于 MRQA 任務(wù)沒(méi)有一個(gè)公共的測(cè)試集,因此作者將開發(fā)集中的一半作為了測(cè)試集。由于這些數(shù)據(jù)集的領(lǐng)域和收集方式都不相同,這些任務(wù)能夠很好地測(cè)試 SpanBERT 的泛化性能。

作者對(duì)所有數(shù)據(jù)集都使用了與 BERT 相同的 QA 模型。作者首先將文段 P = (p1, ..., pn)和問(wèn)題 Q = (q1, ..., ql') 轉(zhuǎn)化為一個(gè)序列 X = [CLS] p1 ... pl [SEP] q1 ... qL' [SEP] ,之后將其輸入到預(yù)訓(xùn)練的 transformer 編碼器中,并在其頂端獨(dú)立訓(xùn)練兩個(gè)線性分類器,用于預(yù)測(cè)回答分詞的邊界(起點(diǎn)和終點(diǎn))。對(duì)于 SQuAD 2.0 中的不可回答問(wèn)題,作者使用[CLS] 作為回答分詞。

指代消解

該任務(wù)的內(nèi)容為將文本中指向相同真實(shí)世界實(shí)體的內(nèi)容進(jìn)行聚類。作者在 CoNLL-2012 共享任務(wù)中進(jìn)行了評(píng)測(cè),該評(píng)測(cè)為文檔級(jí)的指代消解。作者使用了高階指代模型(higher-order coreference model),并將其中的 LSTM 編碼器替換為了 BERT 的預(yù)訓(xùn)練 transformer 編碼器。

關(guān)系抽取

本任務(wù)內(nèi)容為,給定一個(gè)包含主語(yǔ)分詞和賓語(yǔ)分詞的句子,預(yù)測(cè)兩個(gè)分詞的關(guān)系,關(guān)系為給定的42種類型之一,包括 np_relation 。本文在 TACRED 數(shù)據(jù)集上進(jìn)行了測(cè)試,并使用該文提出的實(shí)體掩膜機(jī)制進(jìn)行了模型構(gòu)建。作者使用 NER 標(biāo)簽對(duì)分詞進(jìn)行了替換,形如“[CLS] [SUBG-PER] was born in [OBJ-LOC], Michigan, ...”,并在模型頂端加入了一個(gè)線性分類器用于預(yù)測(cè)關(guān)系類型。

GLUE

GLUE 包含9 個(gè)句子級(jí)的分類任務(wù),包括兩個(gè)單句任務(wù)(CoLA, SST-2),三個(gè)句子相似度任務(wù)( MRPC, STS-B, QQP),四個(gè)自然語(yǔ)言推理任務(wù)( MNLI, QNLI, Gi-, WNLI)。近期的模型主要針對(duì)單個(gè)任務(wù),但本文在所有任務(wù)上進(jìn)行了評(píng)測(cè)。模型設(shè)置與 BERT 相同,并在頂端加入了一個(gè)線性分類器用于 [CLS] 單詞。

4.2 實(shí)驗(yàn)步驟

作者在 fairseq 中對(duì) BERT 模型和預(yù)訓(xùn)練方法重新進(jìn)行了訓(xùn)練。本文與之前的最大不同在于,作者在每一個(gè) epoch 使用了不同的掩膜,而 BERT 對(duì)每個(gè)序列采樣了是個(gè)不同的掩膜。另外,初始的 BERT 的采樣率較低,為 0.1, 本文則使用多達(dá) 512 個(gè)單詞作為采樣,直到到達(dá)文檔的邊界。

4.3 基線

本文與三個(gè)基線進(jìn)行了比較,包括 Google BERT, 作者訓(xùn)練的 BERT ,以及作者訓(xùn)練的單序列 BERT。

結(jié)果

5.1 各任務(wù)結(jié)果

抽取式問(wèn)答

表 1 展示了 SQuAD 1.1 和 2.0 上的結(jié)果,表 2 展示了其他數(shù)據(jù)集上的結(jié)果??梢园l(fā)現(xiàn) SpanBERT 的效果由于基線模型。

表1 SQuAD 1.1 和 2.0 數(shù)據(jù)集上的結(jié)果

表2 其他五個(gè)數(shù)據(jù)集上的結(jié)果

指代消除

表3展示了 OntoNotes 上的模型表現(xiàn)。可以發(fā)現(xiàn),SpanBERT 的模型效果優(yōu)于基線。

表3OntoNotes 數(shù)據(jù)集上的結(jié)果

關(guān)系抽取

表5展示了 TACRED 上的模型效果。SpanBERT 的表現(xiàn)超出了基線模型的評(píng)分。

表5TACRED 數(shù)據(jù)集上的結(jié)果

GLUE

表4 展示了 GLUE 上的模型表現(xiàn), SpanBERT 同樣超越了已有評(píng)分。

表4 GLUE 上的結(jié)果

5.2 整體趨勢(shì)

通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn), SpanBERT 在所有任務(wù)上的評(píng)分幾乎都優(yōu)于 BERT ,在抽取式問(wèn)答任務(wù)中最為明顯。另外,作者發(fā)現(xiàn)單序列的訓(xùn)練優(yōu)于兩個(gè)序列的訓(xùn)練效果,且不再需要使用 NSP 。

消融實(shí)驗(yàn)

本部分中,作者比較了隨機(jī)分詞掩膜機(jī)制和基于語(yǔ)言學(xué)信息的掩膜機(jī)制,發(fā)現(xiàn)本文使用的隨機(jī)分詞掩膜機(jī)制效果更優(yōu)。另外,作者研究了 SBO 的影響,并與 BERT 使用的 NSP 進(jìn)行了比較。

6.1 掩膜機(jī)制

作者在子單詞、完整詞語(yǔ)、命名實(shí)體、名詞短語(yǔ)和隨機(jī)分詞方面進(jìn)行了比較,表6展示了分析結(jié)果。

表6 使用不同掩膜機(jī)制替換 BERT 中掩膜機(jī)制的結(jié)果

6.2 輔助目標(biāo)

表7展示了本實(shí)驗(yàn)的結(jié)果,可以發(fā)現(xiàn),使用 SBO 替換 NSP 并使用單序列進(jìn)行預(yù)測(cè)的效果更優(yōu)。

表7 使用不同的輔助目標(biāo)帶來(lái)的影響

結(jié)論

本文提出了一個(gè)新的基于分詞的預(yù)訓(xùn)練模型,并對(duì) BERT 進(jìn)行了如下改進(jìn):(1)對(duì)鄰接隨機(jī)分詞而非隨機(jī)單詞添加掩膜;(2)使用分詞邊界的表示進(jìn)行訓(xùn)練來(lái)預(yù)測(cè)添加掩膜的分詞的內(nèi)容,而不再使用單詞的表示進(jìn)行訓(xùn)練。本文模型在多個(gè)評(píng)測(cè)任務(wù)中的得分都超越了 BERT 且在分詞選擇類任務(wù)中的提升尤其明顯。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3673

    瀏覽量

    135286
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3329

    瀏覽量

    49246
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22113

原文標(biāo)題:SpanBERT:提出基于分詞的預(yù)訓(xùn)練模型,多項(xiàng)任務(wù)性能超越現(xiàn)有模型!

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    介紹XLNet的原理及其與BERT的不同點(diǎn)

    1、什么是XLNet?  首先,XLNet是一個(gè)類似于bert的模型,而不是一個(gè)完全不同的模型。但它是一個(gè)非常有前途和潛力的??傊?,XLNet是一種廣義的自回歸預(yù)訓(xùn)練方法。  那么,什么是自回歸
    發(fā)表于 11-01 15:29

    1024塊TPU在燃燒!將BERT預(yù)訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)從3天縮減到了76分鐘

    BERT是一種先進(jìn)的深度學(xué)習(xí)模型,它建立在語(yǔ)義理解的深度雙向轉(zhuǎn)換器上。當(dāng)我們?cè)黾觔atch size的大?。ㄈ绯^(guò)8192)時(shí),此前的模型訓(xùn)練技巧在BERT上表現(xiàn)得并不好。BERT
    的頭像 發(fā)表于 04-04 16:27 ?1.2w次閱讀

    新的預(yù)訓(xùn)練方法——MASS!MASS預(yù)訓(xùn)練幾大優(yōu)勢(shì)!

    專門針對(duì)序列到序列的自然語(yǔ)言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence to Sequence Pre-traini
    的頭像 發(fā)表于 05-11 09:34 ?7147次閱讀
    新的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>方法——MASS!MASS<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>幾大優(yōu)勢(shì)!

    哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布基于全詞覆蓋的中文BERT預(yù)訓(xùn)練模型

    同理,由于谷歌官方發(fā)布的BERT-base(Chinese)中,中文是以字為粒度進(jìn)行切分,沒(méi)有考慮到傳統(tǒng)NLP中的中文分詞(CWS)。我們將全詞Mask的方法應(yīng)用在了中文中,即對(duì)組成同一個(gè)詞的漢字
    的頭像 發(fā)表于 07-18 14:36 ?6059次閱讀
    哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布基于全詞覆蓋的中文<b class='flag-5'>BERT</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型

    圖解BERT預(yù)訓(xùn)練模型!

    BERT的發(fā)布是這個(gè)領(lǐng)域發(fā)展的最新的里程碑之一,這個(gè)事件標(biāo)志著NLP 新時(shí)代的開始。BERT模型打破了基于語(yǔ)言處理的任務(wù)的幾個(gè)記錄。在 BERT 的論文發(fā)布后不久,這個(gè)團(tuán)隊(duì)還公開了模型的代碼,并提供了模型的下載版本
    的頭像 發(fā)表于 11-24 10:08 ?3741次閱讀

    一種側(cè)重于學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法

    transformers編碼表示)的基礎(chǔ)上,提岀了一種側(cè)重學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法。在目標(biāo)領(lǐng)域的預(yù)練階段,利用情感詞典改進(jìn)
    發(fā)表于 04-13 11:40 ?4次下載
    一種側(cè)重于學(xué)習(xí)情感特征的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>方法

    基于BERT的中文科技NLP預(yù)訓(xùn)練模型

    深度學(xué)習(xí)模型應(yīng)用于自然語(yǔ)言處理任務(wù)時(shí)依賴大型、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集。為降低深度學(xué)習(xí)模型對(duì)大型數(shù)據(jù)集的依賴,提出一種基于BERT的中文科技自然語(yǔ)言處理預(yù)訓(xùn)練模型 ALICE。通過(guò)對(duì)遮罩
    發(fā)表于 05-07 10:08 ?14次下載

    如何向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型中融入知識(shí)?

    本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(如RoBERTa、BERT等)中融入知識(shí)。
    的頭像 發(fā)表于 06-23 15:07 ?4315次閱讀
    如何向大規(guī)模<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>語(yǔ)言模型中融入知識(shí)?

    文本分類任務(wù)的Bert微調(diào)trick大全

    1 前言 大家現(xiàn)在打比賽對(duì)預(yù)訓(xùn)練模型非常喜愛(ài),基本上作為NLP比賽基線首選(圖像分類也有預(yù)訓(xùn)練模型)。預(yù)
    的頭像 發(fā)表于 07-18 09:49 ?2556次閱讀

    Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語(yǔ)言模型,整體思路基于BERT,并提出了針對(duì)多語(yǔ)言
    的頭像 發(fā)表于 05-05 15:23 ?3058次閱讀

    一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT

    由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度,使得計(jì)算效率高于掩碼語(yǔ)言模型。PERT模型結(jié)構(gòu)與BERT模型一致,因此
    的頭像 發(fā)表于 05-10 15:01 ?1602次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡(jiǎn)單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)預(yù)訓(xùn)練模型的究竟學(xué)
    的頭像 發(fā)表于 03-03 11:20 ?1527次閱讀

    PyTorch教程15.9之預(yù)訓(xùn)練BERT的數(shù)據(jù)集

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.9之預(yù)訓(xùn)練BERT的數(shù)據(jù)集.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:06 ?0次下載
    PyTorch教程15.9之<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>BERT</b>的數(shù)據(jù)集

    PyTorch教程15.10之預(yù)訓(xùn)練BERT

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.10之預(yù)訓(xùn)練BERT.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:53 ?0次下載
    PyTorch教程15.10之<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>BERT</b>

    PyTorch教程-15.9。預(yù)訓(xùn)練 BERT 的數(shù)據(jù)集

    實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開筆記本 為了預(yù)訓(xùn)練第 15.8 節(jié)中實(shí)現(xiàn)的 BERT 模型,我們需要以理想的格式生成數(shù)據(jù)集,以促進(jìn)兩項(xiàng)預(yù)
    的頭像 發(fā)表于 06-05 15:44 ?870次閱讀