圖解2018年領(lǐng)先的兩大NLP模型：BERT和ELMo

谷歌推出BERT模型被認為是NLP新時代的開始，NLP終于找到了一種方法，可以像計算機視覺那樣進行遷移學習。本文用圖解的方式，生動易懂地講解了BERT和ELMo等模型。

2018年已經(jīng)成為自然語言處理機器學習模型的轉(zhuǎn)折點。我們對如何以最能捕捉潛在意義和關(guān)系的方式、最準確地表示單詞和句子的理解正在迅速發(fā)展。

此外，NLP社區(qū)開發(fā)了一些非常強大的組件，你可以免費下載并在自己的模型和pipeline中使用。

ULM-FiT跟甜餅怪沒有任何關(guān)系，但我想不出其它的了...

最新的一個里程碑是BERT的發(fā)布，這一事件被描述為NLP新時代的開始。BERT是一個NLP模型，在幾個語言處理任務(wù)中打破了記錄。在描述模型的論文發(fā)布后不久，該團隊還公開了模型的源代碼，并提供了已經(jīng)在大量數(shù)據(jù)集上預(yù)訓(xùn)練過的下載版本。

這是一個重大的進展，因為任何需要構(gòu)建語言處理模型的人都可以將這個強大的預(yù)訓(xùn)練模型作為現(xiàn)成的組件使用，從而節(jié)省了從頭開始訓(xùn)練模型所需的時間、精力、知識和資源。

圖示的兩個步驟顯示了BERT是如何運作的。你可以下載步驟1中預(yù)訓(xùn)練的模型(在未經(jīng)注釋的數(shù)據(jù)上訓(xùn)練)，然后只需在步驟2中對其進行微調(diào)。

BERT建立在最近NLP領(lǐng)域涌現(xiàn)的許多聰明方法之上——包括但不限于半監(jiān)督序列學習(作者是AndrewDai和QuocLe)、ELMo(作者是MatthewPeters和來自AI2和UWCSE的研究人員)、ULMFiT(作者是fast.ai創(chuàng)始人JeremyHoward和SebastianRuder)，OpenAItransformer(作者是OpenAI研究員Radford、Narasimhan、Salimans和Sutskever)，以及Transformer(作者是Vaswanietal.)。

要正確理解BERT是什么，我們需要了解一些概念。讓我們先看看如何使用BERT，然后再看模型本身涉及的概念。

例子：句子分類

最直接的使用BERT的方法就是使用它來對單個文本進行分類。這個模型看起來是這樣的：

要訓(xùn)練一個這樣的模型，主要需要訓(xùn)練分類器，在訓(xùn)練階段對BERT模型的更改非常小。這種訓(xùn)練過程稱為微調(diào)(Fine-Tuning)，并且具有半監(jiān)督序列學習(Semi-supervisedSequenceLearning)和ULMFiT的根源。

具體來說，由于我們討論的是分類器，這屬于機器學習的監(jiān)督學習范疇。這意味著我們需要一個標記數(shù)據(jù)集來訓(xùn)練模型。比如說，對于一個垃圾郵件分類器，標記數(shù)據(jù)集是一個電子郵件列表及其標簽(將每封電子郵件標記為“垃圾郵件”或“非垃圾郵件”)。

模型架構(gòu)

現(xiàn)在，你已經(jīng)有了一個如何使用BERT的示例用例，接下來讓我們進一步了解它是如何工作的。

論文中提供了兩種尺寸的BERT模型：

BERTBASE-大小與OpenAITransformer相當
BERTLARGE-一個非常龐大的模型，實現(xiàn)了最先進的結(jié)果

BERT基本上是一個訓(xùn)練好的TransformerEncoder堆棧。Transformer模型是BERT的一個基本概念，我們將在下文中討論。

這兩種BERT模型都有大量的編碼器層(論文中稱之為TransformerBlocks)——Base版本有12層，Large版本有24層。它們也比初始論文里的Transformer的默認配置(6個編碼器層，512個隱藏單元，8個attentionheads)有更大的前饋網(wǎng)絡(luò)(分別為768個和1024個隱藏單元)，attentionheads(分別為12個和16個)。

模型輸入
?

第一個輸入token是一個特殊的[CLS]token，這里的CLS代表分類。

就像transformer的普通編碼器一樣，BERT以一串單詞作為輸入。每一層應(yīng)用self-attention，并通過前饋網(wǎng)絡(luò)傳遞其結(jié)果，然后將結(jié)果傳遞給下一個編碼器。

在架構(gòu)方面，到目前為止，這與Transformer完全相同(除了大小之外，不過大小是我們可以設(shè)置的配置)。在輸出端，我們才開始看到兩者的區(qū)別。

模型輸出

每個位置輸出大小為hidden_size的向量(BERTBase中為768)。對于上面看到的句子分類示例，我們只關(guān)注第一個位置的輸出(我們將那個特殊的[CLS]標記傳遞給它)。

這個向量可以作為我們選擇的分類器的輸入。論文中利用單層神經(jīng)網(wǎng)絡(luò)作為分類器，取得了很好的分類效果。

如果你有更多的標簽(例如，如果是電子郵件，你可以將郵件標記為“垃圾郵件”、“非垃圾郵件”、“社交”和“促銷”)，只需調(diào)整分類器網(wǎng)絡(luò)，使其有更多的輸出神經(jīng)元，然后通過softmax。

與卷積網(wǎng)絡(luò)的相似之處

對于具有計算機視覺背景的人來說，這種向量傳遞的方式很容易讓人聯(lián)想到VGGNet之類的網(wǎng)絡(luò)的卷積部分與網(wǎng)絡(luò)末端完全連接的分類部分之間的事情。

嵌入的新時代

這些新進展帶來了詞匯編碼方式的新變化。詞匯嵌入一直是領(lǐng)先的NLP模型處理語言的主要能力。Word2Vec、Glove等方法已廣泛應(yīng)用于此類任務(wù)。讓我們先回顧一下如何使用它們。

詞匯嵌入的回顧

對于要由機器學習模型處理的單詞，它們需要以某種數(shù)字形式表示，以便模型可以在其計算中使用。Word2Vec表明我們可以用一個向量(一個數(shù)字列表)以捕捉語義或意義關(guān)系(如判斷單詞的近義、反義關(guān)系)、以及語法或語法關(guān)系(例如,“had”和“has”、“was”and“is”有同樣的語法關(guān)系)的方式恰當?shù)乇硎締卧~。

研究人員很快發(fā)現(xiàn)，使用經(jīng)過大量文本數(shù)據(jù)進行預(yù)訓(xùn)練的嵌入(embeddings)是一個好主意，而不是與小數(shù)據(jù)集的模型一起訓(xùn)練。因此，通過使用Word2Vec或GloVe進行預(yù)訓(xùn)練，可以下載單詞列表及其嵌入。如下圖是單詞“stick”的GloVe嵌入示例(嵌入向量大小為200)

單詞“stick”的GloVe嵌入

因為這些向量很大，并且數(shù)字很多，所以本文后面用下面這個基本圖形來表示向量：

ELMo:上下文很重要

如果我們使用GloVe表示，那么不管上下文是什么，“stick”這個詞都會由這個向量表示。很多研究人員就發(fā)現(xiàn)不對勁了?！皊tick”“有多種含義，取決于它的上下文是什么。那么，為什么不根據(jù)它的上下文給它一個嵌入呢——既要捕捉該上下文中的單詞含義，又要捕捉其他上下文信息？因此，語境化的詞嵌入(contextualizedword-embeddings)就出現(xiàn)了。

語境化詞嵌入可以根據(jù)單詞在句子的上下文中表示的不同含義，給它們不同的表征

ELMo不是對每個單詞使用固定的嵌入，而是在為每個單詞分配嵌入之前查看整個句子。它使用針對特定任務(wù)的雙向LSTM來創(chuàng)建嵌入。

ELMo為NLP中的預(yù)訓(xùn)練提供了重要的一步。ELMoLSTM在大型數(shù)據(jù)集上進行訓(xùn)練，然后我們可以將其用作所處理語言的其他模型中的組件使用。

ELMo的秘訣是什么?

ELMo通過訓(xùn)練預(yù)測單詞序列中的下一個單詞來獲得語言理解能力——這項任務(wù)被稱為語言建模。這很方便，因為我們有大量的文本數(shù)據(jù)，這樣的模型可以從這些數(shù)據(jù)中學習，不需要標簽。

ELMo預(yù)訓(xùn)練的一個步驟

我們可以看到每個展開的LSTM步驟的隱藏狀態(tài)從ELMo的頭部后面突出來。這些在預(yù)訓(xùn)練結(jié)束后的嵌入過程中會派上用場。

ELMo實際上更進一步，訓(xùn)練了雙向LSTM——這樣它的語言模型不僅考慮下一個單詞，而且考慮前一個單詞。

ELMo通過將隱藏狀態(tài)(和初始嵌入)以某種方式組合在一起(連接后加權(quán)求和)，提出語境化詞嵌入。

ULM-FiT：NLP中的遷移學習

ULM-FiT引入了一些方法來有效地利用模型在預(yù)訓(xùn)練期間學到的知識——不僅是嵌入，也不僅是語境化嵌入。ULM-FiT提出了一個語言模型和一個流程(process)，以便針對各種任務(wù)有效地優(yōu)化該語言模型。

NLP終于找到了一種方法，可以像計算機視覺那樣進行遷移學習。

Transformer：超越LSTM

Transformer的論文和代碼的發(fā)布，以及它在機器翻譯等任務(wù)上取得的成果，開始使一些業(yè)內(nèi)人士認為Transformers是LSTM的替代品。而且，Transformer在處理長期以來性方便比LSTM更好。

Transformer的編碼器-解碼器結(jié)構(gòu)使其非常適合于機器翻譯。但是如何使用它來進行句子分類呢？如何使用它來預(yù)訓(xùn)練可以針對其他任務(wù)進行微調(diào)的語言模型(在NLP領(lǐng)域，使用預(yù)訓(xùn)練模型或組件的監(jiān)督學習任務(wù)被稱為下游任務(wù))。

OpenAITransformer：為語言建模預(yù)訓(xùn)練Transformer解碼器

事實證明，我們不需要一個完整的Transformer來采用遷移學習，也不需要為NLP任務(wù)采用一個可微調(diào)的語言模型。我們只需要Transformer的解碼器。解碼器是一個很好的選擇，因為它是語言建模(預(yù)測下一個單詞)的首選，因為它是為屏蔽未來的token而構(gòu)建的——在逐字生成翻譯時，這是一個有用的特性。

OpenAITransformer由Transformer的解碼器堆棧組成

模型堆疊了12個解碼器層。由于在這種設(shè)置中沒有編碼器，這些解碼器層將不會有普通transformer解碼器層所具有的編碼器-解碼器注意力子層。但是，它仍具有自注意層。

通過這個結(jié)構(gòu)，我們可以繼續(xù)在相同的語言建模任務(wù)上訓(xùn)練模型：使用大量(未標記的)數(shù)據(jù)集預(yù)測下一個單詞。只是，我們可以把足足7000本書的文本扔給它，讓它學習！書籍非常適合這類任務(wù)，因為它允許模型學習相關(guān)信息，即使它們被大量文本分隔——假如使用推特或文章進行訓(xùn)練，就無法獲得這些信息。

OpenAITransformer用由7000本書組成的數(shù)據(jù)集進行訓(xùn)練，以預(yù)測下一個單詞。

將學習轉(zhuǎn)移到下游任務(wù)

既然OpenAItransformer已經(jīng)經(jīng)過了預(yù)訓(xùn)練，并且它的層已經(jīng)被調(diào)優(yōu)以合理地處理語言，那么我們就可以開始將其用于下游任務(wù)。讓我們先來看看句子分類(將郵件分為“垃圾郵件”或“非垃圾郵件”)：

如何使用預(yù)訓(xùn)練的OpenAI transformer來進行句子分割

OpenAI論文中概述了一些用于處理不同類型任務(wù)輸入的輸入轉(zhuǎn)換。下圖描繪了模型的結(jié)構(gòu)和執(zhí)行不同任務(wù)的輸入轉(zhuǎn)換。

這是不很是聰明?

BERT：從解碼器到編碼器

OpenAItransformer為我們提供了一個基于Transformer的可微調(diào)預(yù)訓(xùn)練模型。但是在從LSTM到Transformer的轉(zhuǎn)換過程中缺少了一些東西。ELMo的語言模型是雙向的，而OpenAITransformer只訓(xùn)練一個正向語言模型。我們能否建立一個基于transformer的模型，它的語言模型既考慮前向又考慮后向(用技術(shù)術(shù)語來說，“同時受左右上下文的制約”)?

BERT聰明的語言建模任務(wù)遮蓋了輸入中15%的單詞，并要求模型預(yù)測丟失的單詞。

找到合適的任務(wù)來訓(xùn)練Transformer的編碼器堆棧不容易，BERT采用了“maskedlanguagemodel”的概念(文獻中也成為完形填空任務(wù))來解決這個問題。

除了遮蓋15%的輸入，BERT還混入了一些東西，以改進模型后來的微調(diào)方式。有時它會隨機地將一個單詞替換成另一個單詞，并要求模型預(yù)測該位置的正確單詞。

兩句話任務(wù)

如果你回顧OpenAItransformer處理不同任務(wù)時所做的輸入轉(zhuǎn)換，你會注意到一些任務(wù)需要模型說出關(guān)于兩個句子的一些信息(例如，它們是否只是同件事情的相互轉(zhuǎn)述?假設(shè)一個維基百科條目作為輸入，一個關(guān)于這個條目的問題作為另一個輸入，我們能回答這個問題嗎?)

為了讓BERT更好的處理多個句子之間的關(guān)系，預(yù)訓(xùn)練過程增加了一個額外的任務(wù)：給定兩個句子(A和B)，B可能是A后面的句子，還是A前面的句子？

BERT預(yù)訓(xùn)練的第二個任務(wù)是一個兩句話分類任務(wù)。

特定任務(wù)的模型

BERT的論文展示了在不同的任務(wù)中使用BERT的多種方法。

BERT用于特征提取

fine-tuning方法并不是使用BERT的唯一方法。就像ELMo一樣，你可以使用經(jīng)過預(yù)訓(xùn)練的BERT來創(chuàng)建語境化的單詞嵌入。然后，你可以將這些嵌入提供給現(xiàn)有的模型——論文中證明了，在諸如名稱-實體識別之類的任務(wù)上，這個過程產(chǎn)生的結(jié)果與對BERT進行微調(diào)的結(jié)果相差不遠。

哪個向量最適合作為語境化化嵌入？我認為這取決于任務(wù)。論文考察了6個選項(與得分96.4的fine-tuned模型相比)：

結(jié)語

試用BERT的最佳方式是通過使用托管在谷歌Colab上的CloudTPUsnotebook的BERTFineTuning。如果你以前從未使用過云TPU，那么這也是一個很好的起點，可以嘗試使用它們。BERT代碼也適用于TPU、CPU和GPU。

下一步是查看BERTrepo中的代碼:

該模型是在modeling.py（BertModel類）中構(gòu)建的，與原始Transformer編碼器完全相同。
run_classifier.py是fine-tuning過程的一個示例。它還構(gòu)建了監(jiān)督模型的分類層。如果要構(gòu)建自己的分類器，請查看文件中的create_model()方法。
有幾個預(yù)訓(xùn)練模型可供下載。包括BERTBase和BERTLarge，以及英語，中文等語言的單語言模型，以及涵蓋102種語言的多語言模型，這些語言在維基百科上訓(xùn)練。
BERT不是將單詞看作token。相反，它關(guān)注的是詞塊(WordPieces)。tokennization.py是將單詞轉(zhuǎn)換成適合BERT的WordPieces的工具。

BERT也有PyTorch實現(xiàn)。AllenNLPlibrary使用這個實現(xiàn)，允許在任何模型中使用BERT嵌入。

本文來自新智元編譯

閱讀全文

機器學習(130423) 機器學習(130423)

ChatGPT爆火背后，NLP呈爆發(fā)式增長！

自然語言處理技術(shù)，用于計算機中模擬人類的對話和文本理解。主要源于AI大模型化的NLP技術(shù)突破是將深度學習技術(shù)與傳統(tǒng)的NLP方法結(jié)合在一起，從而更好地提高NLP技術(shù)的準確性和效率。大模型化的NLP技術(shù)能夠更好地支持企業(yè)進行大規(guī)模的語料內(nèi)容分析，并為企業(yè)更好地進行文本分析提供幫助。語言是人類區(qū)

2023-02-13 09:47:00

2771

新一代人工智能新課題：神經(jīng)網(wǎng)絡(luò)的深度解析

基于神經(jīng)網(wǎng)絡(luò)中層信息量指標，分析不同神經(jīng)網(wǎng)絡(luò)模型的處理能力。我們分析比較了四種在 NLP 中常用的深度學習模型，即 BERT， Transformer， LSTM，和 CNN。在各 NLP 任務(wù)中，BERT 模型往往表現(xiàn)最好，Transformer 模型次之。

2020-09-11 16:56:24

1160

大語言模型背后的Transformer，與CNN和RNN有何不同

for Language Understanding》，BERT模型橫空出世，并橫掃NLP領(lǐng)域11項任務(wù)的最佳成績。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer，之后又相繼出現(xiàn)XLNET、roBERT等模型擊

2023-12-25 08:36:00

1282

2018年深圳電子展

2018年深圳電子展第91屆中國（深圳）電子展——新技術(shù)、新產(chǎn)品打造一站式選型采購平臺· 時間：2018年4月9日-11日· 地點：深圳會展中心(深圳市福田中心區(qū)福華三路)· 組織單位主辦單位

2017-11-09 08:56:27

BERT中的嵌入層組成以及實現(xiàn)方式介紹

解決nlp相關(guān)任務(wù)的深度學習模型一樣，BERT將每個輸入token(輸入文本中的單詞)通過token嵌入層傳遞，以便將每個token轉(zhuǎn)換為向量表示。與其他深度學習模型不同，BERT有額外的嵌入層，以

2022-11-02 15:14:30

BERT原理詳解

BERT原理詳解

2019-07-02 16:45:22

Elmo驅(qū)動器的簡單調(diào)試過程與運動程序

此使用手冊包括兩種型號的Elmo驅(qū)動器Gold Solo Trombone G-SOLTR012/400EEH和Gold Oboe G-OBO6/230FEHN2的接線圖、簡易調(diào)試過程和運動程序

2021-09-02 08:15:12

NLP學習:HanLP使用實驗

語音翻譯問題所造成的出錯連詞，所有這些詞也只出現(xiàn)一次，這部分可以考慮最后刪去也不會影響結(jié)果。改善未出現(xiàn)詞是個關(guān)鍵步驟，因為此后模型會用到詞向量，如果未出現(xiàn)詞過多，會影響詞向量效果。問題：不過最后

2018-11-14 11:07:19

NLP的tfidf作詞向量

NLP之tfidf作詞向量

2020-06-01 17:28:24

NLP的面試題目

NLP面試題目6-10

2020-05-21 15:02:41

J-BERT N4903A高性能串行BERT手冊

Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages

2019-09-26 12:17:52

與ARM相比較，Thumb代碼的兩大優(yōu)勢是什么

為什么要使用thumb模式，與ARM相比較，Thumb代碼的兩大優(yōu)勢是什么？

2022-11-02 14:17:55

串行BERT用戶指南

A guide on using the Serial BERT

2019-09-23 11:01:40

串行BERT編程指南

A guide on programming the Serial BERT

2019-09-24 17:15:00

了解實際電源的兩種模型及其等效變換

。 2 .了解實際電源的兩種模型及其等效變換。 3 .了解非線性電阻元件的伏安特性和靜態(tài)電阻、動態(tài)電阻的概念以及簡單的非線性電阻電路的圖解分析法。第1章電路的分析方法、1.3.3電壓源和電流源的等效變換、圖...

2021-09-06 07:57:33

介紹XLNet的原理及其與BERT的不同點

1、什么是XLNet？　　首先，XLNet是一個類似于bert的模型，而不是一個完全不同的模型。但它是一個非常有前途和潛力的?？傊?，XLNet是一種廣義的自回歸預(yù)訓(xùn)練方法。　　那么，什么是自回歸

2022-11-01 15:29:55

回收M8040A 64 Gbaud 高性能 BERT

回收M8040A 64 Gbaud 高性能 BERT曾S：***；Q號：3140751627；M8040A 64 Gbaud 高性能 BERTM8030A 多通道比特誤碼率測試儀M8062A

2021-07-03 11:08:45

安森美半導(dǎo)體連續(xù)三年獲選為2018年世界最道德企業(yè)之一

遠超美國大型股票指數(shù)，過去5年期間領(lǐng)先10.72%，3年期間領(lǐng)先4.88%。Ethisphere將此稱為道德溢價。2018年獲獎企業(yè)的最佳做法和見解將以報告形式發(fā)表，并于本年三月及四月作網(wǎng)絡(luò)播放。注冊以接收報告。

2018-10-11 14:35:39

嵌入式主板比較常見的兩大類

。標準的嵌入式系統(tǒng)架構(gòu)有兩大體系，RISC處理器和CISC處理器體系。嵌入式主板分為比較常見的兩大類：1、基于X86的嵌入式主板，Intel的X86 處理器就屬于CISC體系，(一般使用INTEL、AMD、威盛、或其他產(chǎn)家的...

2021-12-16 06:41:20

意法半導(dǎo)體2018年股東大會全部提案獲批

本帖最后由 kuailesuixing 于 2018-6-4 14:34 編輯任命Jean-Marc Chery為意法半導(dǎo)體管理委員會唯一成員，出任總裁兼首席執(zhí)行官中國，2018年6月4日

2018-06-04 14:28:11

用PVC管自制遙控火車模型的教程圖解

想好做什么樣的?！颈尘笆乔懈顗|，每一小格是1cmX1cm的方塊，方便大家比較大小。】火車模型教程開始：這些是主要的材料自制遙控火車模型的教程圖解取一小塊PVC管槽，用鐵尺和筆刀將其兩邊切整齊，在距其中

2012-12-29 15:03:47

電機調(diào)試的方法elmo驅(qū)動器相關(guān)的手冊

elmo驅(qū)動器具有很強大的功能，之前只接觸到ARM板控制，因需要使用PLC，通過一個月琳琳散散的攻克也只拿下部分，作為控制電機基本上滿足實驗室需要。關(guān)于emlo驅(qū)動器的相關(guān)電子檔編程手冊、硬件介紹

2021-09-14 06:07:33

請問elmo電機驅(qū)動器和上位機怎么通信

請問elmo電機驅(qū)動器和上位機怎么通信

2017-10-18 13:02:02

放大電路的圖解分析法和小信號模型分析法的解析

本文介紹了放大電路的分析方法，圖解分析法和小信號模型分析法。靜態(tài)工作點的圖解分析采用該方法分析靜態(tài)工作點，必須已知三極管的輸入輸出特性曲線。

2017-11-23 11:02:42

NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術(shù)的詳細介紹

本文用簡潔易懂的語言，講述了自然語言處理（NLP）的前世今生。從什么是NLP到為什么要學習NLP，再到如何利用機器學習進行NLP，值得一讀。這是該系列的第一部分，介紹了三種NLP技術(shù)：文本嵌入、機器翻譯、Dialogue 和 Conversations。

2018-06-10 10:26:10

76462

最先進的NLP模型很脆弱!最先進的NLP模型是虛假的!

這兩個問題都很棘手，顯然，為期一天的研討會肯定討論不出什么結(jié)果。但是在會議現(xiàn)場，一些有遠見卓識的NLP研究人員還是探討了不少方法和想法，其中有一些尤其值得關(guān)注。在下文中，我們會介紹它們中的三個主題：巧妙地使用更多歸納偏置；努力構(gòu)建有“常識”的NLP模型；使用沒見過的分布和沒見過的任務(wù)。

2018-08-27 09:47:31

4210

仔細討論NLP模型的泛化問題

前段時間的文章《頂會見聞系列：ACL 2018，在更具挑戰(zhàn)的環(huán)境下理解數(shù)據(jù)表征及方法評價》中，我們介紹了 ACL 大會上展現(xiàn)出的 NLP 領(lǐng)域的最新研究風向和值得關(guān)注的新進展。

2018-09-10 10:45:32

4193

發(fā)電機模型制作圖解

2018-09-17 10:47:00

11723

BERT在機器閱讀理解測試SQuAD1.1中表現(xiàn)出驚人的成績

如何來實現(xiàn)上下文全向預(yù)測呢？BERT 的作者建議使用 Transformer 模型。這個模型在《Attention Is All You Need》一文中，被首次提出。論文發(fā)表后，立刻引起業(yè)界轟動，成為深度學習 NLP 的里程碑式的進展。

2018-10-18 10:31:18

11746

NLP領(lǐng)域取得最重大突破！BERT模型開啟了NLP的新時代！

BERT 提出一種新的預(yù)訓(xùn)練目標：遮蔽語言模型（masked language model，MLM），來克服上文提到的單向性局限。MLM 的靈感來自 Cloze 任務(wù)（Taylor, 1953）。MLM 隨機遮蔽模型輸入中的一些 token，目標在于僅基于遮蔽詞的語境來預(yù)測其原始詞匯 id。

2018-10-18 10:55:22

4317

Google最強模型BERT出爐

在不少人看來，BERT 對自然語言處理的研究具有里程碑式的意義。

2018-10-27 10:37:23

4691

BERT模型的PyTorch實現(xiàn)

BertModel是一個基本的BERT Transformer模型，包含一個summed token、位置和序列嵌入層，然后是一系列相同的self-attention blocks（BERT-base是12個blocks, BERT-large是24個blocks）。

2018-11-13 09:12:19

13506

用圖解的方式，生動易懂地講解了BERT和ELMo等模型

最新的一個里程碑是BERT的發(fā)布，這一事件被描述為NLP新時代的開始。BERT是一個NLP模型，在幾個語言處理任務(wù)中打破了記錄。在描述模型的論文發(fā)布后不久，該團隊還公開了模型的源代碼，并提供了已經(jīng)在大量數(shù)據(jù)集上預(yù)訓(xùn)練過的下載版本。

2018-12-16 10:17:03

10693

2018年度完美收官的十篇機器學習文章都講了哪些內(nèi)容

本文的內(nèi)容主要是對當前 NLP 領(lǐng)域的三大模型的綜述。2018 年是自然語言處理領(lǐng)域(NLP) 取得突破性進展的一年，以Google 團隊提出的BERT 模型為典型代表。再加上此前研究人員提出

2018-12-25 10:13:41

2524

一文看盡2018看盡AI現(xiàn)狀，展望未來趨勢

當然，ELMo也在試驗中展示出了強大功效。把ELMo用到已有的NLP模型上，能夠帶來各種任務(wù)上的性能提升。比如在機器問答數(shù)據(jù)集SQuAD上，用ELMo能讓此前最厲害的模型成績在提高4.7個百分點。

2018-12-25 16:26:52

2578

回顧2018年深度學習NLP十大創(chuàng)新思路

Sebastian Ruder 是一位 NLP 方向的博士生、研究科學家，目前供職于一家做 NLP 相關(guān)服務(wù)的愛爾蘭公司 AYLIEN，同時，他也是一位活躍的博客作者，發(fā)表了多篇機器學習、NLP 和深度學習相關(guān)的文章。

2019-01-08 11:25:32

3307

回顧2018自然語言處理NLP最全的應(yīng)用與合作

2018年見證了 NLP 許多新的應(yīng)用發(fā)展。Elvis Saravia 是計算語言學專家，也是2019 計算語言學會年度大會北美分部的項目委員之一。

2019-01-13 09:08:41

4578

詳解谷歌最強NLP模型BERT

面我們介紹了 Word Embedding，怎么把一個詞表示成一個稠密的向量。Embedding幾乎是在 NLP 任務(wù)使用深度學習的標準步驟。我們可以通過 Word2Vec、GloVe 等從未標注數(shù)據(jù)無監(jiān)督的學習到詞的 Embedding，然后把它用到不同的特定任務(wù)中。

2019-01-20 09:24:14

2700

史上最強通用NLP模型誕生

OpenAI今天在官博上介紹了他們的新NLP模型，刷新了7大數(shù)據(jù)集的SOTA(當前最佳結(jié)果)，并且能夠在不進行任何與領(lǐng)域知識相關(guān)數(shù)據(jù)訓(xùn)練的情況下，直接跨任務(wù)執(zhí)行最基礎(chǔ)的閱讀理解、機器翻譯、問答和文本總結(jié)等不同NLP任務(wù)。

2019-02-18 14:19:16

3954

NLP中的深度學習技術(shù)概述

該項目是對基于深度學習的自然語言處理（NLP）的概述，包括用來解決不同 NLP 任務(wù)和應(yīng)用的深度學習模型（如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和強化學習）的理論介紹和實現(xiàn)細節(jié)，以及對 NLP 任務(wù)（機器翻譯、問答和對話系統(tǒng)）當前最優(yōu)結(jié)果的總結(jié)。

2019-03-01 09:13:57

4424

1024塊TPU在燃燒！將BERT預(yù)訓(xùn)練模型的訓(xùn)練時長從3天縮減到了76分鐘

BERT是一種先進的深度學習模型，它建立在語義理解的深度雙向轉(zhuǎn)換器上。當我們增加batch size的大?。ㄈ绯^8192）時，此前的模型訓(xùn)練技巧在BERT上表現(xiàn)得并不好。BERT預(yù)訓(xùn)練也需要很長時間才能完成，如在16個TPUv3上大約需要三天。

2019-04-04 16:27:10

11046

為大家介紹三個NLP領(lǐng)域的熱門詞匯

預(yù)訓(xùn)練是通過大量無標注的語言文本進行語言模型的訓(xùn)練，得到一套模型參數(shù)，利用這套參數(shù)對模型進行初始化，再根據(jù)具體任務(wù)在現(xiàn)有語言模型的基礎(chǔ)上進行精調(diào)。預(yù)訓(xùn)練的方法在自然語言處理的分類和標記任務(wù)中，都被證明擁有更好的效果。目前，熱門的預(yù)訓(xùn)練方法主要有三個：ELMo，OpenAI GPT和BERT。

2019-04-04 16:52:42

3164

一套新的自然語言處理（NLP）評估基準，名為 SuperGLUE

實現(xiàn) NLP 的方法有很多，主流的方法大多圍繞多任務(wù)學習和語言模型預(yù)訓(xùn)練展開，由此孕育出很多種不同模型，比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某個模型的基礎(chǔ)上，研究團隊還可以借鑒其它模型的精華或者直接結(jié)合兩者。

2019-04-29 18:02:14

5799

谷歌大腦CMU聯(lián)手推出XLNet,20項任務(wù)全面超越BERT

谷歌大腦和CMU聯(lián)合團隊提出面向NLP預(yù)訓(xùn)練新方法XLNet，性能全面超越此前NLP領(lǐng)域的黃金標桿BERT，在20個任務(wù)上實現(xiàn)了性能的大幅提升，刷新了18個任務(wù)上的SOTA結(jié)果，可謂全面屠榜！

2019-06-22 11:19:28

2748

碾壓Bert?“屠榜”的XLnet對NLP任務(wù)意味著什么

張俊林新作，一文帶你剖析XLnet的運行機制，與BERT對比異同。

2019-06-25 14:11:04

2259

哈工大訊飛聯(lián)合實驗室發(fā)布基于全詞覆蓋的中文BERT預(yù)訓(xùn)練模型

同理，由于谷歌官方發(fā)布的BERT-base（Chinese）中，中文是以字為粒度進行切分，沒有考慮到傳統(tǒng)NLP中的中文分詞（CWS）。我們將全詞Mask的方法應(yīng)用在了中文中，即對組成同一個詞的漢字

2019-07-18 14:36:18

5555

XLNet和Bert比，有什么不同？要進行改進嗎？

本文首先講講我對XLNet和Bert比，有什么異同？有什么模型方面的改進？的理解

2019-07-26 14:39:20

4874

BERT再次制霸GLUE排行榜！BERT王者歸來了！

不過，XLNet的王座沒坐太久。就在今天，F(xiàn)acebook公布一個基于BERT開發(fā)的加強版預(yù)訓(xùn)練模型RoBERTa——在GLUE、SQuAD和RACE三個排行榜上全部實現(xiàn)了最先進的結(jié)果！

2019-08-02 08:53:21

5261

微軟亞研提出VL-BERT，現(xiàn)取得了當前單模型的最好效果

來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語言預(yù)訓(xùn)練模型（Visual-Linguistic BERT，簡稱 VL-BERT），該模型采用簡單而強大的 Transformer 模型作為主干網(wǎng)絡(luò)，并將其輸入擴展為同時包含視覺與語言輸入的多模態(tài)形式，適用于絕大多數(shù)視覺-語言下游任務(wù)。

2019-09-03 15:04:50

5147

BERT的自注意力模式

BERT代表Transformer的雙向編碼器表示。該模型基本上是一個多層雙向Transformer編碼器 (Devlin, Chang, Lee, & Toutanova, 2019)，有多個關(guān)于它的工作原理的優(yōu)秀指南，包括圖解的Transformer.。

2020-04-19 11:37:12

3314

語言建模中XLNet比BERT好在哪里

XLNet可能會改變語言建模，這就是為什么它是任何NLP從業(yè)者的重要補充。在本文中，我們將討論XLNet背后的原理，它使它比BERT更好。為了更好地理解它，我們還將研究它之前的相關(guān)技術(shù)。

2020-04-20 09:30:18

2404

Elmo電機驅(qū)動器的增益調(diào)整方法詳細說明

本文檔的主要內(nèi)容詳細介紹的是Elmo電機驅(qū)動器的增益調(diào)整方法詳細說明。

2020-05-13 08:00:00

金融市場中的NLP 情感分析

的機器學習，而不是使用深層神經(jīng)網(wǎng)絡(luò)。 2018年，在一些NLP任務(wù)中，一種名為BERT的最先進（STOA）模型的表現(xiàn)超過了人類的得分。在這里，我將幾個模型應(yīng)用于情緒分析任務(wù)，以了解它們在我所處的金融市場中有多大用處。代碼在jupyter notebook中，在git repo中可用//

2020-11-02 16:18:03

1738

如何在BERT中引入知識圖譜中信息

引言隨著BERT等預(yù)訓(xùn)練模型橫空出世，NLP方向迎來了一波革命，預(yù)訓(xùn)練模型在各類任務(wù)上均取得了驚人的成績。隨著各類預(yù)訓(xùn)練任務(wù)層出不窮，也有部分研究者考慮如何在BERT這一類模型中引入或者強化知識

2020-11-03 17:52:11

3795

圖解BERT預(yù)訓(xùn)練模型！

BERT的發(fā)布是這個領(lǐng)域發(fā)展的最新的里程碑之一，這個事件標志著NLP 新時代的開始。BERT模型打破了基于語言處理的任務(wù)的幾個記錄。在 BERT 的論文發(fā)布后不久，這個團隊還公開了模型的代碼，并提供了模型的下載版本

2020-11-24 10:08:22

3200

比Bert體積更小速度更快的 TinyBERT

TinyBERT 是華為不久前提出的一種蒸餾 BERT 的方法，本文梳理了 TinyBERT 的模型結(jié)構(gòu)，探索了其在不同業(yè)務(wù)上的表現(xiàn)，證明了 TinyBERT 對...

2020-12-10 20:35:29

207

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

Encoder-Decoder 是 NLP 領(lǐng)域里的一種模型框架。它被廣泛用于機器翻譯、語音識別等任務(wù)。本文將詳細介紹 Encoder-Decoder、Seq2Seq 以及...

2020-12-10 22:19:50

861

如何優(yōu)雅地使用bert處理長文本

了不同NLP任務(wù)下使用COGLTX的代碼：論文題目： CogLTX: Applying BERT to Long Texts 論文鏈接： http://keg.cs.tsinghua.edu.cn

2020-12-26 09:17:27

8296

在BERT中引入知識圖譜中信息的若干方法

2020-12-26 10:14:06

2824

結(jié)合BERT模型的中文文本分類算法

針對現(xiàn)有中文短文夲分類算法通常存在特征稀疏、用詞不規(guī)范和數(shù)據(jù)海量等問題，提出一種基于Transformer的雙向編碼器表示（BERT）的中文短文本分類算法，使用BERT預(yù)訓(xùn)練語言模型對短文本進行句子

2021-03-11 16:10:39

如何讓Bert模型在下游任務(wù)中提高性能？

隨著Transformer 在NLP中的表現(xiàn)，Bert已經(jīng)成為主流模型，然而大家在下游任務(wù)中使用時，是不是也會發(fā)現(xiàn)模型的性能時好時壞，甚至相同參數(shù)切換一下隨機種子結(jié)果都不一樣，又或者自己不管

2021-03-12 18:19:43

2928

兩個NLP模型的預(yù)測分析

中冗余的邊drop掉。通過分析剩余邊上具有怎樣的先驗知識，實現(xiàn)對GNN的預(yù)測過程加以解釋。 0. Abstract GNN 能夠?qū)⒔Y(jié)構(gòu)歸納偏置（structural inductive biases）整合到 NLP 模型中。然而，卻鮮有工作對于這種結(jié)構(gòu)偏置的原理加以解釋，特別是

2021-04-04 17:11:00

2010

一種基于BERT模型的社交電商文本分類算法

基于BERT模型的社交電商文本分類算法。首先，該算法采用BERT（ Bidirectional Encoder Representations from Transformers）預(yù)訓(xùn)練語言模型來完成社交電商文本的句子層面的特征向量表示，隨后有針對性地將獲得的特征向量輸入分類器進行分類，最后采

2021-04-13 15:14:21

基于BERT+Bo-LSTM+Attention的病歷短文分類模型

病歷文本的提取與自動分類的方法具有很大的臨床價值。文中嘗試提出一種基于BERT十 BI-LSTM+ Attention融合的病歷短文本分類模型。使用BERT預(yù)處理獲取短文本向量作為模型輸入，對比BERT與 word2vec模型的預(yù)訓(xùn)練效果，對比Bⅰ-LSTM十 Atten

2021-04-26 14:30:20

基于BERT的中文科技NLP預(yù)訓(xùn)練模型

深度學習模型應(yīng)用于自然語言處理任務(wù)時依賴大型、高質(zhì)量的人工標注數(shù)據(jù)集。為降低深度學習模型對大型數(shù)據(jù)集的依賴，提出一種基于BERT的中文科技自然語言處理預(yù)訓(xùn)練模型 ALICE。通過對遮罩語言模型進行

2021-05-07 10:08:16

深度分析RNN的模型結(jié)構(gòu)，優(yōu)缺點以及RNN模型的幾種應(yīng)用

強大的Bert模型家族，都是站在RNN的肩上，不斷演化、變強的。這篇文章，闡述了RNN的方方面面，包括模型結(jié)構(gòu)，優(yōu)缺點，RNN模型的幾種應(yīng)用，RNN常使用的激活函數(shù)，RNN的缺陷，以及GRU，LSTM是如何試圖解決這些問題，RNN變體等。這篇文章最大特點是圖解版本，

2021-05-13 10:47:46

22438

知識圖譜與BERT相結(jié)合助力語言模型

中，我們給大家介紹過百度的ERNIE。其實清華大學NLP實驗室，比百度更早一點，也發(fā)表了名為ERNIE的模型，即Enhanced Language Representation

2021-05-19 15:47:41

3355

文本分類任務(wù)的Bert微調(diào)trick大全

1 前言大家現(xiàn)在打比賽對預(yù)訓(xùn)練模型非常喜愛，基本上作為NLP比賽基線首選（圖像分類也有預(yù)訓(xùn)練模型）。預(yù)訓(xùn)練模型雖然很強，可能通過簡單的微調(diào)就能給我們帶來很大提升，但是大家會發(fā)現(xiàn)比賽做到后期

2021-07-18 09:49:32

2165

大模型時代的AI之變與開發(fā)之根

自2018年谷歌發(fā)布Bert以來，預(yù)訓(xùn)練大模型以強大的算法效果，席卷了NLP為代表的各大AI榜單與測試數(shù)據(jù)集。隨著產(chǎn)學研各界的深入研究，大模型在AI產(chǎn)學研各界的地位得到不斷加強。到2021年，我們

2021-09-29 08:54:42

2406

超大Transformer語言模型的分布式訓(xùn)練框架

大模型的預(yù)訓(xùn)練計算。大模型是大勢所趨近年來，NLP 模型的發(fā)展十分迅速，模型的大小每年以1-2個數(shù)量級的速度在提升，背后的推動力當然是大模型可以帶來更強大更精準的語言語義理解和推理能力。截止到去年，OpenAI發(fā)布的GPT-3模型達到了175B的大小，相比2018年94M的ELMo模型，三年的時間整整增大了

2021-10-11 16:46:05

2226

大模型的未來在哪？究竟什么是好的大模型？

自2018年谷歌發(fā)布BERT以來，預(yù)訓(xùn)練大模型經(jīng)過三年的發(fā)展,以強大的算法效果，席卷了NLP為代表的各大AI榜單與測試數(shù)據(jù)集。2020年OpenAI發(fā)布的NLP大模型GPT-3，實現(xiàn)了千億級數(shù)據(jù)參數(shù)

2021-10-27 08:46:54

3789

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型

2021 OPPO開發(fā)者大會：NLP預(yù)訓(xùn)練大模型 2021 OPPO開發(fā)者大會上介紹了融合知識的NLP預(yù)訓(xùn)練大模型。責任編輯：haq

2021-10-27 14:18:41

1492

2021年OPPO開發(fā)者大會融合知識的NLP預(yù)訓(xùn)練大模型

2021年OPPO開發(fā)者大會劉海鋒：融合知識的NLP預(yù)訓(xùn)練大模型，知識融合學習運用在小布助手里面。

2021-10-27 14:48:16

2251

如何改進雙塔模型才能更好的提升你的算法效果

接收的論文一直未公開，在arxiv上不停地刷，也只翻到了零碎的幾篇。于是，我想到該寫一下雙塔模型了，剛進美團的第一個月我就用到了Sentence-BERT。為什么呢？因為雙塔模型在NLP和搜廣推中的應(yīng)用實在太廣泛了。不管是校招社招，面試NLP或推薦算法崗，這已經(jīng)是必問的知識點了

2021-11-05 15:38:20

2738

如何使用BERT模型進行抽取式摘要

　　最近在梳理文本摘要相關(guān)內(nèi)容，翻到一篇19年關(guān)于基于BERT模型進行抽取式摘要的老文「BertSum」，在這里分享給大家。該論文一開始掛在arXiv時，為《Fine-tune BERT

2022-03-12 16:41:35

4185

如何實現(xiàn)更綠色、經(jīng)濟的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

1843

如何使用TensorRT 8.0進行實時自然語言處理

　　大規(guī)模語言模型（ LSLMs ）如 BERT 、 GPT-2 和 XL-Net 為許多自然語言處理（ NLP ）任務(wù)帶來了令人興奮的精度飛躍。自 2018 年 10 月發(fā)布以來， BERT （來自變形金剛的雙向編碼器表示）及其眾多變體仍然是最流行的語言模型之一，仍然提供最先進的準確性。

2022-04-02 10:31:18

1545

什么是BERT？為何選擇BERT？

由于絕大多數(shù) BERT 參數(shù)專門用于創(chuàng)建高質(zhì)量情境化詞嵌入，因此該框架非常適用于遷移學習。通過使用語言建模等自我監(jiān)督任務(wù)（不需要人工標注的任務(wù)）訓(xùn)練 BERT，可以利用 WikiText 和 BookCorpus 等大型無標記數(shù)據(jù)集

2022-04-26 14:24:13

3463

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

參天生長大模型：昇騰AI如何強壯模型開發(fā)與創(chuàng)新之根？

自2018年谷歌發(fā)布BERT以來，預(yù)訓(xùn)練大模型經(jīng)過幾年的發(fā)展，以強大的算法效果，席卷了以NLP為代表的各大AI榜單與測試數(shù)據(jù)集。2020年OpenAI發(fā)布的NLP大模型GPT-3，實現(xiàn)了千億級參數(shù)

2022-08-11 09:10:39

1338

如何在GPU資源受限的情況下訓(xùn)練transformers庫上面的大模型

自BERT出現(xiàn)以來，nlp領(lǐng)域已經(jīng)進入了大模型的時代，大模型雖然效果好，但是畢竟不是人人都有著豐富的GPU資源，在訓(xùn)練時往往就捉襟見肘，出現(xiàn)顯存out of memory的問題，或者訓(xùn)練時間非常非常的久

2022-08-31 18:16:05

1924

NVIDIA 與飛槳團隊合作開發(fā)基于 ResNet50 的模型示例

為了讓飛槳開發(fā)者可以快速復(fù)現(xiàn)頂尖的精度和超高的性能，NVIDIA 與飛槳團隊合作開發(fā)了基于 ResNet50 的模型示例，并將持續(xù)開發(fā)更多的基于 NLP 和 CV 等領(lǐng)域的經(jīng)典模型，后續(xù)陸續(xù)發(fā)布的模型有 BERT、PP-OCR、PP-YOLO 等，歡迎持續(xù)關(guān)注。

2022-10-18 10:03:26

803

谷歌提出Flan-T5，一個模型解決所有NLP任務(wù)

（需要有Decoder部分，所以「不包括BERT這類純Encoder語言模型」），論文的核心貢獻是提出一套多任務(wù)的微調(diào)方案（Flan），來極大提升語言模型的泛化性。

2022-11-24 11:21:56

1040

elmo whistle調(diào)試轉(zhuǎn)接板

方案介紹用于elmo驅(qū)動器whistle系列調(diào)試，pcb尚未經(jīng)過實際測試，但已檢查過連接關(guān)系，以及孔位。附有elmo驅(qū)動官方文件，ad工程，立創(chuàng)工程，制板文件等，可能存在的問題：1、固定需孔位按需調(diào)整。2、電容位置按需調(diào)整。

2022-12-28 16:31:19

ChatGPT反思大語言模型的技術(shù)精要

在Bert和GPT模型出現(xiàn)之前，NLP領(lǐng)域流行的技術(shù)是深度學習模型，而NLP領(lǐng)域的深度學習，主要依托于以下幾項關(guān)鍵技術(shù)：以大量的改進LSTM模型及少量的改進CNN模型作為典型的特征抽取

2023-01-11 14:33:51

1726

elmo直線電機驅(qū)動調(diào)試細則

elmo驅(qū)動直線電機調(diào)試步驟及參數(shù)整定

2023-01-29 17:26:11

總結(jié)FasterTransformer Encoder(BERT)的cuda相關(guān)優(yōu)化技巧

FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-01-30 09:34:48

1283

淺談ChatGPT的技術(shù)架構(gòu)

GPT家族與BERT模型都是知名的NLP模型，都基于Transformer技術(shù)。GPT-1只有12個Transformer層，而到了GPT-3，則增加到96層。

2023-02-21 09:42:46

2501

NLP入門之Bert的前世今生

對于每個詞只能有一個固定的向量表示，今天我們來介紹一個給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert，對比word2vec和Glove詞向量模型，Bert是一個動態(tài)的詞向量語言模型，接下來將帶領(lǐng)大家一起來聊聊Bert的前世今生，感受一下Bert在自然語言處理領(lǐng)域的魅力吧。

2023-02-22 10:29:47

527

理解什么是NLP Subword算法

Subword算法如今已經(jīng)成為了一個重要的NLP模型性能提升方法。自從2018年BERT橫空出世橫掃NLP界各大排行榜之后，各路預(yù)訓(xùn)練語言模型如同雨后春筍般涌現(xiàn)，其中Subword算法在其中已經(jīng)成為標配。所以作為NLP界從業(yè)者，有必要了解下Subword算法的原理。

2023-02-22 14:16:32

357

BLIP-2：下一代多模態(tài)模型的雛形

眾所周知，NLP領(lǐng)域一直領(lǐng)先于CV領(lǐng)域的發(fā)展。得益于更豐富的語料庫，NLP領(lǐng)域的已經(jīng)擁有了一些具有初步推理能力模型的研究，特別是LLM大模型的出現(xiàn)。

2023-03-02 13:54:42

1619

深入淺出Prompt Learning要旨及常用方法

第三范式：基于預(yù)訓(xùn)練模型 + finetuning 的范式，如 BERT + finetuning 的 NLP 任務(wù)，相比于第二范式，模型準確度顯著提高，但是模型也隨之變得更大，但小數(shù)據(jù)集就可訓(xùn)練出好模型；

2023-03-03 11:00:20

563

大模型在不同任務(wù)中的優(yōu)缺點

如果自己是一個大模型的小白，第一眼看到 GPT、PaLm、LLaMA 這些單詞的怪異組合會作何感想？假如再往深里入門，又看到 BERT、BART、RoBERTa、ELMo 這些奇奇怪怪的詞一個接一個蹦出來，不知道作為小白的自己心里會不會抓狂？

2023-05-23 17:19:10

2872

PyTorch教程-15.9。預(yù)訓(xùn)練 BERT 的數(shù)據(jù)集

實驗室在 SageMaker Studio Lab 中打開筆記本為了預(yù)訓(xùn)練第 15.8 節(jié)中實現(xiàn)的 BERT 模型，我們需要以理想的格式生成數(shù)據(jù)集，以促進兩項預(yù)訓(xùn)練任務(wù)：掩碼語言建模和下一句預(yù)測

2023-06-05 15:44:40

442

Multi-CLS BERT：傳統(tǒng)集成的有效替代方案

在 GLUE 和 SuperGLUE 數(shù)據(jù)集上進行了實驗，證明了 Multi-CLS BERT 在提高整體準確性和置信度估計方面的可靠性。它甚至能夠在訓(xùn)練樣本有限的情況下超越更大的 BERT 模型。最后還提供了 Multi-CLS BERT 的行為和特征的分析。

2023-07-04 15:47:23

416

后發(fā)而先至的騰訊混元大模型，到底有哪些技術(shù)亮點？

騰訊集團副總裁蔣杰在采訪中介紹：“在騰訊內(nèi)部，混元已經(jīng)內(nèi)測很久了，不是現(xiàn)在第一天才有?！彬v訊是國內(nèi)最早研究大模型的企業(yè)之一。2021年，騰訊推出了千億規(guī)模的NLP大模型。2022年，騰訊推出萬億參數(shù)的 NLP 稀疏大模型。換言之，他們的大模型研究，是國內(nèi)領(lǐng)先的。

2023-09-12 17:25:54

885

基于BERT算法搭建一個問答搜索引擎

鼎鼎大名的 Bert 算法相信大部分同學都聽說過，它是Google推出的NLP領(lǐng)域“王炸級”預(yù)訓(xùn)練模型，其在NLP任務(wù)中刷新了多項記錄，并取得state of the art的成績。但是有很多深度

2023-10-30 11:46:10

302

Elmo埃莫運動控制產(chǎn)品冊

電子發(fā)燒友網(wǎng)站提供《Elmo埃莫運動控制產(chǎn)品冊.pdf》資料免費下載

2022-01-13 14:10:48

教您如何精調(diào)出自己的領(lǐng)域大模型

BERT和 GPT-3 等語言模型針對語言任務(wù)進行了預(yù)訓(xùn)練。微調(diào)使它們適應(yīng)特定領(lǐng)域，如營銷、醫(yī)療保健、金融。在本指南中，您將了解 LLM 架構(gòu)、微調(diào)過程以及如何為 NLP 任務(wù)微調(diào)自己的預(yù)訓(xùn)練模型。

2024-01-19 10:25:28

351

已全部加載完成

搜索歷史

圖解2018年領(lǐng)先的兩大NLP模型：BERT和ELMo

評論