成人污视频免费app,99久久精品免费看国产一区

到目前為止，在我們的圖像分類(lèi)和機(jī)器翻譯實(shí)驗(yàn)中，模型是在具有輸入輸出示例的數(shù)據(jù)集上從頭開(kāi)始訓(xùn)練的，以執(zhí)行特定任務(wù)。例如，Transformer 使用英法對(duì)（第 11.7 節(jié)）進(jìn)行訓(xùn)練，因此該模型可以將輸入的英文文本翻譯成法文。因此，每個(gè)模型都成為一個(gè)特定的專(zhuān)家，即使是數(shù)據(jù)分布的微小變化也很敏感（第 4.7 節(jié)）。對(duì)于更好的泛化模型，或者更勝任的通才，可以在有或沒(méi)有適應(yīng)的情況下執(zhí)行多項(xiàng)任務(wù)，大數(shù)據(jù)的預(yù)訓(xùn)練模型越來(lái)越普遍。

給定更大的預(yù)訓(xùn)練數(shù)據(jù)，Transformer 架構(gòu)在模型大小和訓(xùn)練計(jì)算增加的??情況下表現(xiàn)更好，展示了卓越的縮放行為。具體而言，基于 Transformer 的語(yǔ)言模型的性能與模型參數(shù)、訓(xùn)練標(biāo)記和訓(xùn)練計(jì)算的數(shù)量成冪律關(guān)系（Kaplan等人，2020 年）。Transformers 的可擴(kuò)展性還可以通過(guò)在更大數(shù)據(jù)上訓(xùn)練的更大視覺(jué) Transformers 的顯著提升性能得到證明（在第 11.8 節(jié)中討論）。最近的成功案例包括 Gato，這是一個(gè)可以玩 Atari、字幕圖像、聊天并充當(dāng)機(jī)器人的多面手模型（Reed等。, 2022 )。Gato 是一個(gè)單一的 Transformer，在對(duì)不同模式（包括文本、圖像、關(guān)節(jié)力矩??和按鈕按下）進(jìn)行預(yù)訓(xùn)練時(shí)可以很好地?cái)U(kuò)展。值得注意的是，所有此類(lèi)多模態(tài)數(shù)據(jù)都被序列化為一個(gè)扁平的標(biāo)記序列， Transformers可以將其處理為類(lèi)似于文本標(biāo)記（第11.7 節(jié)）或圖像補(bǔ)?。ǖ?11.8 節(jié)）。

在為多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練 Transformers 取得令人矚目的成功之前，Transformers 使用大量文本進(jìn)行了廣泛的預(yù)訓(xùn)練。最初提出用于機(jī)器翻譯，圖 11.7.1中的 Transformer 架構(gòu)由一個(gè)用于表示輸入序列的編碼器和一個(gè)用于生成目標(biāo)序列的解碼器組成?；旧?，Transformer 可以用于三種不同的模式： encoder-only、encoder-decoder和decoder-only。作為本章的總結(jié)，我們將回顧這三種模式并解釋預(yù)訓(xùn)練 Transformers 的可擴(kuò)展性。

11.9.1。僅編碼器

當(dāng)僅使用 Transformer 編碼器時(shí)，一系列輸入標(biāo)記被轉(zhuǎn)換為相同數(shù)量的表示，這些表示可以進(jìn)一步投影到輸出（例如，分類(lèi)）。Transformer 編碼器由自注意力層組成，其中所有輸入標(biāo)記相互關(guān)注。例如，圖 11.8.1中描述的視覺(jué) Transformers 僅是編碼器，將一系列輸入圖像塊轉(zhuǎn)換為特殊“”標(biāo)記的表示。由于這種表示依賴于所有輸入標(biāo)記，因此它被進(jìn)一步投射到分類(lèi)標(biāo)簽中。這種設(shè)計(jì)的靈感來(lái)自早期在文本上預(yù)訓(xùn)練的僅編碼器 Transformer：BERT（Bidirectional Encoder Representations from Transformers）（Devlin等人，2018 年）。

11.9.1.1。預(yù)訓(xùn)練 BERT

圖 11.9.1左：使用掩碼語(yǔ)言建模預(yù)訓(xùn)練 BERT。對(duì)被屏蔽的“l(fā)ove”token 的預(yù)測(cè)取決于“l(fā)ove”前后的所有輸入 token。右圖：Transformer 編碼器中的注意力模式。垂直軸上的每個(gè)標(biāo)記都涉及水平軸上的所有輸入標(biāo)記。

BERT 使用掩碼語(yǔ)言建模在文本序列上進(jìn)行預(yù)訓(xùn)練：帶有隨機(jī)掩碼標(biāo)記的輸入文本被送入 Transformer 編碼器以預(yù)測(cè)掩碼標(biāo)記。如圖11.9.1所示，原始文本序列“I”、“l(fā)ove”、“this”、“red”、“car”前面加上“”標(biāo)記，“” token隨機(jī)替換“l(fā)ove”；那么在預(yù)訓(xùn)練期間，掩碼標(biāo)記“l(fā)ove”與其預(yù)測(cè)之間的交叉熵?fù)p失將被最小化。請(qǐng)注意，Transformer 編碼器的注意力模式?jīng)]有約束（圖 11.9.1右側(cè)）) 所以所有的代幣都可以互相關(guān)注。因此，“愛(ài)”的預(yù)測(cè)取決于序列中它前后的輸入標(biāo)記。這就是 BERT 是“雙向編碼器”的原因。無(wú)需人工標(biāo)注，可以使用書(shū)籍和維基百科中的大規(guī)模文本數(shù)據(jù)來(lái)預(yù)訓(xùn)練 BERT。

11.9.1.2。微調(diào) BERT

預(yù)訓(xùn)練的 BERT 可以針對(duì)涉及單個(gè)文本或文本對(duì)的下游編碼任務(wù)進(jìn)行微調(diào)。在微調(diào)期間，可以使用隨機(jī)參數(shù)向 BERT 添加額外的層：這些參數(shù)和那些預(yù)訓(xùn)練的 BERT 參數(shù)將被更新以適應(yīng)下游任務(wù)的訓(xùn)練數(shù)據(jù)。

圖 11.9.2微調(diào) BERT 以進(jìn)行情緒分析。

圖 11.9.2說(shuō)明了用于情緒分析的 BERT 微調(diào)。Transformer 編碼器是一個(gè)預(yù)訓(xùn)練的 BERT，它將文本序列作為輸入并將“”表示（輸入的全局表示）饋送到額外的全連接層以預(yù)測(cè)情緒。在微調(diào)期間，通過(guò)基于梯度的算法最小化預(yù)測(cè)和情感分析數(shù)據(jù)標(biāo)簽之間的交叉熵?fù)p失，其中從頭開(kāi)始訓(xùn)練附加層，同時(shí)更新 BERT 的預(yù)訓(xùn)練參數(shù)。BERT 做的不僅僅是情緒分析。3.5 億參數(shù) BERT 從 2500 億個(gè)訓(xùn)練標(biāo)記中學(xué)習(xí)到的通用語(yǔ)言表征提升了自然語(yǔ)言任務(wù)的最新水平，例如單一文本分類(lèi)、文本對(duì)分類(lèi)或回歸、文本標(biāo)記和問(wèn)答。

您可能會(huì)注意到這些下游任務(wù)包括文本對(duì)理解。BERT 預(yù)訓(xùn)練還有另一個(gè)損失，用于預(yù)測(cè)一個(gè)句子是否緊跟另一個(gè)句子。然而，后來(lái)發(fā)現(xiàn)在對(duì) 20000 億個(gè)令牌預(yù)訓(xùn)練相同大小的 BERT 變體 RoBERTa 時(shí)，這種損失沒(méi)有用（Liu等人，2019 年）。BERT 的其他衍生產(chǎn)品改進(jìn)了模型架構(gòu)或預(yù)訓(xùn)練目標(biāo)，例如 ALBERT（強(qiáng)制參數(shù)共享）（Lan等人，2019 年）、SpanBERT（表示和預(yù)測(cè)文本跨度）（Joshi等人，2020 年）、DistilBERT（輕量級(jí)通過(guò)知識(shí)蒸餾) (桑等人。, 2019 )和 ELECTRA（替代令牌檢測(cè)）（Clark等人，2020）。此外，BERT 啟發(fā)了計(jì)算機(jī)視覺(jué)中的 Transformer 預(yù)訓(xùn)練，例如視覺(jué) Transformers ( Dosovitskiy et al. , 2021 )、Swin Transformers ( Liu et al. , 2021 )和 MAE (masked autoencoders) ( He et al. , 2022 )。

11.9.2。編碼器-解碼器

由于 Transformer 編碼器將一系列輸入標(biāo)記轉(zhuǎn)換為相同數(shù)量的輸出表示，因此僅編碼器模式無(wú)法像機(jī)器翻譯那樣生成任意長(zhǎng)度的序列。正如最初為機(jī)器翻譯提出的那樣，Transformer 架構(gòu)可以配備一個(gè)解碼器，該解碼器可以自動(dòng)回歸預(yù)測(cè)任意長(zhǎng)度的目標(biāo)序列，逐個(gè)標(biāo)記，以編碼器輸出和解碼器輸出為條件：（i）對(duì)于編碼器輸出的條件，編碼器-解碼器交叉注意力（圖 11.7.1中解碼器的多頭注意力）允許目標(biāo)標(biāo)記關(guān)注所有輸入標(biāo)記；(ii) 對(duì)解碼器輸出的調(diào)節(jié)是通過(guò)所謂的因果關(guān)系實(shí)現(xiàn)的注意（這個(gè)名稱在文獻(xiàn)中很常見(jiàn)，但具有誤導(dǎo)性，因?yàn)樗c正確的因果關(guān)系研究幾乎沒(méi)有聯(lián)系）模式（圖 11.7.1中解碼器的屏蔽多頭注意），其中任何目標(biāo)標(biāo)記只能關(guān)注過(guò)去并在目標(biāo)序列中呈現(xiàn)標(biāo)記。

為了在人工標(biāo)記的機(jī)器翻譯數(shù)據(jù)之外預(yù)訓(xùn)練編碼器-解碼器 Transformer，BART （Lewis等人，2019 年）和 T5 （Raffel等人，2020 年）是兩個(gè)同時(shí)提出的在大規(guī)模文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練的編碼器-解碼器 Transformer。兩者都試圖在其預(yù)訓(xùn)練目標(biāo)中重建原始文本，而前者強(qiáng)調(diào)噪聲輸入（例如，掩蔽、刪除、排列和旋轉(zhuǎn)），后者則強(qiáng)調(diào)通過(guò)綜合消融研究實(shí)現(xiàn)多任務(wù)統(tǒng)一。

11.9.2.1。預(yù)訓(xùn)練T5

作為預(yù)訓(xùn)練的 Transformer 編碼器-解碼器的示例，T5（文本到文本傳輸轉(zhuǎn)換器）將許多任務(wù)統(tǒng)一為相同的文本到文本問(wèn)題：對(duì)于任何任務(wù)，編碼器的輸入都是任務(wù)描述（例如， “總結(jié)”、“:”）之后是任務(wù)輸入（例如，文章中的一系列標(biāo)記），解碼器預(yù)測(cè)任務(wù)輸出（例如，一系列標(biāo)記對(duì)輸入文章的總結(jié)）。為了執(zhí)行文本到文本，T5 被訓(xùn)練為根據(jù)輸入文本生成一些目標(biāo)文本。

圖 11.9.3左：通過(guò)預(yù)測(cè)連續(xù)跨度來(lái)預(yù)訓(xùn)練 T5。原句為“I”、“l(fā)ove”、“this”、“red”、“car”，其中“l(fā)ove”被特殊的“”token 代替，連續(xù)的“red”、“car”為替換為特殊的“”標(biāo)記。目標(biāo)序列以特殊的“”標(biāo)記結(jié)尾。右圖：Transformer 編碼器-解碼器中的注意力模式。在編碼器自注意力（下方塊）中，所有輸入標(biāo)記都相互關(guān)注；在編碼器-解碼器交叉注意力（上部矩形）中，每個(gè)目標(biāo)標(biāo)記關(guān)注所有輸入標(biāo)記；在解碼器自我關(guān)注（上三角）中，每個(gè)目標(biāo)標(biāo)記僅關(guān)注當(dāng)前和過(guò)去的目標(biāo)標(biāo)記（因果關(guān)系）。

為了從任何原始文本中獲取輸入和輸出，T5 被預(yù)訓(xùn)練以預(yù)測(cè)連續(xù)的跨度。具體來(lái)說(shuō)，來(lái)自文本的標(biāo)記被隨機(jī)替換為特殊標(biāo)記，其中每個(gè)連續(xù)的跨度被相同的特殊標(biāo)記替換?？紤]圖 11.9.3中的示例，其中原始文本是“I”、“l(fā)ove”、“this”、“red”、“car”。標(biāo)記“l(fā)ove”、“red”、“car”隨機(jī)替換為特殊標(biāo)記。由于“red”和“car”是連續(xù)的跨度，因此它們被相同的特殊標(biāo)記替換。結(jié)果，輸入序列為“I”、“”、“this”、“”，目標(biāo)序列為“”、“l(fā)ove”、“”、“ red”，“car”，“”，其中“”是另一個(gè)標(biāo)記結(jié)束的特殊標(biāo)記。如圖 11.9.3，解碼器有一個(gè)因果注意模式，以防止自己在序列預(yù)測(cè)期間關(guān)注未來(lái)的標(biāo)記。

在 T5 中，預(yù)測(cè)連續(xù)跨度也稱為重建損壞的文本。為了實(shí)現(xiàn)這一目標(biāo)，T5 使用來(lái)自 C4（Colossal Clean Crawled Corpus）數(shù)據(jù)的 10000 億個(gè)標(biāo)記進(jìn)行了預(yù)訓(xùn)練，該數(shù)據(jù)由來(lái)自 Web 的干凈英文文本組成（Raffel等人，2020 年）。

11.9.2.2。微調(diào)T5

與 BERT 類(lèi)似，T5 需要在任務(wù)特定的訓(xùn)練數(shù)據(jù)上進(jìn)行微調(diào)（更新 T5 參數(shù)）以執(zhí)行此任務(wù)。與 BERT 微調(diào)的主要區(qū)別包括：（i）T5 輸入包括任務(wù)描述；(ii) T5 可以通過(guò)其 Transformer 解碼器生成任意長(zhǎng)度的序列；(iii) 不需要額外的層。

圖 11.9.4為文本摘要微調(diào) T5。任務(wù)描述和文章標(biāo)記都被送入 Transformer 編碼器以預(yù)測(cè)摘要。

圖 11.9.4以文本摘要為例解釋了微調(diào) T5。在這個(gè)下游任務(wù)中，任務(wù)描述標(biāo)記“Summarize”、“:”和文章標(biāo)記被輸入到編碼器。

經(jīng)過(guò)微調(diào)后，110 億參數(shù)的 T5 (T5-11B) 在多個(gè)編碼（例如分類(lèi)）和生成（例如摘要）基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果。自發(fā)布以來(lái)，T5在后期研究中得到了廣泛的應(yīng)用。例如，開(kāi)關(guān) Transformer 的設(shè)計(jì)基于 T5 以激活參數(shù)子集以提高計(jì)算效率（Fedus等人，2022 年）。在名為 Imagen 的文本到圖像模型中，文本被輸入到具有 46 億個(gè)參數(shù)的凍結(jié) T5 編碼器 (T5-XXL) （Saharia等人，2022 年）。圖 11.9.5中逼真的文本到圖像示例建議即使沒(méi)有微調(diào)，單獨(dú)的 T5 編碼器也可以有效地表示文本。

11.9.3。僅解碼器

我們已經(jīng)回顧了僅編碼器和編碼器-解碼器 Transformers?；蛘撸瑑H解碼器的 Transformer 從圖 11.7.1中描繪的原始編碼器-解碼器架構(gòu)中移除了整個(gè)編碼器和具有編碼器-解碼器交叉注意力的解碼器子層。如今，只有解碼器的 Transformer 已經(jīng)成為大規(guī)模語(yǔ)言建模（第 9.3 節(jié)）中的實(shí)際架構(gòu)，它通過(guò)自監(jiān)督學(xué)習(xí)利用世界上豐富的未標(biāo)記文本語(yǔ)料庫(kù)。

11.9.3.1。GPT 和 GPT-2

GPT（生成預(yù)訓(xùn)練）模型以語(yǔ)言建模為訓(xùn)練目標(biāo)，選擇 Transformer 解碼器作為其主干（Radford等人，2018 年）。

圖 11.9.6左：使用語(yǔ)言建模預(yù)訓(xùn)練 GPT。目標(biāo)序列是輸入序列移位一個(gè)標(biāo)記?！啊焙汀啊倍际欠謩e標(biāo)記序列開(kāi)始和結(jié)束的特殊標(biāo)記。右圖：Transformer 解碼器中的注意力模式。垂直軸上的每個(gè)標(biāo)記僅關(guān)注其過(guò)去沿水平軸的標(biāo)記（因果關(guān)系）。

按照第 9.3.3 節(jié)中描述的自回歸語(yǔ)言模型訓(xùn)練，圖 11.9.6 說(shuō)明了使用 Transformer 編碼器進(jìn)行 GPT 預(yù)訓(xùn)練，其中目標(biāo)序列是輸入序列移位一個(gè)標(biāo)記。請(qǐng)注意，Transformer 解碼器中的注意力模式強(qiáng)制每個(gè)標(biāo)記只能關(guān)注其過(guò)去的標(biāo)記（無(wú)法關(guān)注未來(lái)的標(biāo)記，因?yàn)樗鼈兩形幢贿x擇）。

GPT 有 1 億個(gè)參數(shù)，需要針對(duì)個(gè)別下游任務(wù)進(jìn)行微調(diào)。一年后推出了更大的 Transformer-decoder 語(yǔ)言模型 GPT-2 （Radford等人，2019 年）。與 GPT 中原始的 Transformer 解碼器相比， GPT-2 采用了預(yù)歸一化（在11.8.3 節(jié)中討論）和改進(jìn)的初始化和權(quán)重縮放。在 40 GB 的文本上進(jìn)行預(yù)訓(xùn)練，15 億參數(shù)的 GPT-2 在語(yǔ)言建?；鶞?zhǔn)測(cè)試中獲得了最先進(jìn)的結(jié)果，并且在不更新參數(shù)或架構(gòu)的情況下在多個(gè)其他任務(wù)上獲得了有希望的結(jié)果。

11.9.3.2。GPT-3

GPT-2 展示了在不更新模型的情況下對(duì)多個(gè)任務(wù)使用相同語(yǔ)言模型的潛力。這比微調(diào)在計(jì)算上更有效，微調(diào)需要通過(guò)梯度計(jì)算更新模型。

圖 11.9.7使用語(yǔ)言模型（Transformer 解碼器）進(jìn)行零樣本、單樣本、少樣本上下文學(xué)習(xí)。不需要更新參數(shù)。

在解釋在沒(méi)有參數(shù)更新的情況下更高效地使用語(yǔ)言模型之前，請(qǐng)回顧第 9.5 節(jié)，可以訓(xùn)練語(yǔ)言模型以生成以某些前綴文本序列為條件的文本序列。因此，預(yù)訓(xùn)練語(yǔ)言模型可以將任務(wù)輸出生成為沒(méi)有參數(shù)更新的序列，以具有任務(wù)描述、特定于任務(wù)的輸入輸出示例和提示（任務(wù)輸入）的輸入序列為條件。這種學(xué)習(xí)范式稱為情境學(xué)習(xí) ( Brown et al. , 2020 )，可進(jìn)一步分為零樣本、單樣本和少樣本，當(dāng)分別沒(méi)有、一個(gè)和幾個(gè)特定于任務(wù)的輸入輸出示例時(shí)（圖 11.9.7）。

圖 11.9.8 GPT-3 在所有 42 個(gè)以準(zhǔn)確度命名的基準(zhǔn)中的綜合性能（改編的標(biāo)題和來(lái)自 Brown等人（2020）的圖）。

這三個(gè)設(shè)置在 GPT-3 中進(jìn)行了測(cè)試（Brown等人，2020 年），其最大版本使用的數(shù)據(jù)和模型大小比 GPT-2 大兩個(gè)數(shù)量級(jí)。GPT-3 在其直接前身 GPT-2 中使用相同的 Transformer 解碼器架構(gòu)，除了注意模式（圖 11.9.6右側(cè)）在交替層更稀疏。使用 3000 億個(gè)標(biāo)記進(jìn)行預(yù)訓(xùn)練后，GPT-3 在更大的模型尺寸下表現(xiàn)更好，其中 few-shot 性能增加最快（圖 11.9.8）。

大型語(yǔ)言模型提供了一個(gè)令人興奮的前景，即制定文本輸入以誘導(dǎo)模型通過(guò)上下文學(xué)習(xí)執(zhí)行所需的任務(wù)，這也稱為提示。例如，鏈?zhǔn)剿季S提示 ( Wei et al. , 2022 )，一種具有少量“問(wèn)題、中間推理步驟、答案”演示的上下文學(xué)習(xí)方法，引出大型語(yǔ)言模型的復(fù)雜推理能力來(lái)解決數(shù)學(xué)、常識(shí)和符號(hào)推理任務(wù)。采樣多個(gè)推理路徑（Wang et al. , 2023），多樣化 few-shot demonstrations （Zhang et al. , 2023) , 以及將復(fù)雜問(wèn)題分解為子問(wèn)題( Zhou et al. , 2023 )都可以提高推理精度。事實(shí)上，在每個(gè)答案之前通過(guò)“讓我們逐步思考”這樣的簡(jiǎn)單提示，大型語(yǔ)言模型甚至可以相當(dāng)準(zhǔn)確地執(zhí)行零樣本思維鏈推理（Kojima等人，2022 年）。即使對(duì)于包含文本和圖像的多模態(tài)輸入，語(yǔ)言模型也可以執(zhí)行多模態(tài)思維鏈推理，其準(zhǔn)確性比僅使用文本輸入進(jìn)一步提高（Zhang et al. , 2023）。

11.9.4?？蓴U(kuò)展性

圖 11.9.8憑經(jīng)驗(yàn)證明了 Transformer 在 GPT-3 語(yǔ)言模型中的可擴(kuò)展性。對(duì)于語(yǔ)言建模，關(guān)于 Transformer 可擴(kuò)展性的更全面的實(shí)證研究使研究人員看到了用更多數(shù)據(jù)和計(jì)算來(lái)訓(xùn)練更大的 Transformer 的希望（Kaplan等人，2020 年）。

圖 11.9.9 Transformer 語(yǔ)言模型性能隨著我們?cè)黾幽Ｐ痛笮?、?shù)據(jù)集大小和用于訓(xùn)練的計(jì)算量而平穩(wěn)提高。為了獲得最佳性能，必須同時(shí)放大所有三個(gè)因素。當(dāng)沒(méi)有受到其他兩個(gè)因素的瓶頸時(shí)，經(jīng)驗(yàn)表現(xiàn)與每個(gè)單獨(dú)因素都具有冪律關(guān)系（改編自Kaplan等人（2020 年）的圖）。

如圖 11.9.9所示，在模型大?。▍?shù)數(shù)量，不包括嵌入層）、數(shù)據(jù)集大?。ㄓ?xùn)練令牌數(shù)量）和訓(xùn)練計(jì)算量（ PetaFLOP/s-days，不包括嵌入層）。一般來(lái)說(shuō)，同時(shí)增加所有這三個(gè)因素會(huì)帶來(lái)更好的性能。然而，如何同時(shí)增加它們?nèi)匀皇且粋€(gè)有爭(zhēng)議的問(wèn)題 ( Hoffmann et al. , 2022 )。

圖 11.9.10 Transformer 語(yǔ)言模型訓(xùn)練運(yùn)行（圖取自 Kaplan等人（2020））。

除了提高性能外，大型模型還具有比小型模型更好的采樣效率。圖 11.9.10顯示，大型模型需要更少的訓(xùn)練樣本（處理的令牌）才能達(dá)到小型模型達(dá)到的相同水平，并且性能隨計(jì)算平滑擴(kuò)展。

圖 11.9.11 GPT-3 性能（交叉熵驗(yàn)證損失）隨著用于訓(xùn)練的計(jì)算量遵循冪律趨勢(shì)。在Kaplan等人中觀察到的冪律行為。( 2020 )繼續(xù)增加兩個(gè)數(shù)量級(jí)，與預(yù)測(cè)曲線的偏差很小。嵌入?yún)?shù)被排除在計(jì)算和參數(shù)計(jì)數(shù)之外（標(biāo)題改編自 Brown等人( 2020 )）。

Kaplan等人的經(jīng)驗(yàn)縮放行為。( 2020 )已經(jīng)在后續(xù)的大型 Transformer 模型中進(jìn)行了測(cè)試。例如，GPT-3 在圖 11.9.11中以兩個(gè)數(shù)量級(jí)支持了這一假設(shè)。

GPT 系列中 Transformers 的可擴(kuò)展性啟發(fā)了后續(xù)的 Transformer 語(yǔ)言模型。雖然 GPT-3 中的 Transformer 解碼器在 OPT（Open Pretrained Transformers）（Zhang等人，2022 年）中得到廣泛應(yīng)用，但碳足跡僅為前者的 1/7，而 GPT-2 Transformer 解碼器用于訓(xùn)練 530 -十億參數(shù)威震天-圖靈 NLG （Smith等人，2022 年），具有 2700 億個(gè)訓(xùn)練令牌。繼 GPT-2 設(shè)計(jì)之后，2800 億參數(shù)的 Gopher ( Rae et al. , 2021 )經(jīng)過(guò) 3000 億個(gè)標(biāo)記的預(yù)訓(xùn)練，在大約 150 個(gè)不同的任務(wù)中，大多數(shù)人都取得了最先進(jìn)的表現(xiàn)。Chinchilla （Hoffmann等人，2022 年）繼承了與 Gopher 相同的架構(gòu)并使用相同的計(jì)算預(yù)算，是一個(gè)小得多（700 億個(gè)參數(shù)）的模型，訓(xùn)練時(shí)間長(zhǎng)得多（1.4 萬(wàn)億訓(xùn)練令牌），在許多任務(wù)上優(yōu)于 Gopher。為了繼續(xù)擴(kuò)大語(yǔ)言建模的規(guī)模，PaLM（路徑語(yǔ)言模型）（Chowdhery等人，2022 年）是一種 5400 億參數(shù)的 Transformer 解碼器，其設(shè)計(jì)經(jīng)過(guò)修改，在 7800 億個(gè)標(biāo)記上進(jìn)行了預(yù)訓(xùn)練，在 BIG-Bench 上的表現(xiàn)優(yōu)于人類(lèi)平均水平基準(zhǔn) （斯利瓦斯塔瓦等。, 2022 )。在 Minerva （Lewkowycz等人，2022 年）中對(duì)包含科學(xué)和數(shù)學(xué)內(nèi)容的 385 億個(gè)標(biāo)記進(jìn)一步訓(xùn)練 PaLM ，這是一個(gè)大型語(yǔ)言模型，可以回答近三分之一需要定量推理的本科水平問(wèn)題，例如物理、化學(xué)、生物學(xué)和經(jīng)濟(jì)學(xué)。

魏等。( 2022 )討論了大型語(yǔ)言模型的涌現(xiàn)能力，這些能力只存在于較大的模型中，但不存在于較小的模型中。然而，簡(jiǎn)單地增加模型大小并不能從本質(zhì)上使模型更好地遵循人類(lèi)指令。遵循通過(guò)微調(diào)使語(yǔ)言模型與人類(lèi)意圖保持一致的 InstructGPT （Ouyang等人，2022）， ChatGPT能夠從與人類(lèi)的對(duì)話中遵循指令，例如代碼調(diào)試和筆記起草。

11.9.5?？偨Y(jié)與討論

Transformer 已被預(yù)訓(xùn)練為僅編碼器（例如 BERT）、編碼器-解碼器（例如 T5）和僅解碼器（例如 GPT 系列）。預(yù)訓(xùn)練模型可以適用于執(zhí)行不同的任務(wù)，包括模型更新（例如，微調(diào)）或不更新（例如，少量鏡頭）。Transformer 的可擴(kuò)展性表明更好的性能受益于更大的模型、更多的訓(xùn)練數(shù)據(jù)和更多的訓(xùn)練計(jì)算。由于 Transformer 最初是為文本數(shù)據(jù)設(shè)計(jì)和預(yù)訓(xùn)練的，因此本節(jié)稍微傾向于自然語(yǔ)言處理。盡管如此，上面討論的那些模型經(jīng)?？梢栽诳缍喾N模式的更新模型中找到。例如，(i) Chinchilla ( Hoffmann et al. , 2022 )被進(jìn)一步擴(kuò)展到 Flamingo ( Alayrac等。, 2022 ), 一種用于小樣本學(xué)習(xí)的視覺(jué)語(yǔ)言模型；(ii) GPT-2( Radford et al. , 2019 )和 vision Transformer 在 CLIP (Contrastive Language-Image Pre-training)( Radford et al. , 2021 )，其圖像和文本嵌入后來(lái)被采用在 DALL-E 2 文本到圖像系統(tǒng)中（ Ramesh等人，2022 年）。雖然目前還沒(méi)有關(guān)于多模態(tài)預(yù)訓(xùn)練中 Transformer 可擴(kuò)展性的系統(tǒng)研究，但最近的一個(gè)全 Transformer 文本到圖像模型 Parti ( Yu et al. , 2022 )，顯示了跨模態(tài)的可擴(kuò)展性潛力：更大的 Parti 更有能力生成高保真圖像和理解內(nèi)容豐富的文本（圖 11.9.12）。

11.9.6。練習(xí)

是否可以使用由不同任務(wù)組成的小批量來(lái)微調(diào) T5？為什么或者為什么不？GPT-2 怎么樣？

給定一個(gè)強(qiáng)大的語(yǔ)言模型，你能想到什么應(yīng)用？

假設(shè)您被要求微調(diào)語(yǔ)言模型以通過(guò)添加額外的層來(lái)執(zhí)行文本分類(lèi)。你會(huì)在哪里添加它們？為什么？

考慮序列到序列問(wèn)題（例如，機(jī)器翻譯），其中輸入序列在整個(gè)目標(biāo)序列預(yù)測(cè)中始終可用。使用僅解碼器的 Transformer 進(jìn)行建模的局限性是什么？為什么？

Discussions

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
146

瀏覽量
6056
pytorch

pytorch

+關(guān)注

關(guān)注
2

文章
808

瀏覽量
13377

評(píng)論

相關(guān)推薦

基于Transformer做大模型預(yù)訓(xùn)練基本的并行范式

在之前的內(nèi)容中，我們已經(jīng)介紹過(guò)流水線并行、數(shù)據(jù)并行（DP，DDP和ZeRO）。今天我們將要介紹最重要，也是目前基于Transformer做大模型預(yù)訓(xùn)練最基本的并行范式：來(lái)自NVIDIA的張量模型

發(fā)表于 05-31 14:38 ?2843次閱讀

基于<b class='flag-5'>Transformer</b>做大模型<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>基本的并行范式

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

、模型權(quán)及損失函數(shù)的變化。本教程適用讀者：想熟悉 PyTorch 使用的朋友；想采用 PyTorch 進(jìn)行模型訓(xùn)練的朋友；正采用 PyTorch

發(fā)表于 12-21 09:18

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預(yù)訓(xùn)練的 YOLOv5s 模型，model并傳遞圖像進(jìn)行推理。'yolov5s'是最輕最快的 YOLOv5 型號(hào)。有關(guān)所有可用模型的詳細(xì)信息，請(qǐng)參閱自述文

發(fā)表于 07-22 16:02

國(guó)內(nèi)科學(xué)家團(tuán)隊(duì)發(fā)布超大規(guī)模AI預(yù)訓(xùn)練模型

據(jù)消息，北京智源人工智能研究院發(fā)布四個(gè)超大規(guī)模人工智能預(yù)訓(xùn)練模型，統(tǒng)稱為“悟道1.0”，涵蓋中文語(yǔ)言、多模態(tài)、認(rèn)知、蛋白質(zhì)預(yù)測(cè)四個(gè)領(lǐng)域，是幫助國(guó)內(nèi)企業(yè)、機(jī)構(gòu)開(kāi)發(fā)人工智能應(yīng)用的大型基礎(chǔ)設(shè)施。

發(fā)表于 03-21 10:09 ?2334次閱讀

如何向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型中融入知識(shí)？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型（如RoBERTa、BERT等）中融入知識(shí)。

發(fā)表于 06-23 15:07 ?4318次閱讀

使用NVIDIA DGX SuperPOD訓(xùn)練SOTA大規(guī)模視覺(jué)模型

在這篇文章中，我們展示了在大規(guī)模人工智能超級(jí)計(jì)算機(jī)上訓(xùn)練 SOTA 大規(guī)模視覺(jué) transformer 模型（如 VOLO \ u D5 ）的主要技術(shù)和程序，如基于 NVIDIA DG

發(fā)表于 05-30 10:17 ?2433次閱讀

文本預(yù)訓(xùn)練的模型架構(gòu)及相關(guān)數(shù)據(jù)集

多模態(tài)預(yù)訓(xùn)練的數(shù)據(jù)通常來(lái)源于大規(guī)模的模態(tài)間對(duì)齊樣本對(duì)。由于時(shí)序維度的存在，視頻當(dāng)中包含了比圖片更加豐富而冗余的信息。因此，收集大規(guī)模的視頻-文本對(duì)齊數(shù)據(jù)對(duì)用于視頻

發(fā)表于 07-01 11:08 ?2094次閱讀

第一個(gè)大規(guī)模點(diǎn)云的自監(jiān)督預(yù)訓(xùn)練MAE算法Voxel-MAE

Voxel-MAE證明了對(duì)大規(guī)模點(diǎn)云進(jìn)行基于掩碼的自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)，來(lái)提高無(wú)人車(chē)的感知性能是可行的。KITTI、nuScenes、Waymo數(shù)據(jù)集上，SECOND、CenterPoin

發(fā)表于 10-21 16:15 ?4177次閱讀

基于Transformer架構(gòu)的文檔圖像自監(jiān)督預(yù)訓(xùn)練技術(shù)

是2022年微軟亞研院發(fā)表的LayoutLM V3［2］的前身工作，主要解決了文檔領(lǐng)域中標(biāo)注數(shù)據(jù)稀少和以視覺(jué)為中心的文檔智能任務(wù)骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練問(wèn)題。

發(fā)表于 11-15 11:32 ?1534次閱讀

PyTorch教程11.9之使用Transformer進(jìn)行大規(guī)模預(yù)訓(xùn)練

電子發(fā)燒友網(wǎng)站提供《PyTorch教程11.9之使用Transformer進(jìn)行大規(guī)模預(yù)

發(fā)表于 06-05 15:07 ?0次下載

PyTorch教程15.4之預(yù)訓(xùn)練word2vec

電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.4之預(yù)訓(xùn)練word2vec.pdf》資料免費(fèi)下載

發(fā)表于 06-05 10:58 ?0次下載

PyTorch教程15.9之預(yù)訓(xùn)練BERT的數(shù)據(jù)集

電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.9之預(yù)訓(xùn)練BERT的數(shù)據(jù)集.pdf》資料免費(fèi)下載

發(fā)表于 06-05 11:06 ?0次下載

PyTorch教程15.10之預(yù)訓(xùn)練BERT

電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.10之預(yù)訓(xùn)練BERT.pdf》資料免費(fèi)下載

發(fā)表于 06-05 10:53 ?0次下載

PyTorch教程-15.9。預(yù)訓(xùn)練 BERT 的數(shù)據(jù)集

。一方面，原始的 BERT 模型是在兩個(gè)巨大的語(yǔ)料庫(kù) BookCorpus 和英文維基百科（參見(jiàn)第15.8.5 節(jié)）的串聯(lián)上進(jìn)行預(yù)訓(xùn)練的，這使得本書(shū)的大多數(shù)讀者難以運(yùn)行。另一方面，現(xiàn)成的預(yù)

發(fā)表于 06-05 15:44 ?873次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問(wèn)世以來(lái)，在自然語(yǔ)言處理（NLP）領(lǐng)域取得了巨大的成功，并成為了許多先進(jìn)模型（如BERT、GPT等）的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型，包括模型的結(jié)構(gòu)、

發(fā)表于 07-02 11:41 ?1894次閱讀