国产美女被爽到高潮激情免费a片,jizz日本丰满成熟少妇

注意力機(jī)制的掩碼允許我們發(fā)送不同長度的批次數(shù)據(jù)一次性的發(fā)送到transformer中。在代碼中是通過將所有序列填充到相同的長度，然后使用“attention_mask”張量來識(shí)別哪些令牌是填充的來做到這一點(diǎn)，本文將詳細(xì)介紹這個(gè)掩碼的原理和機(jī)制。

我們先介紹下如果不使用掩碼，是如何運(yùn)行的。這里用GPT-2每次使用一個(gè)序列來執(zhí)行推理，因?yàn)槊看沃挥幸粋€(gè)序列，所以速度很慢:

from transformers import GPT2LMHeadModel, GPT2Tokenizer
 
 tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
 gpt2 = GPT2LMHeadModel.from_pretrained('gpt2')
 
 context = tokenizer('It will rain in the', return_tensors='pt')
 
 prediction = gpt2.generate(**context, max_length=10)
 tokenizer.decode(prediction[0])
 # prints 'It will rain in the morning, and the rain'

在顯存允許的情況下，使用批處理輸入的速度更快，因?yàn)槲覀冊(cè)谝淮瓮评淼倪^程可以同時(shí)處理多個(gè)序列。對(duì)許多樣本執(zhí)行推理要快得多，但也稍微復(fù)雜一些，下面是使用transformer庫進(jìn)行推理的代碼：

tokenizer.padding_side = "left"
 tokenizer.pad_token = tokenizer.eos_token
 
 sentences = ["It will rain in the",
             "I want to eat a big bowl of",
             "My dog is"]
 inputs = tokenizer(sentences, return_tensors="pt", padding=True)
 
 output_sequences = gpt2.generate(**inputs)
 
 for seq in output_sequences:
     print(tokenizer.decode(seq))

transformer庫幫我們處理了很多細(xì)節(jié)，我們現(xiàn)在詳細(xì)的介紹它里面到底做了什么。

我們將令牌輸入到語言模型中，如GPT-2和BERT，作為張量進(jìn)行推理。張量就像一個(gè)python列表，但有一些額外的特征和限制。比如說，對(duì)于一個(gè)2+維的張量，該維中的所有向量必須是相同的長度。例如,

from torch import tensor
 
 tensor([[1,2], [3,4]])  # ok
 tensor([[1,2], [3]])   # error!

當(dāng)我們對(duì)輸入進(jìn)行標(biāo)記時(shí)，它將被轉(zhuǎn)換為序列的張量，每個(gè)整數(shù)對(duì)應(yīng)于模型詞表中的一個(gè)項(xiàng)。以下是GPT-2中的標(biāo)記化示例:

如果我們想在輸入中包含第二個(gè)序列:

因?yàn)檫@兩個(gè)序列有不同的長度，所以不能把它們組合成一個(gè)張量。這時(shí)就需要用虛擬標(biāo)記填充較短的序列，以便每個(gè)序列具有相同的長度。因?yàn)槲覀兿胱屇Ｐ屠^續(xù)向序列的右側(cè)添加，我們將填充較短序列的左側(cè)。

這就是注意力掩碼的一個(gè)應(yīng)用。注意力掩碼告訴模型哪些令牌是填充的，在填充令牌的位置放置0，在實(shí)際令牌的位置放置1?，F(xiàn)在我們理解了這一點(diǎn)，讓我們逐行查看代碼。

tokenizer.padding_side = "left"

這一行告訴標(biāo)記器從左邊開始填充(默認(rèn)是右邊)，因?yàn)樽钣疫厴?biāo)記的logits將用于預(yù)測未來的標(biāo)記。

tokenizer.pad_token = tokenizer.eos_token

這一行指定將使用哪個(gè)令牌進(jìn)行填充。選擇哪一個(gè)并不重要，這里我們選擇的是“序列結(jié)束”標(biāo)記。

sentences = ["It will rain in the",
             "I want to eat a big bowl of",
             "My dog is"]

上面這三個(gè)序列在標(biāo)記時(shí)都有不同的長度，我們使用下面的方法填充：

inputs = tokenizer(sentences, return_tensors="pt", padding=True)

在進(jìn)行表計(jì)劃和添加填充后，得到了以下的結(jié)果：

{'input_ids': tensor([
     [50256, 50256, 50256,  1026,   481,  6290,   287,   262],
     [   40,   765,   284,  4483,   257,  1263,  9396,   286],
     [50256, 50256, 50256, 50256, 50256,  3666,  3290,   318]
   ]),
 'attention_mask': tensor([
     [0, 0, 0, 1, 1, 1, 1, 1],
     [1, 1, 1, 1, 1, 1, 1, 1],
     [0, 0, 0, 0, 0, 1, 1, 1]
   ])}

可以看到，第一個(gè)和第三個(gè)序列在開始時(shí)進(jìn)行了填充，并且attention_mask參數(shù)標(biāo)記了這個(gè)填充的位置。

現(xiàn)在讓我們將這個(gè)輸入傳遞給模型來生成新的文本:

output_sequences = gpt2.generate(**inputs)

如果你不熟悉函數(shù)調(diào)用的**kwargs語法，它是將輸入字典作為命名參數(shù)傳入，使用鍵作為參數(shù)名，并使用值作為相應(yīng)的實(shí)參值。

我們只需要循環(huán)遍歷每個(gè)生成的序列并以人類可讀的形式打印出結(jié)果，使用decode()函數(shù)將令牌id轉(zhuǎn)換為字符串。

for seq in output_sequences:
     print(tokenizer.decode(seq))

在注意力掩碼中，我們的輸入是0和1，但是在最終的計(jì)算時(shí)，會(huì)將在將無效位置的注意力權(quán)重設(shè)置為一個(gè)很小的值，通常為負(fù)無窮（-inf），以便在計(jì)算注意力分?jǐn)?shù)時(shí)將其抑制為接近零的概率。

這時(shí)因?yàn)?，在?jì)算注意力權(quán)重時(shí)，需要進(jìn)行Softmax的計(jì)算：

Softmax函數(shù)的性質(zhì)：注意力機(jī)制通常使用Softmax函數(shù)將注意力分?jǐn)?shù)轉(zhuǎn)化為注意力權(quán)重，Softmax函數(shù)對(duì)輸入值進(jìn)行指數(shù)運(yùn)算，然后進(jìn)行歸一化。當(dāng)輸入值非常小或負(fù)無窮時(shí)，經(jīng)過指數(shù)運(yùn)算后會(huì)接近零。因此，將掩碼設(shè)置為負(fù)無窮可以確保在Softmax函數(shù)計(jì)算時(shí)，對(duì)應(yīng)位置的注意力權(quán)重趨近于零。

排除無效位置的影響：通過將無效位置的注意力權(quán)重設(shè)置為負(fù)無窮，可以有效地將這些位置的權(quán)重壓低。在計(jì)算注意力權(quán)重時(shí)，負(fù)無窮的權(quán)重會(huì)使對(duì)應(yīng)位置的注意力權(quán)重接近于零，從而模型會(huì)忽略無效位置的影響。這樣可以確保模型更好地關(guān)注有效的信息，提高模型的準(zhǔn)確性和泛化能力。

但是負(fù)無窮并不是唯一的選擇。有時(shí)也可以選擇使用一個(gè)很大的負(fù)數(shù)，以達(dá)到相似的效果。具體的選擇可以根據(jù)具體的任務(wù)和模型的需求來確定。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
19432

瀏覽量
231284
虛擬機(jī)

虛擬機(jī)

+關(guān)注

關(guān)注
1

文章
949

瀏覽量
28457
python

python

+關(guān)注

關(guān)注
56

文章
4809

瀏覽量
85065

評(píng)論

相關(guān)推薦

淺談自然語言處理中的注意力機(jī)制

本文深入淺出地介紹了近些年的自然語言中的注意力機(jī)制包括從起源、變體到評(píng)價(jià)指標(biāo)方面。

發(fā)表于 01-25 16:51 ?6444次閱讀

淺談自然語言處理<b class='flag-5'>中</b>的<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>

深度分析NLP中的注意力機(jī)制

注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn)中，因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力

發(fā)表于 02-17 09:18 ?3912次閱讀

注意力機(jī)制的誕生、方法及幾種常見模型

簡而言之，深度學(xué)習(xí)中的注意力機(jī)制可以被廣義地定義為一個(gè)描述重要性的權(quán)重向量：通過這個(gè)權(quán)重向量為了預(yù)測或者推斷一個(gè)元素，比如圖像中的某個(gè)像素或句子中

發(fā)表于 03-12 09:49 ?4.2w次閱讀

注意力機(jī)制或?qū)⑹俏磥頇C(jī)器學(xué)習(xí)的核心要素

目前注意力機(jī)制已是深度學(xué)習(xí)里的大殺器，無論是圖像處理、語音識(shí)別還是自然語言處理的各種不同類型的任務(wù)中，都很容易遇到注意力模型的身影。

發(fā)表于 05-07 09:37 ?1339次閱讀

基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

情感分析是自然語言處理領(lǐng)域的一個(gè)重要分支，卷積神經(jīng)網(wǎng)絡(luò)（CNN）在文本情感分析方面取得了較好的效果，但其未充分提取文本信息中的關(guān)鍵情感信息。為此，建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型AT-

發(fā)表于 03-17 09:53 ?12次下載

基于多層CNN和注意力機(jī)制的文本摘要模型

基于注意力機(jī)制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務(wù)上得到了廣泛的應(yīng)用。在深度學(xué)習(xí)框架中，深層神經(jīng)網(wǎng)絡(luò)能夠提取輸λ數(shù)據(jù)不冋的特征表示，因此傳統(tǒng)編解碼模型中通常堆疊多層解碼器來

發(fā)表于 04-07 11:35 ?2次下載

結(jié)合注意力機(jī)制的跨域服裝檢索方法

針對(duì)跨域服裝檢索中服裝商品圖像拍攝嚴(yán)格約束光照、背景等條件，而用戶圖像源自復(fù)雜多變的日常生活場景，難以避免背景干擾以及視角、姿態(tài)引起的服裝形變等問題。提出一種結(jié)合注意力機(jī)制的跨域服裝檢索方法。利用

發(fā)表于 05-12 14:19 ?2次下載

基于多層注意力機(jī)制的回指消解算法綜述

在信息抽取過程中，無法被判別的回指易造成信息抽取不完整的情況，這種指代關(guān)系可通過分析當(dāng)前語境下的指代部分、被指代部分、周圍的信息及原文內(nèi)容生成的唯一判別信息進(jìn)行判斷。為此，構(gòu)建一個(gè)多層注意力機(jī)制模型

發(fā)表于 05-27 17:10 ?2次下載

基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測模型

基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測模型

發(fā)表于 06-07 15:12 ?14次下載

基于多通道自注意力機(jī)制的電子病歷架構(gòu)

基于多通道自注意力機(jī)制的電子病歷架構(gòu)

發(fā)表于 06-24 16:19 ?75次下載

基于注意力機(jī)制的跨域服裝檢索方法綜述

基于注意力機(jī)制的跨域服裝檢索方法綜述

發(fā)表于 06-27 10:33 ?2次下載

基于注意力機(jī)制的新聞文本分類模型

基于注意力機(jī)制的新聞文本分類模型

發(fā)表于 06-27 15:32 ?30次下載

基于非對(duì)稱注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測

基于非對(duì)稱注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測

發(fā)表于 07-05 15:29 ?9次下載

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡介與分類 注意力

發(fā)表于 05-22 09:46 ?0次下載

PyTorch教程11.4之Bahdanau注意力機(jī)制

電子發(fā)燒友網(wǎng)站提供《PyTorch教程11.4之Bahdanau注意力機(jī)制.pdf》資料免費(fèi)下載

發(fā)表于 06-05 15:11 ?0次下載