激情五月婷婷久久av,国产精品沙发午睡系列999

你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎？很多小伙伴的第一反應是：不就是直接取頂層的[CLS] token的embedding作為句子表示嘛，難道還有其他套路不成？

nono，你知道這樣得到的句子表示捕捉到的語義信息其實很弱嗎？今天向大家介紹一篇來自于 CMU 和字節(jié)跳動合作，發(fā)表在 EMNLP2020 的 paper，詳盡地分析了從預訓練模型得到 sentence embedding 的常規(guī)方式的缺陷和最佳打開方式，是一篇非常實用、輕松幫助大家用BERT刷分的文章。論文質(zhì)量蠻高，分析和發(fā)現(xiàn)很有趣，通讀之后感覺收獲多多。

自2018年BERT驚艷眾人之后，基于預訓練模型對下游任務進行微調(diào)已成為煉丹的標配。然而近兩年的研究卻發(fā)現(xiàn)，沒有經(jīng)過微調(diào)，直接由BERT得到的句子表示在語義文本相似性方面明顯薄弱，甚至會弱于GloVe得到的表示。此篇論文中首先從理論上探索了masked language model 跟語義相似性任務上的聯(lián)系，并通過實驗分析了BERT的句子表示，最后提出了BERT-Flow來解決上述問題。

為什么BERT的句子Embeddings表現(xiàn)弱？

由于Reimers等人之前已實驗證明 context embeddings 取平均要優(yōu)于[CLS] token的embedding。因而在文章中，作者都以最后幾層文本嵌入向量的平均值來作為BERT句子的表示向量。

語義相似性與BERT預訓練的聯(lián)系

為了探究上述問題，作者首先將語言模型(LM)與掩蓋語言模型(MLM) 統(tǒng)一為: 給定context（c）預測得到 token(x) 的概率分布，即

這里是context的embedding，表示的word embedding。進一步，由于將 embedding 正則化到單位超球面時，兩個向量的點積等價于它們的cosine 相似度，我們便可以將BERT句子表示的相似度簡化為文本表示的相似度，即。

另外，考慮到在訓練中，當 c 與 w 同時出現(xiàn)時，它們對應的向量表示也會更接近。換句話說，context-context 的相似度可以通過 context-words 之間的相似度推出或加強。

各向異性嵌入空間

Jun Gao, Lingxiao Wang 等人在近幾年的ICLR paper中有提到語言模型中最大似然目標的訓練會產(chǎn)生各向異性的詞向量空間，即向量各個方向分布并不均勻，并且在向量空間中占據(jù)了一個狹窄的圓錐體，如下圖所示~

這種情況同樣也存在于預訓練好的基于Transformer的模型中，比如BERT，GPT-2。而在這篇paper中，作者通過實驗得到以下兩個發(fā)現(xiàn)：

詞頻率影響詞向量空間的分布：文中通過度量BERT詞向量表示與原點 l_2 距離的均值得到以下的圖表。我們可以看到高頻的詞更接近原點。由于word embedding在訓練過程中起到連接文本embedding的作用，我們所需的句子表示向量可能會相應地被單詞頻率信息誤導，且其保留的語義信息可能會被破壞。

低頻詞分布偏向稀疏：文中度量了詞向量空間中與K近鄰單詞的 l_2 距離的均值。我們可以看到高頻詞分布更集中，而低頻詞分布則偏向稀疏。然而稀疏性的分布會導致表示空間中存在很多“洞”，這些洞會破壞向量空間的“凸性”。考慮到BERT句子向量的產(chǎn)生保留了凸性，因而直接使用其句子embeddings會存在問題。

Flow-based 生成模型

那么，如何無監(jiān)督情況下充分利用BERT表示中的語義信息？為了解決上述存在的問題，作者提出了一種將BERT embedding空間映射到一個標準高斯隱空間的方法（如下圖所示），并稱之為“BERT-flow”。而選擇 Gaussian 空間的動機也是因為其自身的特點：

標準高斯分布滿足各向同性

高斯分布區(qū)域沒有“洞”，即不存在破壞“凸性”的情況

上圖中表示隱空間，表示觀測到的空間，f: 是可逆的變換。根據(jù)概率密度函數(shù)中變量替換的定理，我們可以得到觀測變量的概率密度函數(shù)如下：

進一步，作者通過最大化BERT句子表示的邊緣似然函數(shù)來學習基于流的生成模型，即通過如下的公式來訓練flow的參數(shù)：

其中表示數(shù)據(jù)集分布，為神經(jīng)網(wǎng)絡。需要注意的是，在訓練中，不需要任何人工標注！另外，BERT的參數(shù)保持不變，僅有流的參數(shù)進行優(yōu)化更新。其次，在實驗中，作者基于Glow (Dinh et al., 2015)的設計（多個可逆變換組合）進行改動，比如將仿射耦合(affine coupling)替換為了加法耦合（additive coupling）。

實驗及結(jié)果

論文的實驗部分在7個數(shù)據(jù)集上進行衡量語義文本相似性任務的效果。

實驗步驟：

通過句子encoder得到每個句子的向量表示。

計算句子之間的cosine similarity 作為模型預測的相似度。

計算Spearman系數(shù)。

實驗結(jié)果：

上圖匯報了sentence embeddings的余弦相似度同多個數(shù)據(jù)集上真實標簽之間的Spearman等級相關(guān)性得分（），其中flow-target 表示在完整的目標數(shù)據(jù)集（train+validation+test）上進行學習，flow-NLI 表示模型在NLI（natual language inference）任務的測試，綠色箭頭表示相對于BERT的baseline，模型的效果有提升，紅色反之。

我們可以注意到模型的改進對于效果的提升還是很顯著滴！文章同樣還在無監(jiān)督問答任務證明模型的有效性，并將BERT-flow得到的語義相似度同詞法相似度(通過編輯距離來衡量)進行對比，結(jié)果同樣證明模型在引入流的可逆映射后減弱了語義相似性與詞法相似性之間的聯(lián)系！具體信息大家可查閱paper~

小結(jié)

總之，這篇paper探究了BERT句子表示對于語義相似性上潛在的問題，并提出了基于流的可逆映射來改進在對應任務上的表現(xiàn)。想多了解的童鞋可以看看原文，相信你們也會喜歡上這篇paper！

原文標題：還在用[CLS]？從BERT得到最強句子Embedding的打開方式！

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

計算機

計算機

+關(guān)注

關(guān)注
19

文章
7550

瀏覽量
88746
模型

模型

+關(guān)注

關(guān)注
1

文章
3346

瀏覽量
49274

原文標題：還在用[CLS]？從BERT得到最強句子Embedding的打開方式！

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Giada杰和科技ISE展會直擊｜在巴塞羅那，遇見視聽未來的N種打開方式

歐洲專業(yè)視聽設備與信息系統(tǒng)集成技術(shù)展覽會當?shù)貢r間2月7日，歐洲專業(yè)視聽設備與信息系統(tǒng)集成技術(shù)展覽會（以下簡稱ISE）在西班牙巴塞羅那落下帷幕。ISE是歐洲舉辦最成功的、全球觀眾人數(shù)最多的專業(yè)視聽展覽會，素有視聽行業(yè)“風向標”之稱。今年，杰和科技如約而至，連續(xù)第15年參展，再次攜多款AI驅(qū)動、智能零售及工業(yè)級計算解決方案亮相，以硬核技術(shù)實力與場景化應用方案，向

發(fā)表于 02-10 10:33 ?90次閱讀

Giada杰和科技ISE展會直擊｜在巴塞羅那，遇見視聽未來的N種<b class='flag-5'>打開方式</b>

【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

理和理解這些數(shù)據(jù)。在自然語言處理中，Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射為固定長度的實數(shù)向量，這些向量包含了豐富的語義信息。RAG技術(shù)是一種結(jié)合信息檢索與文本生成能力的技術(shù)，它通過

發(fā)表于 01-17 19:53

掌握壓鑄鋁件氣密性檢測設備的正確打開方式-岳信儀器

氣密性檢測是保證壓鑄鋁件生產(chǎn)過程中產(chǎn)品質(zhì)量的關(guān)鍵環(huán)節(jié)。壓鑄鋁件氣密性檢測設備的正確開啟和使用，不僅可以提高檢測效率，而且可以保證檢測結(jié)果的準確性。下面將詳細介紹如何正確開啟和使用壓鑄鋁件氣密性檢測設備。首先，確保設備的適當使用環(huán)境。設備應放置在避免陽光直射、無強磁場和腐蝕性物品的地方。同時，要保證電源和氣源穩(wěn)定、干凈、無雜質(zhì)，盡可能干燥氣源，避免與其他氣動元

發(fā)表于 10-14 15:10 ?212次閱讀

掌握壓鑄鋁件氣密性檢測設備的正確<b class='flag-5'>打開方式</b>-岳信儀器

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡 -通用文件I/O模型之open

要打開的文件； flags為打開文件的標志位，控制打開方式； mode為可選參數(shù)，用于指定新創(chuàng)建文件的權(quán)限模式。如果指定的文件不存在，則可以通過在flags中指定O_CREAT，然后open()即可創(chuàng)建

發(fā)表于 10-11 08:56

飛凌嵌入式ElfBoard ELF 1板卡-通用文件I/O模型之open

的文件；flags為打開文件的標志位，控制打開方式；mode為可選參數(shù)，用于指定新創(chuàng)建文件的權(quán)限模式。如果指定的文件不存在，則可以通過在flags中指定O_CREAT，然后open()即可創(chuàng)建。flags

發(fā)表于 10-10 09:09

內(nèi)置誤碼率測試儀（BERT）和采樣示波器一體化測試儀器安立MP2110A

BERTWave MP2110A是一款內(nèi)置誤碼率測試儀(BERT)和采用示波器的一體化測量儀器，支持光模塊的誤碼率（BERT）測量、眼圖模式測試、眼圖分析等評估操作

發(fā)表于 09-23 14:34 ?471次閱讀

內(nèi)置誤碼率測試儀（<b class='flag-5'>BERT</b>）和采樣示波器一體化測試儀器安立MP2110A

M8020A J-BERT 高性能比特誤碼率測試儀

M8020A 比特誤碼率測試儀 J-BERT M8020A 高性能 BERT 產(chǎn)品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測試儀能夠快速、準確地表征傳輸速率高達 16 或

發(fā)表于 08-21 17:13 ?264次閱讀

換熱設備清洗的正確打開方式，不僅清洗效果好，而且安全無腐蝕

換熱器目前常用的換熱介質(zhì)多為水或蒸汽，在熱交換過程中，水或蒸汽中的鹽類和污垢容易析出導致結(jié)垢，產(chǎn)生的這些污垢會使設備和管道線路失效，裝置系統(tǒng)會發(fā)生生產(chǎn)下降，能耗、物耗增加等不良情況，污垢腐蝕特別嚴重時還會使流程中斷，裝置系統(tǒng)被迫停產(chǎn)，直接造成各種經(jīng)濟損失，甚至還有可能發(fā)生惡性生產(chǎn)事故。

發(fā)表于 08-12 15:33 ?658次閱讀

換熱設備清洗的正確<b class='flag-5'>打開方式</b>，不僅清洗效果好，而且安全無腐蝕

AWG和BERT常見問題解答

隨著信號的速率越來越高，調(diào)制格式越來越復雜，對測試儀器的性能要求也越來越高。是德科技也一直在推出業(yè)界領先的高帶寬、高采樣率的AWG和高性能的BERT。

發(fā)表于 08-06 17:27 ?801次閱讀

新品|酷暑的新打開方式：SXB3568主板

開源鴻蒙硬件方案領跑者觸覺智能選主板，接口雜太多？成本太高？性能不夠？來看看觸覺智能全新推出基于RockchipRK3568處理器開發(fā)設計的SXB3568商顯行業(yè)主板，低成本、高性能、全功能模塊拓展，帶你開啟暑期狂歡！RK3568系列產(chǎn)品采用瑞芯微SOC芯片RK3568，集成了四核Cortex-A55CPU，主頻高達2.0G。RK3568支持PCIE2.0/

發(fā)表于 07-13 08:33 ?391次閱讀

新品|酷暑的新<b class='flag-5'>打開方式</b>：SXB3568主板

請問esp32能不能自動找到信號最強的wifi ap進行連接？

你好，我的設置好多wifi ap 熱點，他們的ssid 和密碼都是相同。請問 esp32 能不能自動找到信號最強的wifi ap 進行連接。謝謝。

發(fā)表于 06-13 07:33

Jacob：純提效的工具，也許不是AI正確的打開方式

每一個新領域的誕生、每一個新企業(yè)的崛起，都是在建立新的連接，組成新的網(wǎng)絡結(jié)構(gòu)，形成新的壟斷形態(tài)。在別人穩(wěn)定的網(wǎng)絡里競爭，尤其是已經(jīng)存在頭部壟斷者，并存在明顯競爭規(guī)則的網(wǎng)絡里去尋求創(chuàng)新，屬于極度吃力不討好。互聯(lián)網(wǎng)時代的一個關(guān)鍵是“減少信息的不對稱性”，因為信息的不對稱，很多連接無法建立，甚至不知道可以建立，這些連接一旦建立，將釋放出比以往任何時候都更巨大的價值

發(fā)表于 05-24 08:05 ?129次閱讀