男人的天堂av东京热,日韩av中文字幕在线不卡

本文介紹了本小組發(fā)表于EMNLP2022 Industry Track的論文SimANS，其設(shè)計了一簡單有效的通用困惑負樣本采樣方法，在5個數(shù)據(jù)集上提升了SOTA的稠密檢索模型的效果。

論文下載地址：https://arxiv.org/pdf/2210.11773.pdf

論文開源代碼：https://github.com/microsoft/SimXNS

前言

在各類檢索任務(wù)中，為訓(xùn)練好一個高質(zhì)量的檢索模型，往往需要從大量的候選樣本集合中采樣高質(zhì)量的負例，配合正例一起進行訓(xùn)練。已有的負采樣方法往往采用隨機采樣策略（Random Sampling）或直接基于該檢索模型自身選擇Top-K負例（Top-K Hard Negative Sampling），前者易得到過于簡單的樣例，無法為模型訓(xùn)練提供足夠信息；后者很可能采樣得到假負例（False Negative），反而干擾模型訓(xùn)練。本文針對稠密檢索場景，通過一系列基于負例梯度的實驗對隨機采樣和Top-K采樣兩種方式導(dǎo)致的問題進行分析，發(fā)現(xiàn)前一種負例產(chǎn)生的梯度均值較小、后一種負例產(chǎn)生的梯度方差較大，這兩者都不利于檢索模型訓(xùn)練。此外，以上實驗還發(fā)現(xiàn)，在所有負例候選中，與Query的語義相似度接近于正例的負例可以同時具有較大的梯度均值和較小的梯度方差，是更加高質(zhì)量的困惑負樣本。因此我們設(shè)計了一個簡單的困惑負樣本采樣方法SimANS，在4個篇章和文檔檢索數(shù)據(jù)集，以及Bing真實數(shù)據(jù)集上均成功提升了SOTA模型的效果，且該方法已經(jīng)應(yīng)用于Bing搜索系統(tǒng)。

一、研究背景與動機

1、稠密檢索

給出用戶的查詢Query，檢索任務(wù)關(guān)注于從大量的候選文檔集中檢索最相關(guān)的Top-K文檔。隨著近年來文本表示方法的發(fā)展，稠密檢索任務(wù)開始成為該任務(wù)的主流方法，其通常采用一雙塔模型架構(gòu)，分別將查詢Query和候選Document轉(zhuǎn)換成低維的稠密表示，然后基于Query和Document稠密表示的點積來預(yù)測兩者的語義相關(guān)性，并依此進行候選文檔的排序。這一計算方式支持ANN等方法加速，故可以推廣到千萬級別文檔的查詢。

近年來，由于預(yù)訓(xùn)練語言模型的出現(xiàn)，已有的稠密檢索方法往往采用預(yù)訓(xùn)練語言模型作為Query和Document的Encoder，然后將其編碼后生成的[CLS]表示作為其稠密表示。

2、負采樣方法

為訓(xùn)練該稠密檢索模型，已有方法通?；谝粚Ρ葘W(xué)習(xí)訓(xùn)練目標(biāo)，即拉近語義一致的Query和Document的表示（Positive），并推遠語義無關(guān)的Document（Negative）。由于在大量的候選文檔集中，大量的文檔都是語義無關(guān)的，故需要采用一合適的負采樣方法，從中選擇高質(zhì)量的負例來進行訓(xùn)練，依此減少需要的負樣本數(shù)量。

2.1.隨機負采樣

該類方法直接基于一均勻分布從所有的候選Document中隨機抽取Document作為負例，這一過程中由于無法保證采樣得到的負例的質(zhì)量，故經(jīng)常會采樣得到過于簡單的負例，其不僅無法給模型帶來有用信息，還可能導(dǎo)致模型過擬合，進而無法區(qū)分某些較難的負例樣本。

2.2.Top-K負采樣

該類方法往往基于一稠密檢索模型對所有候選Document與Query計算匹配分?jǐn)?shù)，然后直接選擇其中Top-K的候選Document作為負例。該方法雖然可以保證采樣得到的負例是模型未能較好區(qū)分的較難負例，但是其很可能將潛在的正例也誤判為負例，即假負例（False Negative）。如果訓(xùn)練模型去將該部分假負例與正例區(qū)分開來，反而會導(dǎo)致模型無法準(zhǔn)確衡量Query-Document的語義相似度。

二、先導(dǎo)實驗

1、理論分析不同負例訓(xùn)練時對梯度的影響

以稠密檢索常用的BCE loss為例，正例與采樣的負例在計算完語義相似度分?jǐn)?shù)后，均會被softmax歸一化，之后計算得到的梯度如下所示：

上式中是經(jīng)過softmax歸一化后的語義相似度分?jǐn)?shù)。對于隨機采樣方法，由于其采樣得到的負例往往過于簡單，其會導(dǎo)致該分?jǐn)?shù)接近于零，，進而導(dǎo)致其生成的梯度均值也接近于零，，這樣過于小的梯度均值會導(dǎo)致模型不易于收斂。對于Top-K采樣方法，由于其很容易采樣得到語義與正例一致的假負例，其會導(dǎo)致正負樣本的右項值相似，但是左項符號相反，這樣會導(dǎo)致計算得到的梯度方差很大，同樣導(dǎo)致模型訓(xùn)練不穩(wěn)定。

2、實驗驗證不同負例的梯度與語義相似度關(guān)系

我們基于SOTA的稠密檢索模型AR2，在MS-MARCO數(shù)據(jù)集上，首先計算候選Document與Query的語義相似度分?jǐn)?shù)，然后將這些Document進行排序，并計算其梯度的均值與方差。如下圖所示，我們可以看到實驗結(jié)論與以上分析一致，排名靠前的Top-K負例產(chǎn)生的梯度均值和方差均很大；而排名靠后的負例產(chǎn)生的均值和方差均很小，兩者不能很好的平衡大均值和小方差這兩個很重要的負例性質(zhì)。作為對比的是，與正例語義相似度接近的負例往往能夠同時取得較大的梯度均值和較小的梯度方差，有利于模型訓(xùn)練。我們將其命名為困惑樣本（既不過于難又不過于容易區(qū)分），并關(guān)注于對其進行采樣。

三、SimANS：簡單的困惑樣本采樣方法

基于上述實驗，我們考慮對與正例語義相似度接近的困惑負例樣本進行采樣。故設(shè)計的采樣方法應(yīng)該具有以下特點：(1)與Query無關(guān)的Document應(yīng)被賦予較低的相關(guān)分?jǐn)?shù)，因其可提供的信息量不足；(2)與Query很可能相關(guān)的Document應(yīng)被賦予較低的相關(guān)分?jǐn)?shù)，因其可能是假負例；(3)與正例語義相似度接近的Document應(yīng)該被賦予較高的相關(guān)分?jǐn)?shù)，因其既需要被學(xué)習(xí)，同時是假負例的概率相對較低。

困惑樣本采樣分布

通過以上分析可得，在該采樣分布中，隨著Query與候選Document相關(guān)分?jǐn)?shù)和與正例的相關(guān)分?jǐn)?shù)的差值的縮小，該候選Document被采樣作為負例的概率應(yīng)該逐漸增大，故可將該差值作為輸入，配合任意一單調(diào)遞減函數(shù)即可實現(xiàn)（如）。故可設(shè)計采樣分布如下所示：

其中為控制該分布密度的超參數(shù)，為控制該分布極值點的超參數(shù)，是一隨機采樣的正例樣本，是Top-K的負例。通過調(diào)節(jié)K的大小，我們可以控制該采樣分布的計算開銷。以下為該采樣方法具體實現(xiàn)的偽代碼：

四、實驗結(jié)果

1、主實驗

我們在4個公開的文檔檢索數(shù)據(jù)集上進行實驗，分別是Natural Question（NQ）、Trivia QA（TQ）、MS-MARCO Passage Ranking（MS-Pas）和MS-MARCO Document Ranking（MS-Doc）數(shù)據(jù)集；同時還在Bing真實工業(yè)數(shù)據(jù)集上進行實驗，實驗結(jié)果如下表所示。通過對比可以清晰地看出我們的方法可以提升SOTA的AR2模型的效果，進一步領(lǐng)先其他模型。

2、該負采樣方法的通用性

我們還在RocketQA和ANCE這兩個經(jīng)典的稠密檢索模型上實現(xiàn)了我們提出的SimANS方法，來提升這些模型的性能?？梢钥闯觯诓捎迷摲椒ㄖ?，以上兩個模型的的表現(xiàn)都超過了原始模型，證明了我們提出的方法的通用性。

3、負采樣分布的可視化

在實驗的最后，我們將SimANS得到的采樣分布制作成圖，可以看到我們的采樣分布函數(shù)確實能夠懲罰過于難和過于簡單的負例，并保證與正例的語義相似度接近的負例的采樣概率較大。實現(xiàn)了我們的設(shè)計初衷。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

參數(shù)

參數(shù)

+關(guān)注

關(guān)注
11

文章
1860

瀏覽量
32449
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
542

瀏覽量
10344
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1209

瀏覽量
24850

原文標(biāo)題：EMNLP2022 | SimANS：簡單有效的困惑負樣本采樣方法

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

機器學(xué)習(xí)的5種采樣方法介紹

一種廣泛采用的處理高度不平衡數(shù)據(jù)集的技術(shù)稱為重采樣。它包括從多數(shù)類（欠采樣）中刪除樣本或向少數(shù)類（過采樣）中添加更多示例。

發(fā)表于 05-17 09:53 ?5709次閱讀

PCB接地設(shè)計寶典4：采樣時鐘考量和混合信號接地的困惑根源

的噪聲源來自rms采樣時鐘抖動tj。通過簡單示例可知，如果tj = 50 ps (rms)，f = 100 kHz，則SNR = 90 dB，相當(dāng)于約15位的動態(tài)范圍。應(yīng)注意，以上示例中的tj 實際上

發(fā)表于 11-20 10:58

怎么使用UART向PC發(fā)送數(shù)字樣本

你好，我正在研究我們的語音信號，并使用UART向PC發(fā)送這些數(shù)字樣本，并使用超終端在PC中進行采集。問題是我丟失了很多樣品。對于16000個BPS采樣率，我只收集每秒1600個樣本。我沒有使用DMA

發(fā)表于 04-28 10:28

一種先分割后分類的兩階段同步端到端缺陷檢測方法

作者：SFXiang首發(fā)：AI算法修煉營本文是一種端到端的先分割后分類的表面缺陷檢測方法。主要的創(chuàng)新點在于如何將兩類任務(wù)更好地進行同步學(xué)習(xí)，本文首先平衡分割損失和分類損失，然后對負樣本的采樣

發(fā)表于 07-24 11:01

有什么簡單可行的方法可以實現(xiàn)負壓輸出呢

BUCK電路的接法是怎樣的？有什么簡單可行的方法可以實現(xiàn)負壓輸出呢？

發(fā)表于 11-03 07:16

測量功率二極管的反向恢復(fù)時間簡單有效方法

測量功率二極管的反向恢復(fù)時間簡單有效方法在互聯(lián)網(wǎng)上很少看到測量二極管的反向恢復(fù)時間(trr and Irr)簡單有效

發(fā)表于 11-11 09:48 ?101次下載

什么是采樣頻率?什么叫采樣頻率

什么是采樣頻率?什么叫采樣頻率采樣頻率：即取樣頻率,指每秒鐘取得聲音樣本的次數(shù).它的采樣頻率越高,聲音的

發(fā)表于 05-04 19:42 ?2.2w次閱讀

入侵檢測樣本數(shù)據(jù)優(yōu)化方法

，分析了算法的時間復(fù)雜度。實驗結(jié)果表明，該方法可有效減少數(shù)據(jù)信息損失，具有迭代次數(shù)少、收斂速度快等優(yōu)點，可有效提高入侵檢測樣本數(shù)據(jù)的優(yōu)化效率。

發(fā)表于 02-26 10:29 ?0次下載

經(jīng)典的采樣方法有哪些？

可以看到蒙特卡洛法其實就是按一定的概率分布中獲取大量樣本，用于計算函數(shù)在樣本的概率分布上的期望。其中最關(guān)鍵的一個步驟就是如何按照指定的概率分布 p 進行樣本采樣，拋硬幣這個 case

發(fā)表于 07-09 09:43 ?1.4w次閱讀

基于構(gòu)造性覆蓋算法的過采樣技術(shù)CMOTE

如何提高對少數(shù)類樣本的識別能力是不平衡數(shù)據(jù)分類中的一個研究熱點。合成少數(shù)類過采樣技術(shù)（ SMOTE）是解決此類問題的代表性方法之一。近年來，不少研究者對 SMOTE做出了一些改進，較好地提高了該

發(fā)表于 04-12 16:09 ?5次下載

一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡單、廣譜的方法

針對上述挑戰(zhàn)，中國科學(xué)院蘇州納米所裴仁軍研究團隊利用單寧酸（TA）功能化磁性納米顆粒（MNPs），建立了一種從患者血液樣本中有效分離異質(zhì)性CTCs的簡單、廣譜的方法。

發(fā)表于 06-11 09:19 ?2189次閱讀

基于有效樣本的類別不平衡損失

導(dǎo)讀使用每個類的有效樣本數(shù)量來重新為每個類的Loss分配權(quán)重，效果優(yōu)于RetinaNet中的Focal Loss。本文綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效

發(fā)表于 08-16 11:14 ?1955次閱讀

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述來源：《系統(tǒng)工程與電子技術(shù)》，作者潘崇煜等摘要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的數(shù)據(jù)，使得其在數(shù)據(jù)缺乏的特殊領(lǐng)域內(nèi)應(yīng)用嚴(yán)重受限。面對數(shù)據(jù)缺乏

發(fā)表于 02-09 11:22 ?2384次閱讀

雙塔模型擴量負樣本的方法比較

雙塔模型在訓(xùn)練時是對一個batch內(nèi)樣本訓(xùn)練。一個batch內(nèi)每個樣本 (user和item對)為正樣本，該user與batch內(nèi)其它item為負樣

發(fā)表于 07-08 10:57 ?1253次閱讀

基于有效樣本數(shù)的類平衡損失

本文綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效樣本數(shù)的類平衡損失(CB損失)。

發(fā)表于 08-25 09:41 ?1275次閱讀