国产超碰人人做人人爱va九月,在线观看黄色高清无码

2020年初，新冠疫情席卷全球。除了“待在家，不亂跑”，我想還能從哪為抗擊疫情出點(diǎn)微薄之力呢？

碰巧室友推送了一個(gè)天池公益賽“新冠疫情相似句對(duì)判定大賽”，秉持“重在參與”的心態(tài)參加了比賽。經(jīng)過半個(gè)月的努力，最終結(jié)果勉強(qiáng)不錯(cuò)（第6），收割了一臺(tái)Kindle。

2021年1月，疫情形勢(shì)依然嚴(yán)峻，幸運(yùn)的是國(guó)家不僅及時(shí)穩(wěn)住了疫情，還研發(fā)出了有效的疫苗。借助疫情主題的比賽，我希望幫助更多讀者，入門自然語(yǔ)言處理的基本任務(wù)——文本匹配。

開源代碼：

https://github.com/yechens/COVID-19-sentence-pair

01 數(shù)據(jù)分析任務(wù)背景非常直觀，主辦方給定了“肺炎”、“支氣管炎”、“上呼吸道感染”等醫(yī)療背景下的用戶真實(shí)提問，要求選手通過算法識(shí)別任意2個(gè)問題，是否表達(dá)同一個(gè)意思。舉例：

問題1：“輕微感冒需不需要吃藥？”

問題2：“輕微感冒需要吃什么藥？”

問題1關(guān)心“是否得吃藥”，問題2關(guān)心“該吃什么藥”，側(cè)重點(diǎn)不同所以意思不同。

數(shù)據(jù)集樣本都是三元組（query1， query2， label）。為了降低難度，每一個(gè)問題的長(zhǎng)度被控制在20字以內(nèi)。

比賽的訓(xùn)練集、驗(yàn)證集分別包含8746、2001條三元組。我們從dev中隨機(jī)保留了800條樣本作為最終dev，其余均加入訓(xùn)練。

數(shù)據(jù)增強(qiáng)拿到數(shù)據(jù)簡(jiǎn)單分析后，我發(fā)現(xiàn)數(shù)據(jù)集已經(jīng)過清洗，竟然異常的干凈整齊（沒有雜亂的符號(hào)、不通順的句子），label分布幾乎也接近1:1。

再觀察數(shù)據(jù)，相同的query1總是按順序排列在一起，隨后跟著不同的query2。這種分布很容易想到一種數(shù)據(jù)增強(qiáng)策略：相似傳遞性。

A 《-》 B 相似 and A 《-》 C 相似 =》 B 《-》 C 相似

最終我額外獲得了5000條高質(zhì)量的數(shù)據(jù)，比賽準(zhǔn)確率因此提升了0.5%。

實(shí)體替換此外，我們也嘗試了訓(xùn)練一個(gè)NER模型挖掘文本中的醫(yī)療實(shí)體，如“胸膜炎”、“肺氣腫”，再通過word2vec查找最接近的實(shí)體進(jìn)行替換。

但這種方式并沒有提升最終結(jié)果。我覺得原因有2個(gè)：

1W條樣本規(guī)模偏小，NER模型識(shí)別誤差較大

詞向量沒有針對(duì)醫(yī)療場(chǎng)景訓(xùn)練，包含的醫(yī)療實(shí)體很少

02 匹配方法實(shí)現(xiàn)文本匹配有非常多簡(jiǎn)單又實(shí)用的方法，例如：

基于字符統(tǒng)計(jì)：字符串匹配、編輯距離、Jaccards距離

基于語(yǔ)言模型：word2vec/glove詞向量、BERT

基于神經(jīng)網(wǎng)絡(luò)：孿生網(wǎng)絡(luò)、TextCNN、DSSM、FastText等

由于比賽需要盡可能獲得高分，這里主要介紹基于神經(jīng)網(wǎng)絡(luò)和BERT的文本匹配算法。

BERT［1］是一種預(yù)訓(xùn)練語(yǔ)言模型，通過海量文本、Transformer架構(gòu)和MLM訓(xùn)練任務(wù)在眾多NLP任務(wù)上取得了優(yōu)異成果。對(duì)BERT不了解的讀者，可以參考我之前的文章“從BERT、XLNet到MPNet，細(xì)看NLP預(yù)訓(xùn)練模型發(fā)展變遷史”［2］。

比賽中我們測(cè)試了5-6種不同的神經(jīng)網(wǎng)絡(luò)方法，并最終選擇了3種在dev上表現(xiàn)最好的模型加權(quán)融合。具體可以參考文件。

文本CNN（TextCNN）TextCNN是Yoon Kim［3］在2014年提出的用于句子分類的卷積神經(jīng)網(wǎng)絡(luò)。文本匹配任務(wù)本質(zhì)上可以理解成二分類任務(wù)（0：不相似，1：相似），所以一般的分類模型也能滿足匹配需求。

與圖像中的二維卷積不同，TextCNN采用的是一維卷積，每個(gè)卷積核的大小為（h為卷積核窗口，k為詞向量維度）。文中采用了不同尺寸的卷積核，來(lái)提取不同文本長(zhǎng)度的特征。

然后，作者對(duì)于卷積核的輸出進(jìn)行最大池化操作，只保留最重要的特征。各個(gè)卷積核輸出經(jīng)MaxPooling后拼接形成一個(gè)新向量，最后輸出到全連接層分類器（Dropout + Linear + Softmax）實(shí)現(xiàn)分類。

我們知道，文本中的關(guān)鍵詞對(duì)于判斷2個(gè)句子是否相似有很大影響，而CNN局部卷積的特效能很好的捕捉這種關(guān)鍵特征。同時(shí)TextCNN還具有參數(shù)量小，訓(xùn)練穩(wěn)定等優(yōu)點(diǎn)。

文本RNN（TextRCNN）相比TextCNN，TextRCNN的模型結(jié)構(gòu)看起來(lái)復(fù)雜一些。

簡(jiǎn)單瀏覽論文后，會(huì)發(fā)現(xiàn)它的思路其實(shí)簡(jiǎn)單，粗暴。

首先通過詞向量獲得字符編碼，隨后將其通過雙向RNN學(xué)習(xí)上下文特征，編碼得到兩個(gè)方向的特征。

再將詞向量和、拼接得到新向量，輸入經(jīng)tanh函數(shù)激活的全連接網(wǎng)絡(luò)。最后，將網(wǎng)絡(luò)的輸出最大池化，并輸入另一個(gè)全連接分類器完成分類。

RNN模型對(duì)于長(zhǎng)文本有較好的上下文“記憶”能力，更適合處理文本這種包含時(shí)間序列的信息。

BERT+MLP（fine-tune）最后一種方法，直接用語(yǔ)言模型BERT最后一層Transformer的輸出，接一層Dense實(shí)現(xiàn)文本匹配。

實(shí)驗(yàn)中我們發(fā)現(xiàn)，對(duì)最終輸出的每個(gè)token特征取平均（MeanPooling）效果好于直接使用首字符“［CLS］”的特征。

模型權(quán)重上，崔一鳴等人［5］發(fā)布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

最后，我們根據(jù)這三種模型在dev上的準(zhǔn)確率設(shè)置了不同比重，通過自動(dòng)搜索找到最優(yōu)權(quán)重組合，在線上測(cè)試集取得了96.26%的準(zhǔn)確率。

讀者可以在“NLP情報(bào)局”后臺(tái)回復(fù)“文本匹配”直接下載模型論文。

03 漲分trick做一個(gè)深度學(xué)習(xí)主導(dǎo)的算法比賽，除了分析數(shù)據(jù)與模型，一些trick也是獲得高分的重要因素。這里羅列了一些常用策略。

數(shù)據(jù)增強(qiáng)［6］

標(biāo)簽平滑

自蒸餾

文本對(duì)抗訓(xùn)練［7］

模型融合

特征篩選

使用多個(gè)學(xué)習(xí)率［8］

針對(duì)這次文本匹配任務(wù)，數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑、模型融合、多學(xué)習(xí)率都被證明是有效的。

04 總結(jié)過去將近1年的天池“新冠疫情相似句對(duì)判定大賽”，任務(wù)并不復(fù)雜，是入門NLP項(xiàng)目實(shí)戰(zhàn)，提升編程能力的很好鍛煉機(jī)會(huì)。

比賽雖然結(jié)束了，疫情猶在。大家一定要保護(hù)好自己哦！

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4784

瀏覽量
101245
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1209

瀏覽量
24850
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22119

原文標(biāo)題：天池NLP賽道top指南

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

如何優(yōu)化自然語(yǔ)言處理模型的性能

優(yōu)化自然語(yǔ)言處理（NLP）模型的性能是一個(gè)多方面的任務(wù)，涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個(gè)環(huán)節(jié)。以下是一些具體的優(yōu)化策略：一、數(shù)據(jù)預(yù)

發(fā)表于 12-05 15:30 ?803次閱讀

如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)

使用自然語(yǔ)言處理（NLP）分析文本數(shù)據(jù)是一個(gè)復(fù)雜但系統(tǒng)的過程，涉及多個(gè)步驟和技術(shù)。以下是一個(gè)基本的流程，幫助你理解如何使用NLP來(lái)分析文本數(shù)據(jù)： 1. 數(shù)據(jù)收集收集

發(fā)表于 12-05 15:27 ?482次閱讀

自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系自然語(yǔ)言處理的基本概念及步驟

Learning，簡(jiǎn)稱ML）是人工智能的一個(gè)核心領(lǐng)域，它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)或決策。自然語(yǔ)言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系，因?yàn)闄C(jī)器學(xué)習(xí)提供了一種強(qiáng)大的工具，用于從大量文本數(shù)據(jù)中提取模式和知識(shí)，從而提高NLP系

發(fā)表于 12-05 15:21 ?770次閱讀

語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

在人工智能的快速發(fā)展中，語(yǔ)音識(shí)別和自然語(yǔ)言處理（NLP）成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使得機(jī)器能夠理解人類的語(yǔ)音，而自然語(yǔ)言處理則讓機(jī)器能夠理解、解釋和生成人類

發(fā)表于 11-26 09:21 ?619次閱讀

ASR與自然語(yǔ)言處理的結(jié)合

。以下是對(duì)ASR與自然語(yǔ)言處理結(jié)合的分析：一、ASR與NLP的基本概念 ASR（自動(dòng)語(yǔ)音識(shí)別）：專注于將人類的語(yǔ)音轉(zhuǎn)換為文字。涉及從聲音信號(hào)中提取特征，并將這些特征映射到文本。 NLP（

發(fā)表于 11-18 15:19 ?548次閱讀

使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語(yǔ)言處理任務(wù)

自然語(yǔ)言處理（NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，特別是循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）及其變體——長(zhǎng)短期記憶（LSTM）網(wǎng)絡(luò)的出現(xiàn)

發(fā)表于 11-13 09:56 ?495次閱讀

使用LLM進(jìn)行自然語(yǔ)言處理的優(yōu)缺點(diǎn)

語(yǔ)言任務(wù)，如文本分類、情感分析、機(jī)器翻譯等。以下是使用LLM進(jìn)行NLP的一些優(yōu)缺點(diǎn)：優(yōu)點(diǎn) 強(qiáng)大的語(yǔ)言理解能力： LLM通過訓(xùn)練學(xué)習(xí)了大量的語(yǔ)言

發(fā)表于 11-08 09:27 ?682次閱讀

自動(dòng)發(fā)電控制系統(tǒng)的基本任務(wù)

自動(dòng)發(fā)電控制系統(tǒng)（Automatic Generation Control，簡(jiǎn)稱AGC）在電力系統(tǒng)中扮演著至關(guān)重要的角色，其基本任務(wù)可以歸納為以下幾個(gè)方面：　　發(fā)電機(jī)輸出功率與總負(fù)荷功率匹配

發(fā)表于 10-03 15:03 ?752次閱讀

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類

發(fā)表于 07-09 10:26 ?1324次閱讀

自然語(yǔ)言處理技術(shù)有哪些

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)分支，它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語(yǔ)言。自然語(yǔ)言

發(fā)表于 07-03 14:30 ?1401次閱讀

自然語(yǔ)言處理模式的優(yōu)點(diǎn)

得到了廣泛的應(yīng)用，如搜索引擎、語(yǔ)音助手、機(jī)器翻譯、情感分析等。 1. 提高信息獲取效率 自然語(yǔ)言處理技術(shù)能夠快速地從大量文本數(shù)據(jù)中提取關(guān)鍵信息，幫助用戶節(jié)省查找和篩選信息的時(shí)間。例如，搜索引擎通過NLP技術(shù)理解用戶的查詢意圖，提

發(fā)表于 07-03 14:24 ?887次閱讀

自然語(yǔ)言處理技術(shù)的核心是什么

，廣泛應(yīng)用于機(jī)器翻譯、情感分析、語(yǔ)音識(shí)別、智能問答、文本摘要等眾多領(lǐng)域。 自然語(yǔ)言處理技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代。1950年，圖靈提出了著名的圖靈測(cè)試，標(biāo)志著自然語(yǔ)言

發(fā)表于 07-03 14:20 ?902次閱讀

自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支，它涉及到使用計(jì)算機(jī)技術(shù)來(lái)處理、分析和生成

發(fā)表于 07-03 14:18 ?1195次閱讀

自然語(yǔ)言處理包括哪些內(nèi)容

自然語(yǔ)言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)與人類語(yǔ)言之間的交互。NLP的目標(biāo)是讓計(jì)算機(jī)能夠理解、生成和處理

發(fā)表于 07-03 14:15 ?1230次閱讀

什么是自然語(yǔ)言處理 (NLP)

理解和處理自然語(yǔ)言文本，從而實(shí)現(xiàn)人機(jī)交互的流暢和自然。NLP不僅關(guān)注理論框架的建立，還側(cè)重于實(shí)際技術(shù)的開發(fā)和應(yīng)用，廣泛應(yīng)用于法律、醫(yī)療、教育、安全、工業(yè)、金融等多個(gè)領(lǐng)域。

發(fā)表于 07-02 18:16 ?1356次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

入門自然語(yǔ)言處理的基本任務(wù)——文本匹配

評(píng)論

如何優(yōu)化自然語(yǔ)言處理模型的性能

如何使用自然語(yǔ)言處理分析文本數(shù)據(jù)

自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的關(guān)系自然語(yǔ)言處理的基本概念及步驟

語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

ASR與自然語(yǔ)言處理的結(jié)合

使用LSTM神經(jīng)網(wǎng)絡(luò)處理自然語(yǔ)言處理任務(wù)

使用LLM進(jìn)行自然語(yǔ)言處理的優(yōu)缺點(diǎn)

自動(dòng)發(fā)電控制系統(tǒng)的基本任務(wù)

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

自然語(yǔ)言處理技術(shù)有哪些

自然語(yǔ)言處理模式的優(yōu)點(diǎn)

自然語(yǔ)言處理技術(shù)的核心是什么

自然語(yǔ)言處理是什么技術(shù)的一種應(yīng)用

自然語(yǔ)言處理包括哪些內(nèi)容

什么是自然語(yǔ)言處理 (NLP)