欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

Dbwd_Imgtec ? 2018-01-18 09:24 ? 次閱讀

近年來(lái),基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實(shí)體識(shí)別(Named Entity Recognition,NER)也不例外,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在NER中也取得了不錯(cuò)的效果。最近,本文作者也閱讀學(xué)習(xí)了一系列使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行NER的相關(guān)論文,在此進(jìn)行一下總結(jié),和大家一起分享學(xué)習(xí)。

1 引言

命名實(shí)體識(shí)別(Named Entity Recognition,NER)就是從一段自然語(yǔ)言文本中找出相關(guān)實(shí)體,并標(biāo)注出其位置以及類型,如下圖。它是NLP領(lǐng)域中一些復(fù)雜任務(wù)(例如關(guān)系抽取,信息檢索等)的基礎(chǔ)。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

NER一直是NLP領(lǐng)域中的研究熱點(diǎn),從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機(jī)器學(xué)習(xí)的方法,到近年來(lái)基于深度學(xué)習(xí)的方法,NER研究進(jìn)展的大概趨勢(shì)大致如下圖所示。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

在基于機(jī)器學(xué)習(xí)的方法中,NER被當(dāng)作是序列標(biāo)注問(wèn)題。與分類問(wèn)題相比,序列標(biāo)注問(wèn)題中當(dāng)前的預(yù)測(cè)標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測(cè)標(biāo)簽相關(guān),即預(yù)測(cè)標(biāo)簽序列之間是有強(qiáng)相互依賴關(guān)系的。例如,使用BIO標(biāo)簽策略進(jìn)行NER時(shí),正確的標(biāo)簽序列中標(biāo)簽O后面是不會(huì)接標(biāo)簽I的。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

在傳統(tǒng)機(jī)器學(xué)習(xí)中,條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)是NER目前的主流模型。它的目標(biāo)函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且還包含了標(biāo)簽轉(zhuǎn)移特征函數(shù)。在訓(xùn)練時(shí)可以使用SGD學(xué)習(xí)模型參數(shù)。在已知模型時(shí),給輸入序列求預(yù)測(cè)輸出序列即求使目標(biāo)函數(shù)最大化的最優(yōu)序列,是一個(gè)動(dòng)態(tài)規(guī)劃問(wèn)題,可以使用維特比算法進(jìn)行解碼。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

在傳統(tǒng)機(jī)器學(xué)習(xí)方法中,常用的特征如下:

接下里我們重點(diǎn)看看如何使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行NER 。

2 NER中主流的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

2.1 NN/CNN-CRF模型

《Natural language processing (almost) from scratch》是較早使用神經(jīng)網(wǎng)絡(luò)進(jìn)行NER的代表工作之一。在這篇論文中,作者提出了窗口方法與句子方法兩種網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行NER。這兩種結(jié)構(gòu)的主要區(qū)別就在于窗口方法僅使用當(dāng)前預(yù)測(cè)詞的上下文窗口進(jìn)行輸入,然后使用傳統(tǒng)的NN結(jié)構(gòu);而句子方法是以整個(gè)句子作為當(dāng)前預(yù)測(cè)詞的輸入,加入了句子中相對(duì)位置特征來(lái)區(qū)分句子中的每個(gè)詞,然后使用了一層卷積神經(jīng)網(wǎng)絡(luò)CNN結(jié)構(gòu)。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

在訓(xùn)練階段,作者也給出了兩種目標(biāo)函數(shù):一種是詞級(jí)別的對(duì)數(shù)似然,即使用softmax來(lái)預(yù)測(cè)標(biāo)簽概率,當(dāng)成是一個(gè)傳統(tǒng)分類問(wèn)題;另一種是句子級(jí)別的對(duì)數(shù)似然,其實(shí)就是考慮到CRF模型在序列標(biāo)注問(wèn)題中的優(yōu)勢(shì),將標(biāo)簽轉(zhuǎn)移得分加入到了目標(biāo)函數(shù)中。后來(lái)許多相關(guān)工作把這個(gè)思想稱為結(jié)合了一層CRF層,所以我這里稱為NN/CNN-CRF模型。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

在作者的實(shí)驗(yàn)中,上述提到的NN和CNN結(jié)構(gòu)效果基本一致,但是句子級(jí)別似然函數(shù)即加入CRF層在NER的效果上有明顯提高。

2.2 RNN-CRF模型

借鑒上面的CRF思路,在2015年左右出現(xiàn)了一系列使用RNN結(jié)構(gòu)并結(jié)合CRF層進(jìn)行NER的工作。代表工作主要有:將這些工作總結(jié)起來(lái)就是一個(gè)RNN-CRF模型,模型結(jié)構(gòu)如下圖:

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

它主要有Embedding層(主要有詞向量,字符向量以及一些額外特征),雙向RNN層,tanh隱層以及最后的CRF層構(gòu)成。它與之前NN/CNN-CRF的主要區(qū)別就是他使用的是雙向RNN代替了NN/CNN。這里RNN常用LSTM或者GRU。實(shí)驗(yàn)結(jié)果表明RNN-CRF獲得了更好的效果,已經(jīng)達(dá)到或者超過(guò)了基于豐富特征的CRF模型,成為目前基于深度學(xué)習(xí)的NER方法中的最主流模型。在特征方面,該模型繼承了深度學(xué)習(xí)方法的優(yōu)勢(shì),無(wú)需特征工程,使用詞向量以及字符向量就可以達(dá)到很好的效果,如果有高質(zhì)量的詞典特征,能夠進(jìn)一步獲得提高。

3 最近的一些工作

最近的一年在基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的NER研究上,主要集中在兩個(gè)方面:一是使用流行的注意力機(jī)制來(lái)提高模型效果(Attention Mechanism),二是針對(duì)少量標(biāo)注訓(xùn)練數(shù)據(jù)進(jìn)行的一些研究。

3.1 Attention-based

《Attending to Characters in Neural Sequence Labeling Models》該論文還是在RNN-CRF模型結(jié)構(gòu)基礎(chǔ)上,重點(diǎn)改進(jìn)了詞向量與字符向量的拼接。使用attention機(jī)制將原始的字符向量和詞向量拼接改進(jìn)為了權(quán)重求和,使用兩層傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隱層來(lái)學(xué)習(xí)attention的權(quán)值,這樣就使得模型可以動(dòng)態(tài)地利用詞向量和字符向量信息。實(shí)驗(yàn)結(jié)果表明比原始的拼接方法效果更好。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

另一篇論文《Phonologically aware neural model for named entity recognition in low resource transfer settings》,在原始BiLSTM-CRF模型上,加入了音韻特征,并在字符向量上使用attention機(jī)制來(lái)學(xué)習(xí)關(guān)注更有效的字符,主要改進(jìn)如下圖。

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

3.2 少量標(biāo)注數(shù)據(jù)

對(duì)于深度學(xué)習(xí)方法,一般需要大量標(biāo)注數(shù)據(jù),但是在一些領(lǐng)域并沒(méi)有海量的標(biāo)注數(shù)據(jù)。所以在基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方法中如何使用少量標(biāo)注數(shù)據(jù)進(jìn)行NER也是最近研究的重點(diǎn)。其中包括了遷移學(xué)習(xí)《Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks》和半監(jiān)督學(xué)習(xí)。這里我提一下最近ACL2017剛錄用的一篇論文《Semi-supervised sequence tagging with bidirectional language models》。該論文使用海量無(wú)標(biāo)注語(yǔ)料庫(kù)訓(xùn)練了一個(gè)雙向神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,然后使用這個(gè)訓(xùn)練好的語(yǔ)言模型來(lái)獲取當(dāng)前要標(biāo)注詞的語(yǔ)言模型向量(LM embedding),然后將該向量作為特征加入到原始的雙向RNN-CRF模型中。實(shí)驗(yàn)結(jié)果表明,在少量標(biāo)注數(shù)據(jù)上,加入這個(gè)語(yǔ)言模型向量能夠大幅度提高NER效果,即使在大量的標(biāo)注訓(xùn)練數(shù)據(jù)上,加入這個(gè)語(yǔ)言模型向量仍能提供原始RNN-CRF模型的效果。整體模型結(jié)構(gòu)如下圖:

基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

4 總結(jié)

最后進(jìn)行一下總結(jié),目前將神經(jīng)網(wǎng)絡(luò)與CRF模型相結(jié)合的NN/CNN/RNN-CRF模型成為了目前NER的主流模型。我認(rèn)為對(duì)于CNN與RNN,并沒(méi)有誰(shuí)占據(jù)絕對(duì)的優(yōu)勢(shì),各自有相應(yīng)的優(yōu)點(diǎn)。由于RNN有天然的序列結(jié)構(gòu),所以RNN-CRF使用更為廣泛。基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的NER方法,繼承了深度學(xué)習(xí)方法的優(yōu)點(diǎn),無(wú)需大量人工特征。只需詞向量和字符向量就能達(dá)到主流水平,加入高質(zhì)量的詞典特征能夠進(jìn)一步提升效果。對(duì)于少量標(biāo)注訓(xùn)練集問(wèn)題,遷移學(xué)習(xí),半監(jiān)督學(xué)習(xí)應(yīng)該是未來(lái)研究的重點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4782

    瀏覽量

    101216
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22114

原文標(biāo)題:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別(NER)中的應(yīng)用

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    粒子群優(yōu)化模糊神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別的應(yīng)用

    的研究具有重要意義.模糊神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)和模糊系統(tǒng)相結(jié)合的新型網(wǎng)絡(luò)結(jié)構(gòu),把它應(yīng)用于語(yǔ)音識(shí)別系統(tǒng),使系統(tǒng)不僅具有非線性、自適應(yīng)性、魯棒性和自學(xué)習(xí)等
    發(fā)表于 05-06 09:05

    HanLP分詞命名實(shí)體提取詳解

    可能詞) 5.極速詞典分詞(速度快,精度一般) 6.用戶自定義詞典 7.標(biāo)準(zhǔn)分詞(HMM-Viterbi) 命名實(shí)體識(shí)別 1.實(shí)體機(jī)構(gòu)名識(shí)別(層疊HMM-Viterbi) 2.中國(guó)人名
    發(fā)表于 01-11 14:32

    基于結(jié)構(gòu)化感知機(jī)的詞性標(biāo)注與命名實(shí)體識(shí)別框架

    `上周就關(guān)于《結(jié)構(gòu)化感知機(jī)標(biāo)注框架的內(nèi)容》已經(jīng)分享了一篇《分詞工具Hanlp基于感知機(jī)的中文分詞框架》,本篇接上一篇內(nèi)容,繼續(xù)分享詞性標(biāo)注與命名實(shí)體識(shí)別框架的內(nèi)容。詞性標(biāo)注訓(xùn)練詞性標(biāo)注是分詞后緊接著
    發(fā)表于 04-08 14:57

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    的拓?fù)?b class='flag-5'>結(jié)構(gòu),即將高位空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層的鄰近神經(jīng)元。SOM神經(jīng)網(wǎng)絡(luò)的輸出層
    發(fā)表于 07-21 04:30

    HanLP-命名實(shí)體識(shí)別總結(jié)

    的中國(guó)人名自動(dòng)識(shí)別研究》,大家可以百度一下看看 地名識(shí)別 理論指導(dǎo)文章為:《基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別》 機(jī)構(gòu)名識(shí)別 機(jī)構(gòu)名的
    發(fā)表于 07-31 13:11

    神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索有什么優(yōu)勢(shì)?

    ,稍有不同就無(wú)法復(fù)現(xiàn)論文的結(jié)果。而網(wǎng)絡(luò)結(jié)構(gòu)作為一種特殊的超參數(shù),深度學(xué)習(xí)整個(gè)環(huán)節(jié)扮演著舉足輕重的角色。圖像分類任務(wù)上大放異彩的ResNet、
    發(fā)表于 09-11 11:52

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    分析了目前的特殊模型結(jié)構(gòu),最后總結(jié)并討論了卷積神經(jīng)網(wǎng)絡(luò)相關(guān)領(lǐng)域的應(yīng)用,并對(duì)未來(lái)的研究方向進(jìn)行展望。卷積
    發(fā)表于 08-02 10:39

    新型中文旅游文本命名實(shí)體識(shí)別設(shè)計(jì)方案

    注意力網(wǎng)絡(luò)獲取單詞間的序列信息和關(guān)鍵單詞信息,采用字符引導(dǎo)注意力網(wǎng)絡(luò)捕獲字符語(yǔ)義信息和字符間的位置信息,增強(qiáng)單詞和字符間的關(guān)聯(lián)性與互補(bǔ)性,從而實(shí)現(xiàn)中文旅游文本命名實(shí)體
    發(fā)表于 03-11 11:26 ?24次下載
    新型中文旅游文本<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>設(shè)計(jì)方案

    一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法

    為提升網(wǎng)絡(luò)結(jié)構(gòu)的尋優(yōu)能力,提岀一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)間距難以度量的問(wèn)題,結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方案,設(shè)計(jì)基于圖的深
    發(fā)表于 03-16 14:05 ?3次下載
    一種改進(jìn)的深度<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)</b>搜索方法

    命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

    的訓(xùn)練數(shù)據(jù)是非常困難的。命名實(shí)體識(shí)別引λ遷移學(xué)習(xí),利用源堿數(shù)據(jù)和模型完成目標(biāo)堿任務(wù)模型構(gòu)建,提高目標(biāo)領(lǐng)域的標(biāo)注數(shù)據(jù)量和降低目標(biāo)堿模型對(duì)標(biāo)注欻據(jù)數(shù)量的濡求,
    發(fā)表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>的遷移學(xué)習(xí)相關(guān)研究<b class='flag-5'>分析</b>

    神經(jīng)網(wǎng)絡(luò)控制的應(yīng)用總結(jié)

    神經(jīng)網(wǎng)絡(luò)控制的應(yīng)用總結(jié)說(shuō)明。
    發(fā)表于 04-21 09:51 ?7次下載

    幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的比較與分析

    幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的比較與分析說(shuō)明。
    發(fā)表于 04-28 10:11 ?3次下載

    基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別方法

    基于神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別過(guò)程中,字的向量化表示是重要步驟,而傳統(tǒng)的詞向量表示方法只是將字映射為單一向量,無(wú)法表征字的多義性。針對(duì)該問(wèn)題,通過(guò)嵌入BERT預(yù)訓(xùn)練語(yǔ)言模型,構(gòu)建BE
    發(fā)表于 06-03 11:30 ?3次下載

    關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

    引言 命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子任務(wù),旨在識(shí)別結(jié)構(gòu)化文本
    的頭像 發(fā)表于 09-22 16:05 ?3192次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    Learning)的應(yīng)用,通過(guò)運(yùn)用多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以自動(dòng)地進(jìn)行特征提取和學(xué)習(xí),進(jìn)而實(shí)現(xiàn)圖像分類、物體識(shí)別、目標(biāo)檢測(cè)、語(yǔ)音識(shí)別和自然語(yǔ)言翻譯等任務(wù)。 卷積神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 08-17 16:30 ?1302次閱讀