欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:復(fù)旦DISC ? 作者:石靄青 ? 2021-09-22 16:05 ? 次閱讀

引言

命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子任務(wù),旨在識(shí)別非結(jié)構(gòu)化文本中屬于預(yù)先定義的類別的命名實(shí)體,例如人名、組織、地點(diǎn)等。命名實(shí)體識(shí)別通常被視為一個(gè)序列標(biāo)注任務(wù)。

ACL-IJCNLP 2021 收錄的論文中,共有30余篇論文與命名實(shí)體識(shí)別相關(guān),其中4篇論文關(guān)注中文命名實(shí)體識(shí)別。本次推送將分享 ACL-IJCNLP 2021 中與中文命名實(shí)體識(shí)別相關(guān)的3篇論文。

文章概覽

增強(qiáng)實(shí)體邊界檢測(cè)以提升中文命名實(shí)體識(shí)別

Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition

論文地址:https://aclanthology.org/2021.acl-short.4/

這篇文章研究了中文命名實(shí)體識(shí)別中的邊界檢測(cè)增強(qiáng)方法,探索從兩個(gè)方面來(lái)增強(qiáng)實(shí)體邊界信息:一是增加一個(gè)圖注意力網(wǎng)絡(luò)層來(lái)捕捉句子中詞之間的依賴關(guān)系;二是將實(shí)體首尾詞匯的預(yù)測(cè)看作是兩個(gè)獨(dú)立的二分類問(wèn)題,作為輔助任務(wù)加入訓(xùn)練。實(shí)驗(yàn)證明,文章所提出的邊界增強(qiáng)模型對(duì)于實(shí)體邊界和實(shí)體類型的識(shí)別有提升,并且在書(shū)面與非書(shū)面文本上都有效果,在OntoNotes4、OntoNotes5等數(shù)據(jù)集上達(dá)到了SOTA效果。

帶有語(yǔ)音線索的大規(guī)模中文多模態(tài)NER數(shù)據(jù)集

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

論文地址:https://aclanthology.org/2021.acl-long.218/

這篇文章對(duì)于融合文本和語(yǔ)音多模態(tài)的中文命名實(shí)體識(shí)別進(jìn)行了探索。文章首先構(gòu)建了一個(gè)大規(guī)模的中文多模態(tài)嵌套命名實(shí)體識(shí)別數(shù)據(jù)集CNERTA,并提出了一個(gè)多模態(tài)多任務(wù)的模型,通過(guò)引入一個(gè)speech-to-text對(duì)齊的輔助任務(wù)來(lái)利用語(yǔ)音模態(tài)中蘊(yùn)含的停頓信息進(jìn)而有助于分詞。實(shí)驗(yàn)顯示論文提出的模型在CNERTA上達(dá)到了SOTA效果。

提高模型泛化能力:中文命名實(shí)體識(shí)別案例研究

Improving Model Generalization: A Chinese Named Entity Recognition Case Study

論文地址:https://aclanthology.org/2021.acl-short.125/

這篇論文主要研究了數(shù)據(jù)集中的數(shù)據(jù)偏差對(duì)于模型泛化能力的影響。文章通過(guò)分析五個(gè)基準(zhǔn)中文NER數(shù)據(jù)集,確定了兩種可能影響模型泛化能力的數(shù)據(jù)偏差,并提出一種實(shí)體重新平衡法來(lái)改進(jìn)訓(xùn)練集,從而提升模型泛化能力。

論文細(xì)節(jié)

1

論文動(dòng)機(jī)

命名實(shí)體識(shí)別需要對(duì)實(shí)體在句子中的邊界和實(shí)體類別進(jìn)行識(shí)別。與英文相比,中文沒(méi)有顯性的詞邊界、實(shí)體邊界以及時(shí)態(tài)信息,因此中文命名實(shí)體識(shí)別更具挑戰(zhàn)性。目前中文命名實(shí)體識(shí)別的SOTA性能與英文差了將近10%的F1值。

這篇文章試圖從增強(qiáng)實(shí)體邊界的識(shí)別的角度來(lái)更好地進(jìn)行中文命名實(shí)體識(shí)別??紤]到Star-Transformer獨(dú)特的星形拓?fù)浣Y(jié)構(gòu)能夠減少冗余連接,同時(shí)保留近似模擬長(zhǎng)程依賴關(guān)系的能力,因此使用Star-Transformer來(lái)構(gòu)建一個(gè)輕量級(jí)的命名實(shí)體識(shí)別基線系統(tǒng)。

在這個(gè)基線系統(tǒng)的基礎(chǔ)上,文章從兩個(gè)角度來(lái)增強(qiáng)實(shí)體的邊界信息:一是添加了一個(gè)圖注意力網(wǎng)絡(luò)層來(lái)捕捉句子、短語(yǔ)、實(shí)體內(nèi)部的依賴,從而隱式地區(qū)分邊界;二是將實(shí)體首尾的預(yù)測(cè)作為輔助任務(wù),從而顯式地區(qū)分邊界。

方法

這篇文章提出的模型將命名實(shí)體識(shí)別視作一個(gè)序列標(biāo)注任務(wù),模型整體架構(gòu)如下圖所示,包括Token embedding layer,Encoder和Decoder三個(gè)部分。模型Decoder為條件隨機(jī)場(chǎng)。

1. Token embedding layer

模型以中文詞匯作為token單位。考慮到缺少明確的詞邊界信息,為了防止分詞錯(cuò)誤的傳播,將詞的表示與字符表示相結(jié)合。從預(yù)訓(xùn)練詞向量中獲得詞匯和漢字的向量,然后將漢字向量的序列通過(guò)一個(gè)雙向GRU層,獲取雙向GRU的輸出作為漢字的表示。

最終token的表示由詞向量、字向量經(jīng)過(guò)雙向GRU的輸出以及詞性標(biāo)注拼接而成。

2. Encoder

模型的Encoder主要由三個(gè)部分構(gòu)成:作為基線的Star-Transformer、圖注意力網(wǎng)絡(luò)和基于兩個(gè)GRU的實(shí)體首尾表示層。

Star-Transformer

文章認(rèn)為對(duì)于命名實(shí)體識(shí)別任務(wù)而言,實(shí)體是稀疏的,因此沒(méi)必要總是關(guān)注所有token之間的關(guān)系。經(jīng)典的Transformer的token之間實(shí)際上是全連接的,Star-Transformer通過(guò)引入一個(gè)中繼節(jié)點(diǎn),減少潛在的冗余連接,同時(shí)保留了近似模擬長(zhǎng)程依賴關(guān)系的能力。

Star-Transformer的拓?fù)浣Y(jié)構(gòu)由一個(gè)中繼節(jié)點(diǎn)和多個(gè)衛(wèi)星節(jié)點(diǎn)構(gòu)成,第i個(gè)衛(wèi)星節(jié)點(diǎn)的狀態(tài)表示句子中第i個(gè)token,中繼節(jié)點(diǎn)充當(dāng)一個(gè)虛擬樞紐從所有的衛(wèi)星節(jié)點(diǎn)收集信息并分發(fā)信息。對(duì)于NER這種序列標(biāo)注任務(wù),取衛(wèi)星節(jié)點(diǎn)的狀態(tài)作為Star-Transformer的序列輸出。初始化時(shí),每個(gè)衛(wèi)星節(jié)點(diǎn)的狀態(tài)都由對(duì)應(yīng)token的表示初始化,中繼節(jié)點(diǎn)被初始化為所有token的均值。各節(jié)點(diǎn)更新過(guò)程如下式所示。

在更新的過(guò)程中,每個(gè)衛(wèi)星節(jié)點(diǎn)狀態(tài)的更新只與其有共邊的節(jié)點(diǎn)的上輪狀態(tài)以及該位置對(duì)應(yīng)token的表示有關(guān)。中繼節(jié)點(diǎn)的更新則取決于這一輪更新后的所有衛(wèi)星節(jié)點(diǎn)狀態(tài),以及上一輪自身的狀態(tài)。

文章在衛(wèi)星節(jié)點(diǎn)的更新過(guò)程中還加入了一個(gè)Highway Network,通過(guò)門控機(jī)制來(lái)緩解潛在的梯度問(wèn)題,從而減輕star-transformer的深度和復(fù)雜性。

此處 相當(dāng)于一個(gè)門,對(duì)于衛(wèi)星節(jié)點(diǎn)的上輪狀態(tài)一部分進(jìn)行仿射變換,剩余部分直接通過(guò),再與star-transformer的多頭注意力結(jié)果相加,作為衛(wèi)星節(jié)點(diǎn)的最終更新結(jié)果。

圖注意力網(wǎng)絡(luò)

文章用于增強(qiáng)實(shí)體邊界的第一個(gè)做法是使用圖注意力網(wǎng)絡(luò)來(lái)建模詞之間的依賴關(guān)系,從而將句子、短語(yǔ)的結(jié)構(gòu)信息納入到表示中,也有助于捕捉實(shí)體內(nèi)部詞語(yǔ)之間的依賴關(guān)系,從而隱式地增強(qiáng)實(shí)體的邊界信息。圖注意力網(wǎng)絡(luò)利用注意力計(jì)算,來(lái)為與某個(gè)節(jié)點(diǎn)有關(guān)聯(lián)的所有節(jié)點(diǎn)分配不同的重要性。具體的多頭圖注意力網(wǎng)絡(luò)計(jì)算過(guò)程如下式。

基于GRU的實(shí)體首尾表示層

文章用于增強(qiáng)實(shí)體邊界的第二個(gè)做法是將實(shí)體邊界的檢測(cè)看作兩個(gè)二分類任務(wù),亦即詞匯是否為實(shí)體之首、是否為實(shí)體之尾。使用兩個(gè)獨(dú)立的GRU層進(jìn)行這兩個(gè)輔助的二分類任務(wù)的預(yù)測(cè),從而清晰、顯式地直接提供實(shí)體的邊界信息。

模型的Encoder輸出如下式。

而損失函數(shù)便是多任務(wù)的損失之和,包括實(shí)體標(biāo)簽序列分類預(yù)測(cè)的交叉熵?fù)p失和兩個(gè)實(shí)體首尾分類預(yù)測(cè)的交叉熵?fù)p失。

實(shí)驗(yàn)

實(shí)驗(yàn)語(yǔ)料庫(kù)包括三個(gè)常見(jiàn)的中文NER數(shù)據(jù)集:OntoNotes4、OntoNotes5和Weibo。對(duì)于兩個(gè)增強(qiáng)邊界信息的方法進(jìn)行了消融實(shí)驗(yàn),并將實(shí)體識(shí)別的錯(cuò)誤分成了類型錯(cuò)誤、未識(shí)別錯(cuò)誤和邊界錯(cuò)誤這三類。

對(duì)于配合了Highway Network的Star-Transformer,它在較小的社交媒體Weibo數(shù)據(jù)集上較為有效,優(yōu)于前面所有現(xiàn)有模型。

考慮到OntoNotes的結(jié)構(gòu)特性,它的實(shí)體都具有相似的組成,利用圖注意力網(wǎng)絡(luò)來(lái)建模實(shí)體內(nèi)部的依賴將OntoNotes的Precision分別提高了3.93%和1.62%。而引入實(shí)體首尾預(yù)測(cè)的二分類輔助任務(wù)顯著減少了OntoNotes上的邊界錯(cuò)誤數(shù)量。同時(shí)考慮兩個(gè)增強(qiáng)方法的模型在OntoNotes的各種評(píng)價(jià)指標(biāo)上基本都達(dá)到了最好的效果,也進(jìn)一步減少了邊界錯(cuò)誤的數(shù)量。因此,所提出的邊界增強(qiáng)模型對(duì)于實(shí)體邊界和實(shí)體類型的識(shí)別都有所提升。

對(duì)于Weibo的標(biāo)準(zhǔn)Named Entity數(shù)據(jù)集,也有與OnteNotes相似的表現(xiàn)。說(shuō)明這個(gè)邊界增強(qiáng)模型對(duì)于書(shū)面與非書(shū)面文本都有效果。

2

論文動(dòng)機(jī)

大多數(shù)關(guān)于命名實(shí)體識(shí)別的研究只依靠文本來(lái)推斷標(biāo)簽,當(dāng)文本噪聲多或是較短時(shí),僅憑文本信息不足以準(zhǔn)確定位和分類命名實(shí)體,因此可以考慮引入其他模態(tài)作為文本模態(tài)的補(bǔ)充。而目前已有的多模態(tài)命名實(shí)體識(shí)別多是在融合文本模態(tài)與視覺(jué)模態(tài),且研究大多局限于英語(yǔ)。目前的中文命名實(shí)體識(shí)別研究都完全忽略了有價(jià)值的多模態(tài)信息。

文章認(rèn)為語(yǔ)音模態(tài)在中文命名實(shí)體識(shí)別中能夠起到獨(dú)特作用,特別是能提供精確的分詞信息。因?yàn)檎Z(yǔ)音模態(tài)所包含的線索有相鄰詞匯之間的停頓,從而可以幫助模型確定詞邊界。例如在“南京市長(zhǎng)江大橋”這個(gè)句子中,傳統(tǒng)中文NER模型可能打出地點(diǎn)“南京市”和地點(diǎn)“長(zhǎng)江大橋”的標(biāo)簽,也可能打出地點(diǎn)“南京”和人名“江大橋”的標(biāo)簽;

而這兩種標(biāo)簽所對(duì)應(yīng)的句子發(fā)音與停頓實(shí)際上是大有不同的,如果有對(duì)應(yīng)的語(yǔ)音信息的輔助,模型便能夠更好地確定分詞信息,繼而更好地確定實(shí)體邊界。文章試圖在訓(xùn)練過(guò)程中將文本和對(duì)應(yīng)的語(yǔ)音進(jìn)行對(duì)齊,找到每個(gè)漢字在語(yǔ)音中的位置,從而利用語(yǔ)音中的停頓等信息來(lái)輔助詞邊界的確定。

方法

中文多模態(tài)NER數(shù)據(jù)集構(gòu)建

由于以往沒(méi)有融合語(yǔ)音信息的NER研究,也沒(méi)有中文多模態(tài)NER研究,文章首先構(gòu)建了一個(gè)大規(guī)模的中文語(yǔ)音多模態(tài)NER數(shù)據(jù)集CNERTA。CNERTA包含文本及其命名實(shí)體標(biāo)注,以及文本對(duì)應(yīng)的語(yǔ)音。CNERTA中標(biāo)注了人名、地點(diǎn)和組織這三類命名實(shí)體,也對(duì)所有嵌套實(shí)體進(jìn)行了標(biāo)注。

基線系統(tǒng)

文章選取了三類基線系統(tǒng):

基于字符的模型:BiLSTM-CRF、BERT-CRF、MacBERT-CRF

詞匯增強(qiáng)模型:Lattice-LSTM、ZEN

多模態(tài)模型:Cross-Modal Attention Module (CMA)、Multimodal Interaction Module (MMI)

多模態(tài)多任務(wù)NER模型M3T

在語(yǔ)音嵌入方面,首先將語(yǔ)音信號(hào)進(jìn)行特定的處理,包括預(yù)加重、分幀加窗、短時(shí)傅立葉變換STFT等,并計(jì)算filter banks等特征。然后經(jīng)過(guò)兩個(gè)在時(shí)間和頻率上的卷積對(duì)語(yǔ)音特征進(jìn)行下采樣,并通過(guò)一個(gè)Transformer的Encoder來(lái)建模依賴,最后得到語(yǔ)音的特征序列。

M3T使用了一個(gè)CMA模塊(Cross-Modal Attention Module)來(lái)融合文本與語(yǔ)音的信息。將文本特征序列作為query,語(yǔ)音特征序列作為key和value計(jì)算多頭注意力,從而得到經(jīng)過(guò)語(yǔ)音特征增強(qiáng)的新的文本表示。具體計(jì)算如下式。

其中LN為層歸一化,F(xiàn)FN為全連接的前饋神經(jīng)網(wǎng)絡(luò),由兩個(gè)帶有ReLU激活的線性變換組成。CMA的輸出即可送入條件隨機(jī)場(chǎng)進(jìn)行解碼推斷NER標(biāo)簽。

CMA雖然能夠融合文本和語(yǔ)音模態(tài),但并沒(méi)有對(duì)文本和語(yǔ)音進(jìn)行對(duì)齊。因此論文還引入了一個(gè)CTC(Connectionist Temporal Classification)層作為輔助任務(wù),來(lái)幫助進(jìn)行文本和語(yǔ)音的對(duì)齊,找到每個(gè)漢字在語(yǔ)音中的位置。

在CTC層中,每一幀的語(yǔ)音先被映射到字典+空格的空間上,然后經(jīng)過(guò)一個(gè)logit函數(shù)得到一個(gè)(|V|+1)*t維的矩陣G,其中|V|是字典規(guī)模,t為語(yǔ)音幀數(shù),并將對(duì)應(yīng)文本中沒(méi)有出現(xiàn)過(guò)的字進(jìn)行mask。

CTC的解碼過(guò)程取每幀上概率最大的字作為該幀上預(yù)測(cè)的輸出,可能是漢字、標(biāo)點(diǎn)也可能是空格。然后CTC將沒(méi)有被空格隔開(kāi)的相同的字合并,最后將空格移除得到預(yù)測(cè)的漢字序列,最終實(shí)現(xiàn)從語(yǔ)音到文本的對(duì)齊,進(jìn)而納入語(yǔ)音中的停頓等信息。

這個(gè)masked G可以計(jì)算出CTC loss。整個(gè)模型使用的混合損失便由條件隨機(jī)場(chǎng)損失和CTC損失組成,如下式,其中為超參數(shù)。

實(shí)驗(yàn)

引入語(yǔ)音模態(tài)可以顯著提高基于字符的模型的性能,即使是使用簡(jiǎn)單的CMA也能在所有Flat NER和嵌套NER中帶來(lái)超過(guò)1.6%的F1提升,而使用M3T則能夠帶來(lái)超過(guò)3%的提升;

引入語(yǔ)音模態(tài)也可以提高詞匯增強(qiáng)模型的性能,例如對(duì)于ZEN。使用CMA能夠在Flat NER和嵌套NER中帶來(lái)1.38%和1.73%的F1提升,而M3T模型能讓它們的性能提升2.93%和3.19%。雖然提升沒(méi)有基于字符的模型那么顯著,但仍證明了語(yǔ)音模態(tài)可以提供一些大規(guī)模詞典中未包含的信息;

論文所提出的M3T模型能夠在CNERTA數(shù)據(jù)集中實(shí)現(xiàn)SOTA效果,論文推測(cè)這些改進(jìn)來(lái)源于CTC捕捉到的語(yǔ)音模態(tài)與文本模態(tài)之間的單調(diào)對(duì)齊關(guān)系,有了對(duì)齊信息,模型就可以利用語(yǔ)音中包含的顯性詞邊界信息。

文章也進(jìn)一步分析了命名實(shí)體識(shí)別的錯(cuò)誤來(lái)源,將錯(cuò)誤分為類型錯(cuò)誤和邊界錯(cuò)誤,類型錯(cuò)誤指邊界正確但預(yù)測(cè)類型錯(cuò)誤,其余情況都被歸為邊界錯(cuò)誤。

可見(jiàn)通過(guò)論文的M3T模型來(lái)融合語(yǔ)音模態(tài)可以有效地減少邊界錯(cuò)誤的數(shù)量。

3

論文動(dòng)機(jī)

通過(guò)分析五個(gè)常用的中文NER數(shù)據(jù)集,文章提出在中文NER數(shù)據(jù)集中廣泛存在著兩類數(shù)據(jù)偏差問(wèn)題:

中文NER驗(yàn)證集/測(cè)試集中50-70%的實(shí)體都在訓(xùn)練集中出現(xiàn)過(guò),因而驗(yàn)證集/測(cè)試集實(shí)際上難以評(píng)估模型的真實(shí)泛化能力。論文定義了一個(gè)稱為實(shí)體覆蓋率的度量來(lái)量化驗(yàn)證集/測(cè)試集中可見(jiàn)實(shí)體的程度,

其中是一個(gè)獲取實(shí)體列表的函數(shù)。五個(gè)中文NER數(shù)據(jù)集中實(shí)體覆蓋率情況如表所示,可見(jiàn)實(shí)體占了很大的比例。

大多數(shù)NER數(shù)據(jù)集都由少數(shù)fat-head實(shí)體主導(dǎo),即出現(xiàn)頻率異常高的實(shí)體。例如在Cluener的組織類別中,曼聯(lián)出現(xiàn)了59次,而法蘭克福只出現(xiàn)了1次。這樣可能鼓勵(lì)模型單純記住這些出現(xiàn)頻率高的實(shí)體,而不是在訓(xùn)練過(guò)程中利用上下文學(xué)習(xí)該實(shí)體類別的模式。

論文提到這是因?yàn)樵诮o定相同實(shí)體和不同上下文的情況下,模型收斂最簡(jiǎn)單的方式是記住實(shí)體,而非從不同的上下文中提取模式。論文使用實(shí)體出現(xiàn)頻率的峰度度量數(shù)據(jù)集的fat-head程度,如下表所示。數(shù)據(jù)集中絕大部分類別的峰度超過(guò)3,部分類別峰度極高乃至超過(guò)1000??傮w來(lái)說(shuō),頻率最高的前1%的實(shí)體貢獻(xiàn)了21%的出現(xiàn)次數(shù)。fat-head實(shí)體的現(xiàn)象在中文NER數(shù)據(jù)集中很嚴(yán)重。

方法

文章首先通過(guò)從驗(yàn)證集和測(cè)試集中排除所有可見(jiàn)實(shí)體來(lái)改進(jìn)驗(yàn)證集與測(cè)試集。然后提出了一種實(shí)體重新平衡方法,使同一類別內(nèi)的實(shí)體均勻分布,從而避免該類別的實(shí)體模式被fat-head實(shí)體主導(dǎo)。

論文提出實(shí)體重新平衡法主要是出于認(rèn)為多數(shù)情況下同一類別內(nèi)的不同實(shí)體在語(yǔ)義上可互換,使得實(shí)體均勻分布后將鼓勵(lì)模型利用上下文信息,因?yàn)椴辉儆衼?lái)自分布不均勻的簡(jiǎn)單規(guī)律可利用。

在實(shí)體重新平衡法中,首先對(duì)需要平衡的類別構(gòu)建一個(gè)實(shí)體counter,然后將其轉(zhuǎn)化為一個(gè)balanced counter,使得出現(xiàn)次數(shù)最多和最少的實(shí)體次數(shù)之間最大差值僅為1。隨機(jī)替換fat-head實(shí)體,將該類別的原始實(shí)體分布轉(zhuǎn)化為balanced counter中的均勻分布。具體步驟見(jiàn)下方偽代碼。

實(shí)驗(yàn)

實(shí)驗(yàn)使用的統(tǒng)一模型架構(gòu)為BERT+CRF。實(shí)驗(yàn)結(jié)果見(jiàn)下表,其中Baseline列使用原始訓(xùn)練數(shù)據(jù),Proposed列使用實(shí)體重新平衡后的訓(xùn)練數(shù)據(jù),它們都在排除所有可見(jiàn)實(shí)體的驗(yàn)證集和測(cè)試集上進(jìn)行調(diào)參與測(cè)試。

在五個(gè)數(shù)據(jù)集的大部分類別中,文章提出的實(shí)體平衡算法都能夠提高模型識(shí)別不可見(jiàn)實(shí)體的能力。但也有例外,例如Cluener中的address,論文給出的解釋是address類別可能包含特定的地緣政治實(shí)體,它們?cè)谡Z(yǔ)義上不可互換,因此算法會(huì)失效;在Resume數(shù)據(jù)集上效果也不佳,論文給出的解釋是簡(jiǎn)歷的結(jié)構(gòu)串聯(lián)性不強(qiáng),可利用的上下文知識(shí)很少。

因此,論文也總結(jié)了提出的實(shí)體平衡算法有效的條件:首先,同一類別的實(shí)體需要在語(yǔ)義上可以互換;其次,實(shí)體應(yīng)當(dāng)依賴上下文信息。

來(lái)自:復(fù)旦DISC

作者:石靄青

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音
    +關(guān)注

    關(guān)注

    3

    文章

    386

    瀏覽量

    38148
  • Gru
    Gru
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7509
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24848

原文標(biāo)題:【ACL2021】基于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何使用ar增強(qiáng)現(xiàn)實(shí)體驗(yàn)

    增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)近年來(lái)得到了迅速發(fā)展,它通過(guò)在用戶的現(xiàn)實(shí)世界視野中疊加計(jì)算機(jī)生成的圖像、視頻或信息,為用戶提供了一種全新的交互方式。這種技術(shù)已經(jīng)被廣泛應(yīng)用于游戲、教育、零售、醫(yī)療等多個(gè)領(lǐng)域
    的頭像 發(fā)表于 11-11 10:03 ?607次閱讀

    級(jí)聯(lián)4個(gè)AIC10,但是在硬件識(shí)別檢測(cè)時(shí),每次檢測(cè)到的AIC10Num不是4,這是為什么?

    關(guān)于AIC10級(jí)聯(lián)模式如下所示:本次需求是級(jí)聯(lián)4個(gè)AIC10,但是在硬件識(shí)別檢測(cè)時(shí),每次檢測(cè)到的AIC10Num不是4,這是為什么?硬件識(shí)別
    發(fā)表于 10-17 08:28

    越界智能監(jiān)測(cè)攝像機(jī)

    圖像,并通過(guò)人工智能技術(shù)進(jìn)行快速準(zhǔn)確的邊界檢測(cè),為安防管理提供重要支持。首先,越界智能監(jiān)測(cè)攝像機(jī)具有高效的圖像識(shí)別功能。通過(guò)先進(jìn)的圖像處理算法,可以快速準(zhǔn)確地識(shí)別
    的頭像 發(fā)表于 09-05 11:06 ?318次閱讀
    越界智能監(jiān)測(cè)攝像機(jī)

    目標(biāo)檢測(cè)與圖像識(shí)別的區(qū)別在哪

    檢測(cè)(Object Detection)是指在圖像或視頻中識(shí)別并定位感興趣的目標(biāo),通常包括目標(biāo)的類別和位置。目標(biāo)檢測(cè)的目的是找出圖像中所有感興趣的目標(biāo),并為每個(gè)目標(biāo)分配一個(gè)邊界框(bo
    的頭像 發(fā)表于 07-17 09:51 ?1096次閱讀

    目標(biāo)檢測(cè)識(shí)別技術(shù)有哪些

    目標(biāo)檢測(cè)識(shí)別技術(shù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向,廣泛應(yīng)用于安全監(jiān)控、自動(dòng)駕駛、醫(yī)療診斷、工業(yè)自動(dòng)化等領(lǐng)域。 目標(biāo)檢測(cè)識(shí)別技術(shù)的基本概念 目標(biāo)檢測(cè)
    的頭像 發(fā)表于 07-17 09:40 ?761次閱讀

    目標(biāo)檢測(cè)識(shí)別技術(shù)的關(guān)系是什么

    目標(biāo)檢測(cè)識(shí)別技術(shù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要研究方向,它們之間存在著密切的聯(lián)系和相互依賴的關(guān)系。 一、目標(biāo)檢測(cè)識(shí)別技術(shù)的概念 目標(biāo)檢測(cè)技術(shù)
    的頭像 發(fā)表于 07-17 09:38 ?796次閱讀

    圖像識(shí)別算法都有哪些方法

    傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。 傳統(tǒng)圖像識(shí)別算法 1.1 邊緣檢測(cè) 邊緣檢測(cè)是圖像識(shí)別的基礎(chǔ),它用于檢測(cè)圖像中的邊緣信息。邊緣是圖像中亮度變
    的頭像 發(fā)表于 07-16 11:14 ?6106次閱讀

    人臉檢測(cè)識(shí)別的方法有哪些

    人臉檢測(cè)識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)重要研究方向,具有廣泛的應(yīng)用前景,如安全監(jiān)控、身份認(rèn)證、智能視頻分析等。本文將詳細(xì)介紹人臉檢測(cè)識(shí)別的方法。 引言 人臉
    的頭像 發(fā)表于 07-03 14:45 ?856次閱讀

    圖像檢測(cè)識(shí)別技術(shù)的關(guān)系

    圖像檢測(cè)識(shí)別技術(shù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要分支,它們?cè)谠S多應(yīng)用場(chǎng)景中發(fā)揮著關(guān)鍵作用。本文將介紹圖像檢測(cè)識(shí)別技術(shù)的關(guān)系,以及它們?cè)诓煌I(lǐng)域的應(yīng)用。 一、圖像
    的頭像 發(fā)表于 07-03 14:43 ?749次閱讀

    河道水面漂浮物識(shí)別檢測(cè) YOLO算法

    河道水面漂浮物識(shí)別檢測(cè)根據(jù)監(jiān)控?cái)z像頭搜集江河或河道的水面視頻,截取圖片中帶有海上漂浮物的照片,河道水面漂浮物識(shí)別檢測(cè)訓(xùn)練所需照片,形成數(shù)據(jù)實(shí)體
    的頭像 發(fā)表于 07-02 11:37 ?598次閱讀
    河道水面漂浮物<b class='flag-5'>識(shí)別</b><b class='flag-5'>檢測(cè)</b> YOLO算法

    蘋果ReALM模型在實(shí)體識(shí)別測(cè)試中超越OpenAI GPT-4.0

    “我們的模型在識(shí)別各種類型實(shí)體方面都有顯著提升,即使是小尺寸模型,在屏幕實(shí)體識(shí)別準(zhǔn)確性上也已超過(guò)原有的系統(tǒng)5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0
    的頭像 發(fā)表于 04-02 11:23 ?551次閱讀

    如何識(shí)別檢測(cè)集成芯片

    識(shí)別檢測(cè)集成芯片是電子工程領(lǐng)域的重要技能,對(duì)于確保電路的穩(wěn)定性和可靠性至關(guān)重要。下面將介紹一些常用的識(shí)別檢測(cè)方法。
    的頭像 發(fā)表于 03-20 15:46 ?1886次閱讀

    顏色識(shí)別邊界問(wèn)題

    顏色識(shí)別出現(xiàn)這種樣的左右邊框可能是什么原因?我感覺(jué)代碼好像沒(méi)有問(wèn)題上下邊界能畫(huà)出來(lái)左右邊界就畫(huà)不出來(lái)
    發(fā)表于 03-08 17:29

    邊界矢量數(shù)據(jù)是什么格式

    邊界矢量數(shù)據(jù)是一種用于描述地理空間邊界的格式。它包含了一系列的數(shù)據(jù)點(diǎn),這些點(diǎn)按照一定的順序連接起來(lái),形成了一條封閉的線,來(lái)表示地理區(qū)域的邊界邊界矢量數(shù)據(jù)通常以矢量文件的形式存在,矢
    的頭像 發(fā)表于 02-25 15:16 ?1337次閱讀

    助力移動(dòng)機(jī)器人下游任務(wù)!Mobile-Seed用于聯(lián)合語(yǔ)義分割和邊界檢測(cè)

    精確、快速地劃定清晰的邊界和魯棒的語(yǔ)義對(duì)于許多下游機(jī)器人任務(wù)至關(guān)重要,例如機(jī)器人抓取和操作、實(shí)時(shí)語(yǔ)義建圖以及在邊緣計(jì)算單元上執(zhí)行的在線傳感器校準(zhǔn)。
    的頭像 發(fā)表于 02-20 10:30 ?1016次閱讀
    助力移動(dòng)機(jī)器人下游任務(wù)!Mobile-Seed用于聯(lián)合語(yǔ)義分割和<b class='flag-5'>邊界檢測(cè)</b>