引言:信息抽取終于走到了這一步:邁入大一統(tǒng)時(shí)代!
今天為大家介紹一篇好基友 @陸博士 的ACL22論文《Unified Structure Generation for Universal Information Extraction》,這也是中科院和百度聯(lián)合發(fā)布的1篇信息抽取統(tǒng)一建模工作UIE。
UIE官方鏈接:https://universal-ie.github.io
本文的組織架構(gòu)為:
1.統(tǒng)一建模是IE發(fā)展的必然趨勢(shì)
眾所周知,信息抽取(IE)是一個(gè)從文本到結(jié)構(gòu)的轉(zhuǎn)換過程。常見的實(shí)體、關(guān)系、事件分別采取Span、Triplet、Record形式的異構(gòu)結(jié)構(gòu)。
曾幾何時(shí),當(dāng)我們面對(duì)各種復(fù)雜多樣的IE任務(wù),我們總會(huì)造各式各樣IE模型的輪子,來滿足不同復(fù)雜任務(wù)的多變需求。
如上圖所示:由于多樣的抽取目標(biāo)、相異的復(fù)雜結(jié)構(gòu)、多變的領(lǐng)域需求時(shí),導(dǎo)致信息抽取模型一直難以實(shí)現(xiàn)統(tǒng)一建模,極大限制了IE系統(tǒng)高效架構(gòu)開發(fā)、有效知識(shí)共享、快速跨域適配。
比如,一個(gè)真實(shí)的情況是:針對(duì)不同任務(wù)設(shè)定,需要針對(duì)特定領(lǐng)域schema建模,不同IE模型被單個(gè)訓(xùn)練、不共享,一個(gè)公司可能需要管理眾多IE模型。
當(dāng)我們每次造不同IE輪子的時(shí)候,都要喝下不同的肥宅快樂水,撩以解憂(這不是個(gè)玩笑)
不過,在生成式統(tǒng)一建模各類NLP任務(wù)的今天,信息抽取統(tǒng)一建模也成為可能。
不久前,JayJay在《信息抽取的"第二范式"》一文中指出:生成式統(tǒng)一建模,或許是信息抽取領(lǐng)域正在發(fā)生的一場“深刻變革”。
因此:開發(fā)通用的IE結(jié)構(gòu)是大有裨益的,可以統(tǒng)一建模不同的IE任務(wù),從各種資源中自適應(yīng)預(yù)測(cè)異構(gòu)結(jié)構(gòu)??傊航y(tǒng)一、通用的IE勢(shì)不可擋!
這篇ACL2022論文,@陸博士提出了一個(gè)面向信息抽取的統(tǒng)一文本到結(jié)構(gòu)生成框架UIE,它可以:
統(tǒng)一地建模不同的IE任務(wù);
自適應(yīng)地生成目標(biāo)結(jié)構(gòu);
從不同的知識(shí)來源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。
具體來說,UIE:
通過結(jié)構(gòu)化抽取語言對(duì)不同的信息抽取目標(biāo)結(jié)構(gòu)進(jìn)行統(tǒng)一編碼;
通過結(jié)構(gòu)化模式提示器自適應(yīng)生成目標(biāo)結(jié)構(gòu);
通過大規(guī)模結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練捕獲常見的IE能力;
實(shí)驗(yàn)結(jié)果表明,本文提出的統(tǒng)一生成框架,基于T5模型進(jìn)行了IE預(yù)訓(xùn)練,在實(shí)體、關(guān)系、事件和情感等4個(gè)信息抽取任務(wù)、13個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下均取得了SOTA性能。
接下來,我們將具體介紹UIE是如何統(tǒng)一建模的,以及具體是如何預(yù)訓(xùn)練的?
2. UIE統(tǒng)一建模方式:文本到結(jié)構(gòu)生成
信息抽取任務(wù)可以表述為“文本到結(jié)構(gòu)”的問題,不同的IE任務(wù)對(duì)應(yīng)不同的結(jié)構(gòu)。
UIE旨在通過單一框架統(tǒng)一建模不同IE任務(wù)的文本到結(jié)構(gòu)的轉(zhuǎn)換,也就是:不同的結(jié)構(gòu)轉(zhuǎn)換共享模型中相同的底層操作和不同的轉(zhuǎn)換能力。
這里主要有兩個(gè)挑戰(zhàn):
IE任務(wù)的多樣性,需要提取許多不同的目標(biāo)結(jié)構(gòu),如實(shí)體、關(guān)系、事件等;
IE任務(wù)是通常是使用不同模式定義的特定需求(不同schema),需要自適應(yīng)地控制提取過程;
因此,針對(duì)上述挑戰(zhàn),需要:
設(shè)計(jì)結(jié)構(gòu)化抽取語言(SEL,Structured Extraction Language)來統(tǒng)一編碼異構(gòu)提取結(jié)構(gòu),即編碼實(shí)體、關(guān)系、事件統(tǒng)一表示。
構(gòu)建結(jié)構(gòu)化模式提示器(SSI,Structural Schema Instructor),一個(gè)基于schema的prompt機(jī)制,用于控制不同的生成需求。
上圖展示了UIE的整體框架,整體架構(gòu)就是:SSI + Text -> SEL
一句話簡單概括就是:SSI就是輸入特定抽取任務(wù)的schema,SEL就是把不同任務(wù)的抽取結(jié)果統(tǒng)一用1種語言表示。
1)SEL:結(jié)構(gòu)化抽取語言
不同的IE任務(wù)可以分解為2個(gè)原子操作:
Spotting:找出Spot Name對(duì)應(yīng)的Info Span,如某個(gè)實(shí)體或Trigger觸發(fā)詞;
Associating:找出Asso Name對(duì)應(yīng)的Info Span,鏈接Info Span片段間的關(guān)系:如兩個(gè)實(shí)體pair的關(guān)系、論元和觸發(fā)詞間的關(guān)系;
如上圖(a)所示:SEL語言可以統(tǒng)一用(Spot Name:Info Span(Asso Name:Info Span)(Asso Name:Info Span)...)形式表示,具體地:
Spot Name:Spotting操作的Info Span的類別信息,如實(shí)體類型;
Asso Name: Associating操作的Info Span的類別信息,如關(guān)系類型、關(guān)系類型;
Info Span:Spotting或Associating操作相關(guān)的文本Span;
如上圖(b)所示:
藍(lán)色部分代表關(guān)系任務(wù):person為實(shí)體類型Spot Name,work for為關(guān)系類型Asso Name;
紅色部分代表事件任務(wù):start-position為事件類型Spot Name,employee為論元類型Asso Name;
黑色部分代表實(shí)體任務(wù):organization和time為實(shí)體類型Spot Name;
上圖給出一個(gè)中文case:考察事件 為事件類型Spot Name,主角/時(shí)間/地點(diǎn) 為論元類型Asso Name。
2)SSI:結(jié)構(gòu)化模式提示器
SSI的本質(zhì)一個(gè)基于schema的prompt機(jī)制,用于控制不同的生成需求:在Text前拼接上相應(yīng)的Schema Prompt,輸出相應(yīng)的SEL結(jié)構(gòu)語言。
不同任務(wù)的的形式是:
實(shí)體抽?。篬spot] 實(shí)體類別 [text]
關(guān)系抽取:[spot] 實(shí)體類別 [asso] 關(guān)系類別 [text]
事件抽?。篬spot] 事件類別 [asso] 論元類別 [text]
觀點(diǎn)抽取:[spot] 評(píng)價(jià)維度 [asso] 觀點(diǎn)類別 [text]
下圖給出了不同任務(wù)數(shù)據(jù)集的SSI形式:
3. UIE預(yù)訓(xùn)練和微調(diào)方式
本小節(jié),我們將介紹:
1)Pre-train:如何預(yù)訓(xùn)練一個(gè)大規(guī)模的UIE模型,來捕獲不同IE任務(wù)間的通用IE能力?
2)Finetune:如何通過快速的Finetune使UIE適應(yīng)不同設(shè)置下的不同 IE 任務(wù)。
1)Pre-train:大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練
UIE預(yù)訓(xùn)練語料主要來自Wikipedia、Wikidata和ConceptNet,構(gòu)建了3種預(yù)訓(xùn)練數(shù)據(jù):
D_pair: 通過Wikipedia對(duì)齊Wikidata,構(gòu)建text-to-struct的平行語料:(SSI,Text,SEL)
D_record: 構(gòu)造只包含SEL語法結(jié)構(gòu)化record數(shù)據(jù):(None,None,SEL)
D_text: 構(gòu)造無結(jié)構(gòu)的原始文本數(shù)據(jù):(None,Text',Text'')
針對(duì)上述數(shù)據(jù),分別構(gòu)造3種預(yù)訓(xùn)練任務(wù),將大規(guī)模異構(gòu)數(shù)據(jù)整合到一起進(jìn)行預(yù)訓(xùn)練:
Text-to-Structure Pre-training:為了構(gòu)建基礎(chǔ)的文本到結(jié)構(gòu)的映射能力,對(duì)平行語料D_pair訓(xùn)練,同時(shí)構(gòu)建負(fù)樣本作為噪聲訓(xùn)練(引入negative schema)。
Structure Generation Pre-training:為了具備SEL語言的結(jié)構(gòu)化能力,對(duì)D_pair數(shù)據(jù)只訓(xùn)練 UIE 的 decoder 部分。
Retrofitting Semantic Representation:為了具備基礎(chǔ)的語義編碼能力,對(duì)D_text數(shù)據(jù)進(jìn)行 span corruption訓(xùn)練。
最終的預(yù)訓(xùn)練目標(biāo),包含以上3部分;
2)Finetune:拒識(shí)噪聲注入的模型微調(diào)機(jī)制
為了解決自回歸Teacher-forcing的暴露偏差,構(gòu)建了拒識(shí)噪聲注入的模型微調(diào)機(jī)制:隨機(jī)采樣SEL中不存在的SpotName類別和AssoName類別,即:(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL]),學(xué)會(huì)拒絕生成錯(cuò)誤結(jié)果的能力,如下圖所示:
4. UIE主要實(shí)驗(yàn)結(jié)論
1)全監(jiān)督實(shí)驗(yàn)
如上圖所示,SEL代表未經(jīng)預(yù)訓(xùn)練的UIE模型??梢钥闯觯?/p>
1、在4類信息抽取任務(wù)、13個(gè)數(shù)據(jù)集、7大領(lǐng)域的IE任務(wù)上,UIE達(dá)到了SOTA性能;
2、對(duì)比SEL和UIE結(jié)果:異構(gòu)監(jiān)督預(yù)訓(xùn)練顯著地提升了 UIE 的通用信息抽取能力,具有更好的跨任務(wù)遷移能力;
2)少樣本實(shí)驗(yàn)
少樣本實(shí)驗(yàn)可以發(fā)現(xiàn):
1、大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練可以學(xué)習(xí)通用的信息抽取能力,使模型具有更好小樣本學(xué)習(xí)能力。
2、當(dāng)去掉SSI結(jié)構(gòu)化模式提示器后,發(fā)現(xiàn)指標(biāo)下降,因此:結(jié)構(gòu)化抽取指令具有更好的定向遷移的能力。
3)消融實(shí)驗(yàn)
上述消融實(shí)驗(yàn)表明:基于拒識(shí)噪聲注入的模型微調(diào)機(jī)制可以有效緩解自回歸生成過程中的暴露偏差問題。
總結(jié)與展望
本文介紹了一個(gè)統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE,可以通用建模不同的IE任務(wù),自適應(yīng)生成有針對(duì)性的結(jié)構(gòu),從不同的知識(shí)來源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。
實(shí)驗(yàn)結(jié)果表明UIE實(shí)現(xiàn)了在監(jiān)督和低資源下的SOTA性能,同時(shí)驗(yàn)證了其普遍性、有效性和可轉(zhuǎn)移性。
審核編輯 :李倩
-
建模
+關(guān)注
關(guān)注
1文章
313瀏覽量
60879 -
文本
+關(guān)注
關(guān)注
0文章
118瀏覽量
17134
原文標(biāo)題:信息抽取大一統(tǒng):百度中科院發(fā)布通用抽取模型UIE,刷新13個(gè)IE數(shù)據(jù)集SOTA!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢(shì)和挑戰(zhàn)
RNN在圖片描述生成中的應(yīng)用
生成式AI工具作用
如何使用 Llama 3 進(jìn)行文本生成
AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別
什么是LLM?LLM的工作原理和結(jié)構(gòu)
龍芯CPU統(tǒng)一系統(tǒng)架構(gòu)規(guī)范及參考設(shè)計(jì)下載
CubeIDE生成的代碼框架會(huì)卡在MX_X_CUBE_AI_Process()函數(shù)中是怎么回事?
OpenHarmony語言基礎(chǔ)類庫【@ohos.xml (xml解析與生成)】
美日聯(lián)手研究生成式AI,將建立合作框架
NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀
![NVIDIA<b class='flag-5'>生成</b>式AI研究實(shí)現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b>3D形狀](https://file1.elecfans.com/web2/M00/C5/E5/wKgZomYDhKCAWidnAAAMtdqDKw4774.jpg)
【鴻蒙】NAPI 框架生成工具實(shí)現(xiàn)流程
![【鴻蒙】NAPI <b class='flag-5'>框架</b><b class='flag-5'>生成</b>工具實(shí)現(xiàn)流程](https://file1.elecfans.com/web2/M00/C2/CD/wKgaomXe9ZOAfxa9AABiwFsjy90887.png)
探索OpenAI Sora視頻AI生成技術(shù)及其應(yīng)用如何使用指南
Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位
![Stability AI試圖通過新的圖像<b class='flag-5'>生成</b>人工智能模型保持領(lǐng)先地位](https://file1.elecfans.com/web2/M00/C0/2D/wKgZomXTC6yAF6b2AAAZGR4nIDs515.png)
評(píng)論