亚洲v成人中文无码专区桃花岛,在线看不卡的中文av

引言：信息抽取終于走到了這一步：邁入大一統(tǒng)時(shí)代！

今天為大家介紹一篇好基友 @陸博士的ACL22論文《Unified Structure Generation for Universal Information Extraction》，這也是中科院和百度聯(lián)合發(fā)布的1篇信息抽取統(tǒng)一建模工作UIE。

UIE官方鏈接：https://universal-ie.github.io

本文的組織架構(gòu)為：

1.統(tǒng)一建模是IE發(fā)展的必然趨勢(shì)

眾所周知，信息抽取（IE）是一個(gè)從文本到結(jié)構(gòu)的轉(zhuǎn)換過程。常見的實(shí)體、關(guān)系、事件分別采取Span、Triplet、Record形式的異構(gòu)結(jié)構(gòu)。

曾幾何時(shí)，當(dāng)我們面對(duì)各種復(fù)雜多樣的IE任務(wù)，我們總會(huì)造各式各樣IE模型的輪子，來滿足不同復(fù)雜任務(wù)的多變需求。

如上圖所示：由于多樣的抽取目標(biāo)、相異的復(fù)雜結(jié)構(gòu)、多變的領(lǐng)域需求時(shí)，導(dǎo)致信息抽取模型一直難以實(shí)現(xiàn)統(tǒng)一建模，極大限制了IE系統(tǒng)高效架構(gòu)開發(fā)、有效知識(shí)共享、快速跨域適配。

比如，一個(gè)真實(shí)的情況是：針對(duì)不同任務(wù)設(shè)定，需要針對(duì)特定領(lǐng)域schema建模，不同IE模型被單個(gè)訓(xùn)練、不共享，一個(gè)公司可能需要管理眾多IE模型。

當(dāng)我們每次造不同IE輪子的時(shí)候，都要喝下不同的肥宅快樂水，撩以解憂（這不是個(gè)玩笑）

不過，在生成式統(tǒng)一建模各類NLP任務(wù)的今天，信息抽取統(tǒng)一建模也成為可能。

不久前，JayJay在《信息抽取的"第二范式"》一文中指出：生成式統(tǒng)一建模，或許是信息抽取領(lǐng)域正在發(fā)生的一場“深刻變革”。

因此：開發(fā)通用的IE結(jié)構(gòu)是大有裨益的，可以統(tǒng)一建模不同的IE任務(wù)，從各種資源中自適應(yīng)預(yù)測(cè)異構(gòu)結(jié)構(gòu)?？傊航y(tǒng)一、通用的IE勢(shì)不可擋！

這篇ACL2022論文，@陸博士提出了一個(gè)面向信息抽取的統(tǒng)一文本到結(jié)構(gòu)生成框架UIE，它可以：

統(tǒng)一地建模不同的IE任務(wù)；

自適應(yīng)地生成目標(biāo)結(jié)構(gòu)；

從不同的知識(shí)來源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。

具體來說，UIE：

通過結(jié)構(gòu)化抽取語言對(duì)不同的信息抽取目標(biāo)結(jié)構(gòu)進(jìn)行統(tǒng)一編碼；

通過結(jié)構(gòu)化模式提示器自適應(yīng)生成目標(biāo)結(jié)構(gòu);

通過大規(guī)模結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練捕獲常見的IE能力；

實(shí)驗(yàn)結(jié)果表明，本文提出的統(tǒng)一生成框架，基于T5模型進(jìn)行了IE預(yù)訓(xùn)練，在實(shí)體、關(guān)系、事件和情感等4個(gè)信息抽取任務(wù)、13個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下均取得了SOTA性能。

接下來，我們將具體介紹UIE是如何統(tǒng)一建模的，以及具體是如何預(yù)訓(xùn)練的？

2. UIE統(tǒng)一建模方式：文本到結(jié)構(gòu)生成

信息抽取任務(wù)可以表述為“文本到結(jié)構(gòu)”的問題，不同的IE任務(wù)對(duì)應(yīng)不同的結(jié)構(gòu)。

UIE旨在通過單一框架統(tǒng)一建模不同IE任務(wù)的文本到結(jié)構(gòu)的轉(zhuǎn)換，也就是：不同的結(jié)構(gòu)轉(zhuǎn)換共享模型中相同的底層操作和不同的轉(zhuǎn)換能力。

這里主要有兩個(gè)挑戰(zhàn)：

IE任務(wù)的多樣性，需要提取許多不同的目標(biāo)結(jié)構(gòu)，如實(shí)體、關(guān)系、事件等；

IE任務(wù)是通常是使用不同模式定義的特定需求（不同schema），需要自適應(yīng)地控制提取過程；

因此，針對(duì)上述挑戰(zhàn)，需要：

設(shè)計(jì)結(jié)構(gòu)化抽取語言（SEL，Structured Extraction Language）來統(tǒng)一編碼異構(gòu)提取結(jié)構(gòu)，即編碼實(shí)體、關(guān)系、事件統(tǒng)一表示。

構(gòu)建結(jié)構(gòu)化模式提示器（SSI，Structural Schema Instructor），一個(gè)基于schema的prompt機(jī)制，用于控制不同的生成需求。

上圖展示了UIE的整體框架，整體架構(gòu)就是：SSI + Text -> SEL

一句話簡單概括就是：SSI就是輸入特定抽取任務(wù)的schema，SEL就是把不同任務(wù)的抽取結(jié)果統(tǒng)一用1種語言表示。

1）SEL：結(jié)構(gòu)化抽取語言

不同的IE任務(wù)可以分解為2個(gè)原子操作：

Spotting：找出Spot Name對(duì)應(yīng)的Info Span，如某個(gè)實(shí)體或Trigger觸發(fā)詞；

Associating：找出Asso Name對(duì)應(yīng)的Info Span，鏈接Info Span片段間的關(guān)系：如兩個(gè)實(shí)體pair的關(guān)系、論元和觸發(fā)詞間的關(guān)系；

如上圖（a）所示：SEL語言可以統(tǒng)一用（Spot Name：Info Span（Asso Name：Info Span）（Asso Name：Info Span）...）形式表示，具體地：

Spot Name：Spotting操作的Info Span的類別信息，如實(shí)體類型；

Asso Name: Associating操作的Info Span的類別信息，如關(guān)系類型、關(guān)系類型；

Info Span：Spotting或Associating操作相關(guān)的文本Span；

如上圖（b）所示：

藍(lán)色部分代表關(guān)系任務(wù)：person為實(shí)體類型Spot Name，work for為關(guān)系類型Asso Name；

紅色部分代表事件任務(wù)：start-position為事件類型Spot Name，employee為論元類型Asso Name；

黑色部分代表實(shí)體任務(wù)：organization和time為實(shí)體類型Spot Name；

上圖給出一個(gè)中文case：考察事件為事件類型Spot Name，主角/時(shí)間/地點(diǎn) 為論元類型Asso Name。

2）SSI：結(jié)構(gòu)化模式提示器

SSI的本質(zhì)一個(gè)基于schema的prompt機(jī)制，用于控制不同的生成需求：在Text前拼接上相應(yīng)的Schema Prompt，輸出相應(yīng)的SEL結(jié)構(gòu)語言。

不同任務(wù)的的形式是：

實(shí)體抽?。篬spot] 實(shí)體類別 [text]

關(guān)系抽取：[spot] 實(shí)體類別 [asso] 關(guān)系類別 [text]

事件抽?。篬spot] 事件類別 [asso] 論元類別 [text]

觀點(diǎn)抽取：[spot] 評(píng)價(jià)維度 [asso] 觀點(diǎn)類別 [text]

下圖給出了不同任務(wù)數(shù)據(jù)集的SSI形式：

3. UIE預(yù)訓(xùn)練和微調(diào)方式

本小節(jié)，我們將介紹：

1）Pre-train：如何預(yù)訓(xùn)練一個(gè)大規(guī)模的UIE模型，來捕獲不同IE任務(wù)間的通用IE能力？

2）Finetune：如何通過快速的Finetune使UIE適應(yīng)不同設(shè)置下的不同 IE 任務(wù)。

1）Pre-train：大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練

UIE預(yù)訓(xùn)練語料主要來自Wikipedia、Wikidata和ConceptNet，構(gòu)建了3種預(yù)訓(xùn)練數(shù)據(jù)：

D_pair: 通過Wikipedia對(duì)齊Wikidata，構(gòu)建text-to-struct的平行語料：（SSI，Text，SEL）

D_record: 構(gòu)造只包含SEL語法結(jié)構(gòu)化record數(shù)據(jù)：（None，None，SEL）

D_text: 構(gòu)造無結(jié)構(gòu)的原始文本數(shù)據(jù)：（None，Text'，Text''）

針對(duì)上述數(shù)據(jù)，分別構(gòu)造3種預(yù)訓(xùn)練任務(wù)，將大規(guī)模異構(gòu)數(shù)據(jù)整合到一起進(jìn)行預(yù)訓(xùn)練：

Text-to-Structure Pre-training：為了構(gòu)建基礎(chǔ)的文本到結(jié)構(gòu)的映射能力，對(duì)平行語料D_pair訓(xùn)練，同時(shí)構(gòu)建負(fù)樣本作為噪聲訓(xùn)練（引入negative schema）。

Structure Generation Pre-training：為了具備SEL語言的結(jié)構(gòu)化能力，對(duì)D_pair數(shù)據(jù)只訓(xùn)練 UIE 的 decoder 部分。

Retrofitting Semantic Representation：為了具備基礎(chǔ)的語義編碼能力，對(duì)D_text數(shù)據(jù)進(jìn)行 span corruption訓(xùn)練。

最終的預(yù)訓(xùn)練目標(biāo)，包含以上3部分；

2）Finetune：拒識(shí)噪聲注入的模型微調(diào)機(jī)制

為了解決自回歸Teacher-forcing的暴露偏差，構(gòu)建了拒識(shí)噪聲注入的模型微調(diào)機(jī)制：隨機(jī)采樣SEL中不存在的SpotName類別和AssoName類別，即：(SPOTNAME, [NULL]) 和 (ASSONAME, [NULL])，學(xué)會(huì)拒絕生成錯(cuò)誤結(jié)果的能力，如下圖所示：

4. UIE主要實(shí)驗(yàn)結(jié)論

1）全監(jiān)督實(shí)驗(yàn)

如上圖所示，SEL代表未經(jīng)預(yù)訓(xùn)練的UIE模型?？梢钥闯觯?/p>

1、在4類信息抽取任務(wù)、13個(gè)數(shù)據(jù)集、7大領(lǐng)域的IE任務(wù)上，UIE達(dá)到了SOTA性能；

2、對(duì)比SEL和UIE結(jié)果：異構(gòu)監(jiān)督預(yù)訓(xùn)練顯著地提升了 UIE 的通用信息抽取能力，具有更好的跨任務(wù)遷移能力；

2）少樣本實(shí)驗(yàn)

少樣本實(shí)驗(yàn)可以發(fā)現(xiàn)：

1、大規(guī)模異構(gòu)監(jiān)督預(yù)訓(xùn)練可以學(xué)習(xí)通用的信息抽取能力，使模型具有更好小樣本學(xué)習(xí)能力。

2、當(dāng)去掉SSI結(jié)構(gòu)化模式提示器后，發(fā)現(xiàn)指標(biāo)下降，因此：結(jié)構(gòu)化抽取指令具有更好的定向遷移的能力。

3）消融實(shí)驗(yàn)

上述消融實(shí)驗(yàn)表明：基于拒識(shí)噪聲注入的模型微調(diào)機(jī)制可以有效緩解自回歸生成過程中的暴露偏差問題。

總結(jié)與展望

本文介紹了一個(gè)統(tǒng)一的文本到結(jié)構(gòu)生成框架——UIE，可以通用建模不同的IE任務(wù)，自適應(yīng)生成有針對(duì)性的結(jié)構(gòu)，從不同的知識(shí)來源統(tǒng)一學(xué)習(xí)通用的信息抽取能力。

實(shí)驗(yàn)結(jié)果表明UIE實(shí)現(xiàn)了在監(jiān)督和低資源下的SOTA性能，同時(shí)驗(yàn)證了其普遍性、有效性和可轉(zhuǎn)移性。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

建模

建模

+關(guān)注

關(guān)注
1

文章
313

瀏覽量
60879
文本

文本

+關(guān)注

關(guān)注
0

文章
118

瀏覽量
17134

原文標(biāo)題：信息抽取大一統(tǒng)：百度中科院發(fā)布通用抽取模型UIE，刷新13個(gè)IE數(shù)據(jù)集SOTA！

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢(shì)和挑戰(zhàn)

、AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別數(shù)據(jù)類型與處理： AIGC主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成，如自然語言文本、圖像、音頻、視頻等。這類數(shù)據(jù)規(guī)模更大，內(nèi)在結(jié)

發(fā)表于 11-22 16:04 ?458次閱讀

RNN在圖片描述生成中的應(yīng)用

隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展，圖像描述生成（Image Captioning）作為計(jì)算機(jī)視覺和自然語言處理的交叉領(lǐng)域，受到了越來越多的關(guān)注。圖像描述生成任務(wù)旨在自動(dòng)生成準(zhǔn)確、自然和詳細(xì)的文本

發(fā)表于 11-15 09:58 ?393次閱讀

生成式AI工具作用

生成式AI工具是指那些能夠自動(dòng)生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此，petacloud.ai小編為您整理生成式AI工具作用。

發(fā)表于 10-28 11:19 ?325次閱讀

如何使用 Llama 3 進(jìn)行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進(jìn)行文本生成，可以通過以下幾種方式實(shí)現(xiàn)，取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API

發(fā)表于 10-27 14:21 ?547次閱讀

AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別

AIGC ：主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成，如自然語言文本、圖像、音頻、視頻等。這類數(shù)據(jù)規(guī)模更大，內(nèi)在結(jié)構(gòu)更復(fù)雜，對(duì)處理技術(shù)提出了更高要求。傳統(tǒng)內(nèi)容

發(fā)表于 10-25 15:13 ?567次閱讀

什么是LLM？LLM的工作原理和結(jié)構(gòu)

隨著人工智能技術(shù)的飛速發(fā)展，大型語言模型（Large Language Model，簡稱LLM）逐漸成為自然語言處理（NLP）領(lǐng)域的研究熱點(diǎn)。LLM以其強(qiáng)大的文本生成、理解和推理能力，在文本生成

發(fā)表于 07-02 11:45 ?9220次閱讀

龍芯CPU統(tǒng)一系統(tǒng)架構(gòu)規(guī)范及參考設(shè)計(jì)下載

*附件：LoongArch 系統(tǒng)調(diào)用(syscall)ABI.pdf *附件：龍芯 CPU 統(tǒng)一系統(tǒng)架構(gòu)規(guī)范(適用于 LA 架構(gòu)通用 PC、服務(wù)器系列)-v4.1.0.pdf *附件：龍芯CPU統(tǒng)一

發(fā)表于 06-20 14:42

CubeIDE生成的代碼框架會(huì)卡在MX_X_CUBE_AI_Process（）函數(shù)中是怎么回事？

當(dāng)我將網(wǎng)絡(luò)模型部署到STM32F407VGT6中時(shí)，CubeIDE生成的代碼框架會(huì)卡在MX_X_CUBE_AI_Process（）函數(shù)中是怎么回事？CUbeAI庫的版本是9.0。期待您的回復(fù)，謝謝

發(fā)表于 05-30 06:11

OpenHarmony語言基礎(chǔ)類庫【@ohos.xml (xml解析與生成)】

將XML文本轉(zhuǎn)換為JavaScript對(duì)象、以及XML文件生成和解析的一系列接口。

發(fā)表于 05-08 17:05 ?912次閱讀

美日聯(lián)手研究生成式AI，將建立合作框架

近期，美國和日本政府宣布將聯(lián)手研究生成式人工智能（AI），并計(jì)劃建立一個(gè)合作框架以共同推進(jìn)該領(lǐng)域的技術(shù)進(jìn)步。

發(fā)表于 04-18 15:15 ?650次閱讀

NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實(shí)現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?557次閱讀

【鴻蒙】NAPI 框架生成工具實(shí)現(xiàn)流程

NAPI 框架生成工具可以根據(jù)用戶指定路徑下的 ts(typescript)接口文件一鍵生成 NAPI 框架代碼、業(yè)務(wù)代碼

發(fā)表于 02-28 17:00 ?740次閱讀

探索OpenAI Sora視頻AI生成技術(shù)及其應(yīng)用如何使用指南

的應(yīng)用范圍從娛樂和教育到營銷和內(nèi)容創(chuàng)作等各個(gè)領(lǐng)域都有巨大潛力。 Sora視頻AI的介紹 Sora視頻AI是一種先進(jìn)的人工智能工具，它利用深度學(xué)習(xí)算法根據(jù)用戶提供的文本描述生成視頻。這意

發(fā)表于 02-20 12:01 ?1508次閱讀

Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強(qiáng)大，而Stable Diffusion是許多其他文本到圖像

發(fā)表于 02-19 16:03 ?1000次閱讀

OpenAI發(fā)布首個(gè)視頻生成模型Sora

OpenAI近日宣布推出其全新的文本到視頻生成模型——Sora。這一突破性的技術(shù)將視頻創(chuàng)作帶入了一個(gè)全新的紀(jì)元，為用戶提供了前所未有的創(chuàng)作可

發(fā)表于 02-18 10:07 ?1122次閱讀