欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP領(lǐng)域的語言偏置問題分析

深度學(xué)習(xí)自然語言處理 ? 來源:南大NLP ? 2024-01-03 11:00 ? 次閱讀

來自:南大NLP

01研究動(dòng)機(jī)

許多研究證明,學(xué)術(shù)論文表達(dá)的nativeness會(huì)影響其被接受發(fā)表的可能性[1, 2]。先前的研究也揭示了非英語母語的作者在國(guó)際期刊發(fā)表論文時(shí)所經(jīng)歷的壓力和焦慮。我們通過對(duì)自然語言處理(NLP)論文摘要進(jìn)行全面的統(tǒng)計(jì)分析,發(fā)現(xiàn)不同語言背景的作者在寫作中的詞匯、形態(tài)、句法和連貫性方面有明顯的差異,這表明NLP領(lǐng)域存在語言偏置的可能性。因此,我們提出了一系列建議,以幫助學(xué)術(shù)期刊和會(huì)議的出版社改進(jìn)他們對(duì)論文作者的指南和資源,以增強(qiáng)學(xué)術(shù)研究的包容性和公平性。

02數(shù)據(jù)收集

為了分析NLP領(lǐng)域的語言偏置,我們收集的論文摘要來自于ACL和EMNLP會(huì)議上發(fā)表的論文,以及arXiv.org的論文,標(biāo)簽為“Computation and Language”。本文研究中,我們假設(shè)第一作者是文章的撰寫者。為了確定每篇文章的第一作者的國(guó)籍,我們?cè)O(shè)計(jì)了一些啟發(fā)式方法。首先,我們通過提取電子郵件地址來確定作者所屬機(jī)構(gòu)的國(guó)籍。然后,我們使用一個(gè)姓名起源數(shù)據(jù)庫來確定第一作者是否與該機(jī)構(gòu)具有相同的國(guó)籍。在機(jī)構(gòu)國(guó)籍未知或作者國(guó)籍與機(jī)構(gòu)國(guó)籍不太可能相符的情況下,這些摘要將被丟棄。最后,為了確保有足夠的數(shù)據(jù)進(jìn)行分析,我們保留了數(shù)據(jù)集中摘要最多的五個(gè)國(guó)家的數(shù)據(jù)。這些國(guó)家分別是中國(guó)、美國(guó)、德國(guó)、日本和印度。數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。

表1:數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)

c3399924-a97e-11ee-8b88-92fbcf53809c.png

03分析

我們的分析涵蓋了詞匯、形態(tài)句法連貫性等語言特性,這被認(rèn)為是語法能力和文本能力的核心組成部分[3]。以下是對(duì)每種特性的分析和討論。

3.1 詞匯

我們從兩個(gè)不同的層次分析不同國(guó)家使用的詞匯特征。首先,我們通過計(jì)算類符行符比(token-type ratio)來研究詞匯的多樣性。其次,我們通過詞匯束(lexical bundle)分析來探索多詞級(jí)別的詞匯,從中找出常用的詞匯塊。

3.1.1 詞匯多樣性

為了分析詞匯多樣性,我們計(jì)算每個(gè)文本的類符行符比(token-type ratio)。類符行符比通過將文本中獨(dú)特詞的數(shù)量除以總詞數(shù)來計(jì)算。較高的比率表示更高的詞匯多樣性。統(tǒng)計(jì)結(jié)果如表2中所示。

表2: 平均類符行符比和詞匯鏈長(zhǎng)度

c34b5b82-a97e-11ee-8b88-92fbcf53809c.png

從結(jié)果中可以看到,與其他語料庫相比,美國(guó)和德國(guó)的語料庫有相對(duì)稍高的類符行符比(token-type ratio)。我們假設(shè)這是由于使用同義詞、下義詞和上義詞的增加所導(dǎo)致的。為了驗(yàn)證這點(diǎn),我們計(jì)算了詞匯鏈的長(zhǎng)度,其中每個(gè)鏈包含一個(gè)摘要中所有語義相關(guān)的詞匯;這些詞匯可以通過同義詞、下義詞或上義詞來進(jìn)行語義關(guān)聯(lián)。所有名詞的平均鏈長(zhǎng)度展示在表2的右側(cè)列中??梢钥吹?,美國(guó)語料庫中的平均詞匯鏈長(zhǎng)度是所有語料庫中最長(zhǎng)的,這意味著平均而言他們會(huì)使用更廣泛的詞匯來描述類似概念。相比之下,日本和印度的語料庫具有最短的平均鏈長(zhǎng)度,相對(duì)稍少的語義相關(guān)術(shù)語的使用是一個(gè)可能的因素。

3.1.2 詞匯束

為了捕捉不同國(guó)家的作家如何使用詞匯束,我們對(duì)四個(gè)詞匯束的使用模式進(jìn)行了分析。我們通過保留超過預(yù)定頻率閾值和分散閾值的詞匯束來確保每個(gè)語料庫的代表性。表3展示了詞匯束的頻率(Bundles per Million Words)、獨(dú)特詞匯束的數(shù)量(Unique Bundles)和不同語法類別的詞匯束數(shù)量。

表3:四個(gè)詞匯束統(tǒng)計(jì)信息

c3593180-a97e-11ee-8b88-92fbcf53809c.png

從表3中可以看出,在不同的語料庫之間,詞匯束的頻率存在很大的差異。例如,在中國(guó)、日本和印度的語料庫中,詞匯束的使用量是美國(guó)語料庫的兩倍以上,而美國(guó)語料庫的使用量最少(Bundles per Million Words)。此外,還可以觀察到非英語母語的語料庫中使用的獨(dú)特詞匯束數(shù)量(Unique Bundles)比美國(guó)語料庫更多。第二語言使用者使用詞匯束的情況已經(jīng)在文獻(xiàn)中廣泛研究過[4, 5, 6, 7],其中有一種假設(shè)是增加使用次數(shù)是因?yàn)樽髡咭蕾囀褂霉潭ǖ脑~匯表達(dá)式以產(chǎn)生更符合學(xué)術(shù)要求的文本,并避免產(chǎn)生被視為非傳統(tǒng)的表達(dá)方式[7]。

我們更深入地研究了詞匯束在摘要中特定功能的使用,即引入論文主要思想的功能。該功能的規(guī)范化束計(jì)數(shù)如表4所示。

表4: 表達(dá)引入論文主要思想的詞匯束頻率(每百萬詞)

c362bd86-a97e-11ee-8b88-92fbcf53809c.png

可以看到,在中國(guó)、印度和日本的語料庫中,這個(gè)特定功能的詞匯束使用率很高,使用頻率比美國(guó)的語料庫高出41%(日本語料庫)到69%(中國(guó)語料庫)。然而,我們注意到這三個(gè)語料庫中的模式有所不同。例如,在中國(guó)語料庫中,總體使用量較高似乎可以歸因于一個(gè)特定詞匯束的高使用率(in this paper we)。如果將其與日本語料庫進(jìn)行對(duì)比,我們可以看到盡管詞匯束的總體使用仍然很高,但使用情況分布在更廣泛的詞匯束范圍內(nèi),而不是一個(gè)單一的詞匯束。

3.2 形態(tài)

為了分析形態(tài)學(xué)維度,我們調(diào)查了五個(gè)國(guó)家作家使用不同動(dòng)詞形式的分布情況。具體來說,對(duì)于每個(gè)語料庫中的句子,我們確定主動(dòng)詞,并根據(jù)其是否是過去時(shí)態(tài)、過去分詞、基本形式、第三人稱現(xiàn)在時(shí)、非第三人稱現(xiàn)在時(shí)或動(dòng)名詞來分類動(dòng)詞形式。分布結(jié)果如圖1所示。

c37360b4-a97e-11ee-8b88-92fbcf53809c.png

圖 1:每個(gè)語料庫中動(dòng)詞形式的分布

根據(jù)分析,我們發(fā)現(xiàn)這些分布在不同地點(diǎn)上相當(dāng)一致。然而,還是存在一些例外情況。例如,對(duì)于過去時(shí)使用(VBD),日本語料庫顯示出這種動(dòng)詞形式的使用更頻繁,超過12%的動(dòng)詞帶有VBD標(biāo)記。這比其他地點(diǎn)的使用頻率高出兩倍以上。相反地,非第三人稱現(xiàn)在時(shí)(VBP)在日本語料庫中使用相對(duì)較少,有45.5%的動(dòng)詞使用這種形式,而美國(guó)語料庫中有56%的動(dòng)詞使用這種形式(這是最頻繁的情況)。

3.3 句法

在句法分析中,我們探索短語級(jí)別、從句級(jí)別和句子級(jí)別的復(fù)雜性。為了做到這點(diǎn),我們使用了多種測(cè)量方法:名詞短語修飾語的平均數(shù)量、每個(gè)句子中的從句數(shù)量、平均解析樹深度和平均句子長(zhǎng)度。分析結(jié)果如表5所示。

表5:句法復(fù)雜度指標(biāo)

c37e4b5a-a97e-11ee-8b88-92fbcf53809c.png

我們觀察到在名詞短語層面上,與數(shù)據(jù)集中的其他國(guó)家相比,美國(guó)和德國(guó)的語料庫表現(xiàn)出較低的復(fù)雜性(即,較少使用名詞短語修飾語)。然而,當(dāng)我們觀察從句和句子的層面時(shí),來自美國(guó)和德國(guó)的文本比其他國(guó)家的寫作表現(xiàn)出更高的復(fù)雜性。這一觀察意味著在表達(dá)復(fù)雜思想方面可能存在一些不同的偏好,其中一種選擇是通過更多的短語修飾語來表達(dá)復(fù)雜性,而另一種選擇是將句子拆分成多個(gè)從句。

3.4 連貫性

與已有分析第二語言使用者寫作連貫性的研究[8, 9, 10, 11]相似,我們比較了不同國(guó)家作者之間的語篇連接詞的使用情況。為此,我們記錄了所有來自[12]提供的語篇連接詞清單中的連接詞的使用。平均每個(gè)句子的語篇連接詞數(shù)量如表6所示。

表6: 每個(gè)句子中平均的語篇連接詞數(shù)量

c38ce55c-a97e-11ee-8b88-92fbcf53809c.png

如上所述,可以看出,美國(guó)和德國(guó)的文本中使用了更多的鏈接詞。為了探究不同國(guó)家的鏈接詞偏好,我們列出了與美國(guó)語料庫相比每個(gè)語料庫使用率最高的五個(gè)連詞。結(jié)果如表7所示。

表7:與美國(guó)語料庫相比,使用比例最高的五個(gè)語篇連接詞

c394fb0c-a97e-11ee-8b88-92fbcf53809c.png

可以看出,每個(gè)語料庫都有自己獨(dú)特的語篇連接詞集,在與整個(gè)數(shù)據(jù)集相比時(shí)更受偏愛。例如,在中國(guó)語料庫中,firstly 是一種高度偏愛的連接詞,比來自美國(guó)的作者使用頻率高出11倍。同樣,besides 也是中國(guó)作者高度偏愛的連接詞,在中國(guó)語料庫中的出現(xiàn)頻率比美國(guó)語料庫高出10倍以上。我們還注意到,德國(guó)、印度和日本語料庫中對(duì)consequential(以結(jié)果為導(dǎo)向)連接詞有偏好,其中hence、thereby和therefore的出現(xiàn)頻率顯著高于美國(guó)語料庫(其中一些未在表中列出,因?yàn)樗鼈儍H略遜于前5位)。

04結(jié)論和推薦

在本文研究中,我們致力于解決學(xué)術(shù)出版中的語言偏置問題。我們對(duì)自然語言處理領(lǐng)域的學(xué)術(shù)寫作進(jìn)行了全面對(duì)比分析,發(fā)現(xiàn)了許多特征在來自不同國(guó)籍的作者之間存在很大差異。這些發(fā)現(xiàn)凸顯了語言偏置的潛在風(fēng)險(xiǎn)。為了解決這個(gè)問題,我們概述了一套推薦措施,建議學(xué)術(shù)期刊和會(huì)議在他們的作者指南中如何支持來自全球各地的論文作者。我們的建議專注于本研究中四個(gè)語言特性。例如,在不同作者群體之間差異較大的語言方面,作者指南中可以添加詳細(xì)的解釋和示例。另外,我們鼓勵(lì)出版商提供免費(fèi)訪問的自動(dòng)寫作工具,能夠進(jìn)行改寫等功能。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)收集
    +關(guān)注

    關(guān)注

    0

    文章

    72

    瀏覽量

    11247
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24848
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    620

    瀏覽量

    13655
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22116

原文標(biāo)題:EMNLP2023 | 通過NLP領(lǐng)域?qū)W術(shù)寫作的對(duì)比分析試圖解決語言偏置問題

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【推薦體驗(yàn)】騰訊云自然語言處理

    `相信大家對(duì)NLP自然語言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支,它與計(jì)算機(jī)和人類之間使用自然語言進(jìn)行交互密切相關(guān),而
    發(fā)表于 10-09 15:28

    NLP的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP以及三種NLP技術(shù)的詳細(xì)介紹

    本文用簡(jiǎn)潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學(xué)習(xí)NLP,再到如何利用機(jī)器學(xué)習(xí)進(jìn)行
    的頭像 發(fā)表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術(shù)的詳細(xì)介紹

    Richard Socher:NLP領(lǐng)域的發(fā)展要過三座大山

    面對(duì)自然語言處理發(fā)展(NLP)存在的諸多難題,該領(lǐng)域的大牛、Salesforce的首席科學(xué)家Richard Socher在近日指出:NLP領(lǐng)域
    的頭像 發(fā)表于 09-06 11:40 ?3839次閱讀

    自然語言處理(NLP)的學(xué)習(xí)方向

    自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用自然
    的頭像 發(fā)表于 07-06 16:30 ?1.3w次閱讀

    NLP 2019 Highlights 給NLP從業(yè)者的一個(gè)參考

    自然語言處理專家elvis在medium博客上發(fā)表了關(guān)于NLP在2019年的亮點(diǎn)總結(jié)。對(duì)于自然語言處理(NLP領(lǐng)域而言,2019年是令人印
    的頭像 發(fā)表于 09-25 16:56 ?1780次閱讀

    人工智能nlp是什么方向

    人工智能nlp是什么方向? 人工智能(AI)已經(jīng)日益普及,正在改變我們的方法和方式。AI 涵蓋了許多領(lǐng)域,其中包括機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺,自然語言處理(NLP)等。在這些方向之中,
    的頭像 發(fā)表于 08-22 16:45 ?2061次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的一個(gè)重要分支,它專注于構(gòu)建能夠理解和生成人類語言的計(jì)算機(jī)系統(tǒng)。
    的頭像 發(fā)表于 07-02 18:16 ?1355次閱讀

    NLP技術(shù)在人工智能領(lǐng)域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術(shù)作為連接人類語言
    的頭像 發(fā)表于 07-04 16:03 ?703次閱讀

    nlp自然語言處理的應(yīng)用有哪些

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解和生成自然語言。隨著技術(shù)的發(fā)展,
    的頭像 發(fā)表于 07-05 09:55 ?2843次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,旨在使計(jì)算機(jī)能夠理解、解釋和生成人類語言。以下是對(duì)
    的頭像 發(fā)表于 07-05 09:57 ?892次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到計(jì)算機(jī)對(duì)人類語言的理解和生成。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,
    的頭像 發(fā)表于 07-05 09:59 ?728次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類
    的頭像 發(fā)表于 07-09 10:26 ?1318次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解和處理人類語言。隨著技術(shù)的發(fā)展,
    的頭像 發(fā)表于 07-09 10:28 ?630次閱讀

    nlp自然語言處理基本概念及關(guān)鍵技術(shù)

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。
    的頭像 發(fā)表于 07-09 10:32 ?789次閱讀

    nlp神經(jīng)語言NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是一種心理學(xué)方法,它研究人類思維、語言和行為之間的關(guān)系。NLP
    的頭像 發(fā)表于 07-09 10:35 ?865次閱讀