來自:南大NLP
01研究動(dòng)機(jī)
許多研究證明,學(xué)術(shù)論文表達(dá)的nativeness會(huì)影響其被接受發(fā)表的可能性[1, 2]。先前的研究也揭示了非英語母語的作者在國(guó)際期刊發(fā)表論文時(shí)所經(jīng)歷的壓力和焦慮。我們通過對(duì)自然語言處理(NLP)論文摘要進(jìn)行全面的統(tǒng)計(jì)分析,發(fā)現(xiàn)不同語言背景的作者在寫作中的詞匯、形態(tài)、句法和連貫性方面有明顯的差異,這表明NLP領(lǐng)域存在語言偏置的可能性。因此,我們提出了一系列建議,以幫助學(xué)術(shù)期刊和會(huì)議的出版社改進(jìn)他們對(duì)論文作者的指南和資源,以增強(qiáng)學(xué)術(shù)研究的包容性和公平性。
02數(shù)據(jù)收集
為了分析NLP領(lǐng)域的語言偏置,我們收集的論文摘要來自于ACL和EMNLP會(huì)議上發(fā)表的論文,以及arXiv.org的論文,標(biāo)簽為“Computation and Language”。本文研究中,我們假設(shè)第一作者是文章的撰寫者。為了確定每篇文章的第一作者的國(guó)籍,我們?cè)O(shè)計(jì)了一些啟發(fā)式方法。首先,我們通過提取電子郵件地址來確定作者所屬機(jī)構(gòu)的國(guó)籍。然后,我們使用一個(gè)姓名起源數(shù)據(jù)庫來確定第一作者是否與該機(jī)構(gòu)具有相同的國(guó)籍。在機(jī)構(gòu)國(guó)籍未知或作者國(guó)籍與機(jī)構(gòu)國(guó)籍不太可能相符的情況下,這些摘要將被丟棄。最后,為了確保有足夠的數(shù)據(jù)進(jìn)行分析,我們保留了數(shù)據(jù)集中摘要最多的五個(gè)國(guó)家的數(shù)據(jù)。這些國(guó)家分別是中國(guó)、美國(guó)、德國(guó)、日本和印度。數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。
表1:數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)
03分析
我們的分析涵蓋了詞匯、形態(tài)、句法和連貫性等語言特性,這被認(rèn)為是語法能力和文本能力的核心組成部分[3]。以下是對(duì)每種特性的分析和討論。
3.1 詞匯
我們從兩個(gè)不同的層次分析不同國(guó)家使用的詞匯特征。首先,我們通過計(jì)算類符行符比(token-type ratio)來研究詞匯的多樣性。其次,我們通過詞匯束(lexical bundle)分析來探索多詞級(jí)別的詞匯,從中找出常用的詞匯塊。
3.1.1 詞匯多樣性
為了分析詞匯多樣性,我們計(jì)算每個(gè)文本的類符行符比(token-type ratio)。類符行符比通過將文本中獨(dú)特詞的數(shù)量除以總詞數(shù)來計(jì)算。較高的比率表示更高的詞匯多樣性。統(tǒng)計(jì)結(jié)果如表2中所示。
表2: 平均類符行符比和詞匯鏈長(zhǎng)度
從結(jié)果中可以看到,與其他語料庫相比,美國(guó)和德國(guó)的語料庫有相對(duì)稍高的類符行符比(token-type ratio)。我們假設(shè)這是由于使用同義詞、下義詞和上義詞的增加所導(dǎo)致的。為了驗(yàn)證這點(diǎn),我們計(jì)算了詞匯鏈的長(zhǎng)度,其中每個(gè)鏈包含一個(gè)摘要中所有語義相關(guān)的詞匯;這些詞匯可以通過同義詞、下義詞或上義詞來進(jìn)行語義關(guān)聯(lián)。所有名詞的平均鏈長(zhǎng)度展示在表2的右側(cè)列中??梢钥吹?,美國(guó)語料庫中的平均詞匯鏈長(zhǎng)度是所有語料庫中最長(zhǎng)的,這意味著平均而言他們會(huì)使用更廣泛的詞匯來描述類似概念。相比之下,日本和印度的語料庫具有最短的平均鏈長(zhǎng)度,相對(duì)稍少的語義相關(guān)術(shù)語的使用是一個(gè)可能的因素。
3.1.2 詞匯束
為了捕捉不同國(guó)家的作家如何使用詞匯束,我們對(duì)四個(gè)詞匯束的使用模式進(jìn)行了分析。我們通過保留超過預(yù)定頻率閾值和分散閾值的詞匯束來確保每個(gè)語料庫的代表性。表3展示了詞匯束的頻率(Bundles per Million Words)、獨(dú)特詞匯束的數(shù)量(Unique Bundles)和不同語法類別的詞匯束數(shù)量。
表3:四個(gè)詞匯束統(tǒng)計(jì)信息
從表3中可以看出,在不同的語料庫之間,詞匯束的頻率存在很大的差異。例如,在中國(guó)、日本和印度的語料庫中,詞匯束的使用量是美國(guó)語料庫的兩倍以上,而美國(guó)語料庫的使用量最少(Bundles per Million Words)。此外,還可以觀察到非英語母語的語料庫中使用的獨(dú)特詞匯束數(shù)量(Unique Bundles)比美國(guó)語料庫更多。第二語言使用者使用詞匯束的情況已經(jīng)在文獻(xiàn)中廣泛研究過[4, 5, 6, 7],其中有一種假設(shè)是增加使用次數(shù)是因?yàn)樽髡咭蕾囀褂霉潭ǖ脑~匯表達(dá)式以產(chǎn)生更符合學(xué)術(shù)要求的文本,并避免產(chǎn)生被視為非傳統(tǒng)的表達(dá)方式[7]。
我們更深入地研究了詞匯束在摘要中特定功能的使用,即引入論文主要思想的功能。該功能的規(guī)范化束計(jì)數(shù)如表4所示。
表4: 表達(dá)引入論文主要思想的詞匯束頻率(每百萬詞)
可以看到,在中國(guó)、印度和日本的語料庫中,這個(gè)特定功能的詞匯束使用率很高,使用頻率比美國(guó)的語料庫高出41%(日本語料庫)到69%(中國(guó)語料庫)。然而,我們注意到這三個(gè)語料庫中的模式有所不同。例如,在中國(guó)語料庫中,總體使用量較高似乎可以歸因于一個(gè)特定詞匯束的高使用率(in this paper we)。如果將其與日本語料庫進(jìn)行對(duì)比,我們可以看到盡管詞匯束的總體使用仍然很高,但使用情況分布在更廣泛的詞匯束范圍內(nèi),而不是一個(gè)單一的詞匯束。
3.2 形態(tài)
為了分析形態(tài)學(xué)維度,我們調(diào)查了五個(gè)國(guó)家作家使用不同動(dòng)詞形式的分布情況。具體來說,對(duì)于每個(gè)語料庫中的句子,我們確定主動(dòng)詞,并根據(jù)其是否是過去時(shí)態(tài)、過去分詞、基本形式、第三人稱現(xiàn)在時(shí)、非第三人稱現(xiàn)在時(shí)或動(dòng)名詞來分類動(dòng)詞形式。分布結(jié)果如圖1所示。
圖 1:每個(gè)語料庫中動(dòng)詞形式的分布
根據(jù)分析,我們發(fā)現(xiàn)這些分布在不同地點(diǎn)上相當(dāng)一致。然而,還是存在一些例外情況。例如,對(duì)于過去時(shí)使用(VBD),日本語料庫顯示出這種動(dòng)詞形式的使用更頻繁,超過12%的動(dòng)詞帶有VBD標(biāo)記。這比其他地點(diǎn)的使用頻率高出兩倍以上。相反地,非第三人稱現(xiàn)在時(shí)(VBP)在日本語料庫中使用相對(duì)較少,有45.5%的動(dòng)詞使用這種形式,而美國(guó)語料庫中有56%的動(dòng)詞使用這種形式(這是最頻繁的情況)。
3.3 句法
在句法分析中,我們探索短語級(jí)別、從句級(jí)別和句子級(jí)別的復(fù)雜性。為了做到這點(diǎn),我們使用了多種測(cè)量方法:名詞短語修飾語的平均數(shù)量、每個(gè)句子中的從句數(shù)量、平均解析樹深度和平均句子長(zhǎng)度。分析結(jié)果如表5所示。
表5:句法復(fù)雜度指標(biāo)
我們觀察到在名詞短語層面上,與數(shù)據(jù)集中的其他國(guó)家相比,美國(guó)和德國(guó)的語料庫表現(xiàn)出較低的復(fù)雜性(即,較少使用名詞短語修飾語)。然而,當(dāng)我們觀察從句和句子的層面時(shí),來自美國(guó)和德國(guó)的文本比其他國(guó)家的寫作表現(xiàn)出更高的復(fù)雜性。這一觀察意味著在表達(dá)復(fù)雜思想方面可能存在一些不同的偏好,其中一種選擇是通過更多的短語修飾語來表達(dá)復(fù)雜性,而另一種選擇是將句子拆分成多個(gè)從句。
3.4 連貫性
與已有分析第二語言使用者寫作連貫性的研究[8, 9, 10, 11]相似,我們比較了不同國(guó)家作者之間的語篇連接詞的使用情況。為此,我們記錄了所有來自[12]提供的語篇連接詞清單中的連接詞的使用。平均每個(gè)句子的語篇連接詞數(shù)量如表6所示。
表6: 每個(gè)句子中平均的語篇連接詞數(shù)量
如上所述,可以看出,美國(guó)和德國(guó)的文本中使用了更多的鏈接詞。為了探究不同國(guó)家的鏈接詞偏好,我們列出了與美國(guó)語料庫相比每個(gè)語料庫使用率最高的五個(gè)連詞。結(jié)果如表7所示。
表7:與美國(guó)語料庫相比,使用比例最高的五個(gè)語篇連接詞
可以看出,每個(gè)語料庫都有自己獨(dú)特的語篇連接詞集,在與整個(gè)數(shù)據(jù)集相比時(shí)更受偏愛。例如,在中國(guó)語料庫中,firstly 是一種高度偏愛的連接詞,比來自美國(guó)的作者使用頻率高出11倍。同樣,besides 也是中國(guó)作者高度偏愛的連接詞,在中國(guó)語料庫中的出現(xiàn)頻率比美國(guó)語料庫高出10倍以上。我們還注意到,德國(guó)、印度和日本語料庫中對(duì)consequential(以結(jié)果為導(dǎo)向)連接詞有偏好,其中hence、thereby和therefore的出現(xiàn)頻率顯著高于美國(guó)語料庫(其中一些未在表中列出,因?yàn)樗鼈儍H略遜于前5位)。
04結(jié)論和推薦
在本文研究中,我們致力于解決學(xué)術(shù)出版中的語言偏置問題。我們對(duì)自然語言處理領(lǐng)域的學(xué)術(shù)寫作進(jìn)行了全面對(duì)比分析,發(fā)現(xiàn)了許多特征在來自不同國(guó)籍的作者之間存在很大差異。這些發(fā)現(xiàn)凸顯了語言偏置的潛在風(fēng)險(xiǎn)。為了解決這個(gè)問題,我們概述了一套推薦措施,建議學(xué)術(shù)期刊和會(huì)議在他們的作者指南中如何支持來自全球各地的論文作者。我們的建議專注于本研究中四個(gè)語言特性。例如,在不同作者群體之間差異較大的語言方面,作者指南中可以添加詳細(xì)的解釋和示例。另外,我們鼓勵(lì)出版商提供免費(fèi)訪問的自動(dòng)寫作工具,能夠進(jìn)行改寫等功能。
審核編輯:湯梓紅
-
數(shù)據(jù)收集
+關(guān)注
關(guān)注
0文章
72瀏覽量
11247 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24848 -
自然語言處理
+關(guān)注
關(guān)注
1文章
620瀏覽量
13655 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22116
原文標(biāo)題:EMNLP2023 | 通過NLP領(lǐng)域?qū)W術(shù)寫作的對(duì)比分析試圖解決語言偏置問題
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【推薦體驗(yàn)】騰訊云自然語言處理
NLP的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行NLP以及三種NLP技術(shù)的詳細(xì)介紹
![<b class='flag-5'>NLP</b>的介紹和如何利用機(jī)器學(xué)習(xí)進(jìn)行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術(shù)的詳細(xì)介紹](https://file.elecfans.com/web1/M00/53/19/pIYBAFscjWqAKPqjAAAWEl98hww098.jpg)
評(píng)論