本文選自中國(guó)工程院院刊《Engineering》2022年第11期
作者:王海峰 , 吳華 , 何中軍 , 黃亮 , Kenneth Ward Church
編者按
機(jī)器翻譯使用計(jì)算機(jī)將一種語(yǔ)言翻譯成另一種語(yǔ)言,具有低成本、高效率和高翻譯質(zhì)量等優(yōu)勢(shì),在語(yǔ)音翻譯、同聲傳譯自動(dòng)化等許多領(lǐng)域得到廣泛應(yīng)用。隨著雙語(yǔ)語(yǔ)料庫(kù)的不斷建設(shè)和完善,基于語(yǔ)料庫(kù)的機(jī)器翻譯逐漸成為主流,如神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯是機(jī)器從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí),而不依靠人類專家撰寫規(guī)則,可以顯著提升翻譯質(zhì)量,但在處理語(yǔ)序差異大的語(yǔ)言翻譯時(shí)仍然面臨一些挑戰(zhàn)。
中國(guó)工程院院刊《Engineering》2022年第11期刊發(fā)百度集團(tuán)王海峰博士研究團(tuán)隊(duì)的《機(jī)器翻譯研究進(jìn)展》一文。文章首先回顧了機(jī)器翻譯的發(fā)展歷程,從基于規(guī)則的機(jī)器翻譯、基于實(shí)例的機(jī)器翻譯,到統(tǒng)計(jì)機(jī)器翻譯。然后詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)的進(jìn)展,包括基本原理和當(dāng)前主流模型以及多語(yǔ)言翻譯;介紹了機(jī)器同聲傳譯的最新進(jìn)展,探討如何在翻譯質(zhì)量和時(shí)間延遲方面取得平衡;總結(jié)機(jī)器翻譯豐富的產(chǎn)品形式和應(yīng)用。最后文章簡(jiǎn)要討論了機(jī)器翻譯面臨的挑戰(zhàn)和未來(lái)的研究方向。
一、機(jī)器翻譯發(fā)展簡(jiǎn)史
機(jī)器翻譯(MT)研究如何使用計(jì)算機(jī)將一種語(yǔ)言翻譯成另一種語(yǔ)言。第一臺(tái)計(jì)算機(jī)——電子數(shù)字積分計(jì)算機(jī)——問(wèn)世一年之后,Warren Weaver于1947年首次提出了機(jī)器翻譯的設(shè)想。從那時(shí)起,機(jī)器翻譯就被認(rèn)為是自然語(yǔ)言處理(NLP)領(lǐng)域中最具挑戰(zhàn)性的任務(wù)之一。
從方法上來(lái)看,機(jī)器翻譯技術(shù)可以分為兩大類:基于規(guī)則的方法和基于語(yǔ)料庫(kù)的方法。從機(jī)器翻譯設(shè)想提出到20世紀(jì)90年代,基于規(guī)則的方法一直占據(jù)主導(dǎo)地位?;谝?guī)則的機(jī)器翻譯(RBMT)使用雙語(yǔ)詞典和人工撰寫的規(guī)則將源語(yǔ)言文本翻譯成目標(biāo)語(yǔ)言文本。然而,人工撰寫規(guī)則成本很高,規(guī)則維護(hù)難度大,很難從一個(gè)領(lǐng)域轉(zhuǎn)換到另一個(gè)領(lǐng)域,從一種語(yǔ)言轉(zhuǎn)換到另一種語(yǔ)言。因此,基于規(guī)則的系統(tǒng)很難擴(kuò)展到開放領(lǐng)域翻譯和多語(yǔ)言翻譯。機(jī)器翻譯發(fā)展初期其主要被應(yīng)用于軍事領(lǐng)域。1954年,喬治敦大學(xué)與IBM公司合作,首次使用IBM-701計(jì)算機(jī)完成了將俄語(yǔ)翻譯為英語(yǔ)的實(shí)驗(yàn),拉開了機(jī)器翻譯從夢(mèng)想走向現(xiàn)實(shí)的序幕。之后的十多年里,機(jī)器翻譯一直是熱點(diǎn)研究領(lǐng)域。但隨著1966年美國(guó)語(yǔ)言自動(dòng)處理咨詢委員會(huì)(ALPAC)發(fā)表關(guān)于機(jī)器翻譯的報(bào)告,這股熱潮戛然而止。該報(bào)告對(duì)機(jī)器翻譯持懷疑態(tài)度,導(dǎo)致機(jī)器翻譯研究經(jīng)費(fèi)大幅削減,相關(guān)研究變得極其困難。在機(jī)器翻譯繁榮發(fā)展的1962年,成立了當(dāng)今計(jì)算語(yǔ)言學(xué)領(lǐng)域最具影響力的學(xué)術(shù)組織——國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(Association for Computational Linguistics,ACL),其成立初期的名字為機(jī)器翻譯與計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(Association for Machine Translation and Computational Linguistics,AMTCL)。然而到1968年,ALPAC報(bào)告發(fā)表后,機(jī)器翻譯發(fā)展進(jìn)入蕭條期,該學(xué)會(huì)將“MT”從其名稱中刪除。即便是在機(jī)器翻譯研究遇冷的這段時(shí)間,研究人員也一直不斷嘗試各種方法以提高翻譯質(zhì)量。1965年,自然語(yǔ)言處理領(lǐng)域的研究人員舉辦了第一屆國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)議(COLING),會(huì)議重點(diǎn)是基于規(guī)則的句法分析和翻譯。從20世紀(jì)70年代開始,RBMT方法變得更加成熟。1978年,SYSTRAN公司推出了商業(yè)翻譯系統(tǒng),這是當(dāng)時(shí)基于規(guī)則的機(jī)器翻譯系統(tǒng)取得商業(yè)化應(yīng)用的著名系統(tǒng)之一。谷歌在2007年之前一直使用SYSTRAN公司的機(jī)器翻譯服務(wù)。
隨著雙語(yǔ)語(yǔ)料庫(kù)的不斷建設(shè)和完善,基于語(yǔ)料庫(kù)的機(jī)器翻譯逐漸成為主流。其主要有三種方法:基于實(shí)例的機(jī)器翻譯(EBMT)、統(tǒng)計(jì)機(jī)器翻譯(SMT)和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)。20世紀(jì)80年代中期,研究人員提出了EBMT方法,其主要思想是通過(guò)模仿從雙語(yǔ)語(yǔ)料庫(kù)中檢索出的相似例句來(lái)實(shí)現(xiàn)翻譯。EBMT的翻譯效果依賴于檢索到的例句質(zhì)量。檢索到的例句質(zhì)量越高、與原文的匹配度越大,翻譯效果越好。然而,由于雙語(yǔ)語(yǔ)料庫(kù)難以涵蓋所有語(yǔ)言現(xiàn)象,導(dǎo)致EBMT方法在檢索相似例句時(shí)覆蓋率較低,進(jìn)而影響翻譯質(zhì)量。因此,EBMT方法通常應(yīng)用于計(jì)算機(jī)輔助翻譯系統(tǒng),提供相似例句作為翻譯參考。
1990年,Brown等提出了SMT方法,其主要思想是機(jī)器從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí),而不是依靠人類專家撰寫規(guī)則。進(jìn)一步地,在1993年,他們提出了5個(gè)SMT模型,形式化地刻畫翻譯過(guò)程。由于SMT方法的復(fù)雜性,以及20世紀(jì)80~90年代RBMT在商業(yè)應(yīng)用中的主導(dǎo)地位,當(dāng)時(shí)SMT方法并未被廣泛采用。然而,統(tǒng)計(jì)方法的出現(xiàn)受到學(xué)術(shù)界的重視。1996年,研究人員發(fā)起并召開了第一屆自然語(yǔ)言處理中的經(jīng)驗(yàn)方法會(huì)議(EMNLP),其目的是匯集來(lái)自一系列不同學(xué)科的經(jīng)驗(yàn)方法,包括語(yǔ)言學(xué)中基于語(yǔ)料庫(kù)的方法和工程學(xué)中的信息論。1999年,研究人員在約翰斯·霍普金斯大學(xué)舉辦了一場(chǎng)夏季研討會(huì)。研討會(huì)的成果之一是復(fù)現(xiàn)了Brown等提出的5個(gè)模型,并發(fā)布了一個(gè)名為“Egypt”的SMT工具包,大大降低了SMT的研究門檻。隨后,詞對(duì)齊工具GIZA和GIZA++相繼發(fā)布。2003年,基于短語(yǔ)的SMT方法進(jìn)一步提高了機(jī)器翻譯質(zhì)量?;诖朔椒ǖ拈_源系統(tǒng)“Pharaoh”及其升級(jí)版本“Moses”極大地促進(jìn)了SMT系統(tǒng)的發(fā)展?;谝陨祥_源工具及系統(tǒng),SMT方法得到廣泛研究和應(yīng)用。2006年,谷歌推出了以基于短語(yǔ)的SMT為主要系統(tǒng)的互聯(lián)網(wǎng)翻譯服務(wù)。微軟和百度等公司也在隨后幾年推出了機(jī)器翻譯服務(wù)。需要注意的是,在實(shí)際應(yīng)用中,單一模型很難解決豐富多樣的翻譯需求。因此,實(shí)際應(yīng)用中通常采用集成了多種機(jī)器翻譯模型的混合方法,以提高翻譯質(zhì)量。受SMT模型成功的鼓舞,研究人員提出了多種創(chuàng)新方法來(lái)進(jìn)一步提升SMT的性能,包括引入形態(tài)學(xué)信息的因子化SMT模型、層次化SMT模型以及在源端和(或)目標(biāo)端具有句法分析樹的基于句法的SMT模型。
SMT使用對(duì)數(shù)線性模型集成多個(gè)人工設(shè)計(jì)的特征,如翻譯模型、語(yǔ)言模型和重排序模型等,盡管能夠較顯著地提升翻譯質(zhì)量,但在處理語(yǔ)序差異大的語(yǔ)言對(duì)翻譯時(shí)仍然面臨嚴(yán)重的詞語(yǔ)重排序問(wèn)題。隨著深度學(xué)習(xí)技術(shù)在語(yǔ)音處理、計(jì)算機(jī)視覺等領(lǐng)域的快速發(fā)展,研究人員開始將深度學(xué)習(xí)技術(shù)應(yīng)用于機(jī)器翻譯。2014年,Bahdanau等和Sutskever等提出了端到端神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,并正式使用了“神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯”(neural machine translation,NMT)一詞。NMT的基本思路是將源語(yǔ)言映射成稠密向量(語(yǔ)義表示),然后基于注意力機(jī)制生成譯文。隨后,Dong等提出了一種基于NMT的多語(yǔ)言翻譯框架,這被認(rèn)為是NMT多語(yǔ)言翻譯的突破性方法。2015年,百度部署了世界上第一個(gè)大規(guī)模NMT系統(tǒng)。2016年,谷歌也推出了NMT系統(tǒng)。此后,其他公司陸續(xù)發(fā)布了NMT系統(tǒng)。自2014年NMT被提出以來(lái),僅用了大約一年的時(shí)間就實(shí)現(xiàn)了大規(guī)模在線部署。相比之下,SMT系統(tǒng)應(yīng)用于在線服務(wù)花了大約16年的時(shí)間。此后,基于卷積神經(jīng)網(wǎng)絡(luò)的翻譯模型和Transformer模型,再次顯著提高了NMT系統(tǒng)的翻譯質(zhì)量。NMT的巨大進(jìn)步甚至引發(fā)了關(guān)于機(jī)器翻譯是否可以與人工翻譯相媲美的廣泛討論。越來(lái)越多的研究圍繞NMT展開,如非自回歸模型、無(wú)監(jiān)督NMT模型和NMT預(yù)訓(xùn)練模型等,旨在提高多語(yǔ)言翻譯質(zhì)量和翻譯效率。
語(yǔ)音處理和機(jī)器翻譯取得的巨大進(jìn)步使得語(yǔ)音翻譯成為前沿和熱點(diǎn)方向。對(duì)口語(yǔ)翻譯或語(yǔ)音翻譯的探索始于1983年國(guó)際電信聯(lián)盟博覽會(huì)上展示的一個(gè)小型實(shí)驗(yàn)性自動(dòng)口譯系統(tǒng)。1988年出現(xiàn)的語(yǔ)音到語(yǔ)音(S2S)翻譯系統(tǒng)SpeechTrans,被認(rèn)為是語(yǔ)音翻譯中的一個(gè)重要里程碑式系統(tǒng)。在隨后的20年中,特別是自1991年國(guó)際先進(jìn)語(yǔ)音翻譯研究聯(lián)盟(C-STAR)成立以來(lái),從限定領(lǐng)域和限定詞匯的系統(tǒng)到開放領(lǐng)域的自然語(yǔ)音翻譯,語(yǔ)音翻譯的發(fā)展令人矚目。2004年,國(guó)際口語(yǔ)翻譯研討會(huì)(IWSLT)首次舉辦并延續(xù)至今,進(jìn)一步促進(jìn)了語(yǔ)音翻譯的發(fā)展。
隨著神經(jīng)網(wǎng)絡(luò)技術(shù)在機(jī)器翻譯和語(yǔ)音識(shí)別領(lǐng)域的發(fā)展,新的語(yǔ)音翻譯系統(tǒng)旨在實(shí)現(xiàn)同聲傳譯的自動(dòng)化,即在低時(shí)間延遲(通常只有幾秒鐘)的情況下,實(shí)現(xiàn)與源語(yǔ)言語(yǔ)音(幾乎)同步的自動(dòng)翻譯。同聲傳譯對(duì)人類來(lái)說(shuō)也是極具挑戰(zhàn)性的,需要極高的專注力來(lái)傾聽和理解源語(yǔ)言,同時(shí)需要嫻熟的翻譯技巧快速地翻譯為目標(biāo)語(yǔ)言并傳遞給聽眾。因此,全世界范圍內(nèi)合格的同聲傳譯員數(shù)量十分有限。同聲傳譯員通常由兩名或更多人組成團(tuán)隊(duì),每15~30 min交替工作,以防止錯(cuò)誤率呈指數(shù)增長(zhǎng)。受短時(shí)記憶限制,同聲傳譯員通常采用合理省略源語(yǔ)言內(nèi)容等翻譯技巧,以兼顧翻譯準(zhǔn)確度與時(shí)間延遲。因此,迫切需要開發(fā)機(jī)器同傳技術(shù),以減輕人類同傳譯員的負(fù)擔(dān),降低同傳成本。作為一項(xiàng)早期工作,Wang等提出了一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器同傳方法,將流式語(yǔ)音切分成適當(dāng)?shù)钠我蕴岣哒Z(yǔ)音翻譯質(zhì)量。為了滿足機(jī)器同傳低時(shí)延要求,Ma等提出了一種簡(jiǎn)單有效的“前綴到前綴”的機(jī)器同傳模型。該技術(shù)首次實(shí)現(xiàn)了可控時(shí)間延遲,重新激發(fā)了NLP領(lǐng)域?qū)C(jī)器同傳的研究興趣。國(guó)際上許多公司,如谷歌、微軟、臉書、華為等,紛紛加入這一方向的研究。百度等公司的機(jī)器同傳系統(tǒng)在數(shù)百場(chǎng)會(huì)議中得到了實(shí)際應(yīng)用。為了促進(jìn)相關(guān)技術(shù)發(fā)展,2020年,研究人員在ACL舉辦了第一屆國(guó)際機(jī)器同傳研討會(huì)。同年,IWSLT也開設(shè)了新的語(yǔ)音翻譯賽道。
二、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯
近年來(lái),NMT發(fā)展迅速。典型的NMT模型包含兩部分:編碼器將源句子映射為向量,解碼器基于該向量生成譯文。這個(gè)過(guò)程類似于人類翻譯。NMT模型首先“讀取”整個(gè)源句子;然后,基于對(duì)句子的理解,翻譯模型逐詞生成目標(biāo)句子。與RBMT和SMT等以前的方法相比,NMT不需要人工撰寫規(guī)則和設(shè)計(jì)特征。NMT是一個(gè)端到端的框架,直接從訓(xùn)練語(yǔ)料庫(kù)中學(xué)習(xí)語(yǔ)義表示和翻譯知識(shí)。憑借這些優(yōu)勢(shì),NMT成為機(jī)器翻譯領(lǐng)域當(dāng)前的主流方法。
本節(jié)首先介紹NMT模型,包括基于基本循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的模型及其改進(jìn),以及當(dāng)前主流的NMT模型Transformer。然后,介紹多語(yǔ)言翻譯,并討論能夠充分利用數(shù)據(jù)的回譯技術(shù)和基于樞軸語(yǔ)言的翻譯技術(shù),以及基于多任務(wù)學(xué)習(xí)的翻譯模型與多語(yǔ)言統(tǒng)一翻譯模型等。接下來(lái),介紹語(yǔ)音翻譯及機(jī)器同傳最新進(jìn)展,包括由語(yǔ)音識(shí)別(ASR)、機(jī)器翻譯和語(yǔ)音合成(TTS)組成的級(jí)聯(lián)模型,以及直接對(duì)語(yǔ)音和翻譯建模的端到端模型。
(一)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型
典型的NMT模型是基于標(biāo)準(zhǔn)RNN或其變體構(gòu)建的。給定源句子
(其中,Tx表示的x長(zhǎng)度),編碼器將壓縮為隱狀態(tài),如下所示:
式中,g(·)是激活函數(shù);ht和xt分別是在時(shí)間的隱狀態(tài)和源語(yǔ)言詞向量;t表示時(shí)間步長(zhǎng);θ是模型參數(shù)。在基本模型中,編碼器將最后一個(gè)隱狀態(tài)作為源句子的表示。然后,解碼器根據(jù)下式生成譯文:
式中,是目標(biāo)句子;p(y|x)是翻譯概率;Ty?是的y長(zhǎng)度;c是從隱狀態(tài)h生成的向量;?yt?是目標(biāo)詞;是?已經(jīng)生成的目標(biāo)詞。
標(biāo)準(zhǔn)RNN模型的缺點(diǎn)之一是信息在傳遞過(guò)程中衰減很快,導(dǎo)致長(zhǎng)句翻譯質(zhì)量嚴(yán)重下降。為了克服這一問(wèn)題,Bahdanau等提出了三種改進(jìn)方案,被廣泛應(yīng)用于NMT模型。接下來(lái)逐一介紹。
1. 注意力機(jī)制
當(dāng)生成目標(biāo)單詞時(shí),與上述基本模型中使用編碼器最后一個(gè)隱狀態(tài)來(lái)表示源句子不同,注意力機(jī)制計(jì)算目標(biāo)單詞和所有源單詞之間的關(guān)聯(lián),并評(píng)估關(guān)聯(lián)的強(qiáng)度。
式中,ct是上下文向量;hj是源單詞xj的j隱狀態(tài);j是x的單詞索引;是目標(biāo)單詞yt和hj的關(guān)聯(lián)權(quán)重,其計(jì)算公式如下:
式中,etj是由前饋神經(jīng)網(wǎng)絡(luò)計(jì)算得到的詞對(duì)齊強(qiáng)度;i是x的單詞索引。
實(shí)際上,注意力機(jī)制類似于SMT中使用的詞對(duì)齊。SMT中的詞對(duì)齊是一種“硬對(duì)齊”,表示源單詞和目標(biāo)單詞是否有連接。而NMT中的注意力機(jī)制是一種“軟對(duì)齊”,將目標(biāo)單詞通過(guò)不同權(quán)重連接到所有源單詞。注意力機(jī)制顯著提高了翻譯質(zhì)量,使NMT成為MT歷史上的一項(xiàng)突破性技術(shù)。
2. 雙向編碼
與單向編碼從左到右計(jì)算隱狀態(tài)不同,雙向編碼器根據(jù)從左到右和從右到左兩個(gè)方向計(jì)算隱狀態(tài),如和。然后將隱狀態(tài)拼接為
。因此,對(duì)于任意一個(gè)時(shí)刻,隱狀態(tài)既包含了此時(shí)刻之前的歷史信息,也包含了此時(shí)刻之后的未來(lái)信息,這再次提高了翻譯質(zhì)量。
3. 門控循環(huán)單元
門控循環(huán)單元(GRU)是傳統(tǒng)簡(jiǎn)單激活函數(shù)的一種變體。GRU類似于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),但效率更高。GRU和LSTM都允許網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)距離依賴關(guān)系,而不會(huì)受到梯度消失問(wèn)題的影響。
實(shí)驗(yàn)表明,與SMT相比,NMT有顯著進(jìn)步。然而,早期的NMT模型仍然存在缺點(diǎn),如集外詞(OOV)問(wèn)題、漏譯問(wèn)題、解碼速度慢等。為了克服這些問(wèn)題,He等提出將統(tǒng)計(jì)特征(如短語(yǔ)表、元語(yǔ)言模型和長(zhǎng)度懲罰)引入NMT。沿著這個(gè)方向,研究人員借鑒了SMT技術(shù),并將其融入NMT中,如詞語(yǔ)覆蓋度、對(duì)齊一致性、句法信息、短語(yǔ)表和翻譯建議等。Sennrich等使用字節(jié)對(duì)編碼(BPE)的壓縮算法進(jìn)行分詞,將開放詞匯表壓縮為固定大小的子詞詞匯表。該方法簡(jiǎn)單高效,被廣泛用于NMT以解決集外詞和低頻詞翻譯問(wèn)題。
基于RNN的NMT在編解碼過(guò)程中對(duì)當(dāng)前詞的處理依賴于前文信息,難以并行化。針對(duì)這一問(wèn)題,研究人員提出了多種方案以提升NMT模型并行能力。例如,將計(jì)算機(jī)視覺中常用的卷積神經(jīng)網(wǎng)絡(luò)(CNN)引入NMT ,通過(guò)卷積操作實(shí)現(xiàn)對(duì)句子中的長(zhǎng)距離單詞依賴關(guān)系高效建模,顯著提升了模型的并行化能力。
受基于CNN的NMT方法的啟發(fā),Vaswani等提出了一個(gè)名為Transformer的新型網(wǎng)絡(luò)。該網(wǎng)絡(luò)完全基于注意力機(jī)制,沒有任何循環(huán)和卷積操作。Transformer包含三種注意力:編碼器自注意力、解碼器掩碼注意力和編碼器-解碼器注意力。研究人員提出了一種新的縮放點(diǎn)積方法來(lái)計(jì)算這幾種注意力。
式中,Q、K和V分別是查詢向量、鍵向量和值向量;是縮放比例因子;KT是的K轉(zhuǎn)置。具體來(lái)說(shuō),對(duì)于每個(gè)單詞,模型通過(guò)將詞向量與不同的參數(shù)矩陣相乘來(lái)創(chuàng)建三個(gè)向量——查詢向量、鍵向量和值向量。注意力的作用是計(jì)算這些值的加權(quán)和,傳遞到下一層。
此外,研究人員還提出了一種多頭注意力機(jī)制(multi-head attention mechanism)。
式中,M是頭的個(gè)數(shù);headm= Attention?表示不同的注意力空間;???是參數(shù)矩陣。函數(shù)Concat (head1, ... , headM)將所有注意力頭拼接在一起。
與循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相比,Transformer具有更強(qiáng)的并行化和表示能力。因此,它不僅在機(jī)器翻譯任務(wù)上取得了最好效果(state-of-the-art),而且在許多其他NLP任務(wù)中也有卓越表現(xiàn)。例如,眾所周知的雙向編碼預(yù)訓(xùn)練模型BERT和知識(shí)增強(qiáng)預(yù)訓(xùn)練模型ERNIE,均基于Transformer構(gòu)建。
上述模型都是自回歸模型,在解碼時(shí)預(yù)測(cè)當(dāng)前詞需要依賴于已經(jīng)生成的單詞。這限制了模型在解碼期間的并行化能力。針對(duì)這一問(wèn)題,Gu等提出了一種非自回歸Transformer(NAT),它可以并行化地生成目標(biāo)序列。
式中,T是目標(biāo)句子的長(zhǎng)度,采用條件分布pL(T|x;Φ)建立模型;Φ是模型參數(shù)。
與在生成特殊句尾標(biāo)記(</s>)時(shí)停止解碼的自回歸模型不同,非自回歸模型首先使用pL(T|x;Φ)來(lái)預(yù)測(cè)目標(biāo)序列的長(zhǎng)度。盡管NAT在解碼過(guò)程中實(shí)現(xiàn)了顯著的加速,但翻譯質(zhì)量卻受到影響。主要原因是NAT沒有對(duì)單詞依賴性進(jìn)行建模,其對(duì)翻譯質(zhì)量的提升非常重要。受解碼效率的鼓舞,研究人員提出了許多方法改進(jìn)非自回歸模型,包括知識(shí)蒸餾、模仿學(xué)習(xí)和課程表學(xué)習(xí)等。
(二)多語(yǔ)言翻譯
不同的語(yǔ)言具有不同的形態(tài)和結(jié)構(gòu),這使得語(yǔ)言之間的翻譯不僅對(duì)機(jī)器翻譯來(lái)說(shuō)是一項(xiàng)艱巨的任務(wù),而且對(duì)人類專家而言也同樣充滿挑戰(zhàn)。例如,漢語(yǔ)和英語(yǔ)是主-謂-賓型語(yǔ)言,而日語(yǔ)和韓語(yǔ)是主-賓-謂型語(yǔ)言。在進(jìn)行漢語(yǔ)和日語(yǔ)之間的翻譯時(shí),通常需要進(jìn)行長(zhǎng)距離重新排序。此外,漢語(yǔ)是一種形態(tài)變化少的孤立型語(yǔ)言,而日語(yǔ)是一種具有豐富詞形變化的黏著型語(yǔ)言。語(yǔ)言之間的差異性增加了多語(yǔ)言機(jī)器翻譯的難度。
數(shù)據(jù)驅(qū)動(dòng)的機(jī)器翻譯方法,無(wú)論是SMT還是NMT,從大量平行語(yǔ)料中自動(dòng)學(xué)習(xí)翻譯知識(shí)。一般來(lái)說(shuō),增加訓(xùn)練數(shù)據(jù)量能提高翻譯質(zhì)量。Koehn和Knowles的實(shí)驗(yàn)表明,當(dāng)英語(yǔ)-西班牙語(yǔ)翻譯的訓(xùn)練詞數(shù)從40萬(wàn)增加到3.857億時(shí),翻譯質(zhì)量(使用自動(dòng)評(píng)價(jià)指標(biāo)BLEU度量)提高了約30%(絕對(duì)提升)。
遺憾的是,世界上大多數(shù)語(yǔ)言缺乏平行語(yǔ)料,這些語(yǔ)言也因此被稱為“資源貧乏”型語(yǔ)言。由于數(shù)據(jù)稀疏性問(wèn)題,為這些語(yǔ)言構(gòu)建NMT系統(tǒng)是一個(gè)巨大的挑戰(zhàn)。根據(jù)《互聯(lián)網(wǎng)世界統(tǒng)計(jì)》,全球十大語(yǔ)言(英語(yǔ)、漢語(yǔ)、西班牙語(yǔ)、阿拉伯語(yǔ)、葡萄牙語(yǔ)、印尼語(yǔ)/馬來(lái)語(yǔ)、法語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ))在互聯(lián)網(wǎng)上的用戶數(shù)量約占互聯(lián)網(wǎng)用戶總數(shù)的77%。其中,英語(yǔ)和漢語(yǔ)用戶分別占25.9%和19.4%,而所有其他語(yǔ)言用戶的總和僅占23.1%。對(duì)于資源豐富型語(yǔ)言,如漢語(yǔ)和英語(yǔ),可以收集數(shù)十億個(gè)句對(duì)來(lái)訓(xùn)練機(jī)器翻譯模型;然而,對(duì)于資源貧乏型語(yǔ)言對(duì),如漢語(yǔ)-印地語(yǔ)或漢語(yǔ)-斯瓦希里語(yǔ),只有數(shù)千個(gè)或更少的句對(duì)可用。
此外,部署多語(yǔ)言翻譯系統(tǒng)的成本也很高。如果在種語(yǔ)言之間部署翻譯系統(tǒng),通常需要為每個(gè)翻譯方向(漢譯英和英譯漢視為兩個(gè)翻譯方向)都構(gòu)建翻譯模型。N種語(yǔ)言互譯則需要構(gòu)建N×(N–1)個(gè)翻譯模型。
隨著NMT技術(shù)發(fā)展,研究人員一直在尋求克服上述挑戰(zhàn)的方法。一般來(lái)說(shuō),多語(yǔ)言翻譯有兩種方法:充分利用數(shù)據(jù)的方法和改進(jìn)NMT模型的方法。
針對(duì)資源貧乏型語(yǔ)言缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題,直觀的改進(jìn)方法是收集盡量多的訓(xùn)練數(shù)據(jù),并充分挖掘這些數(shù)據(jù)的潛力。與平行語(yǔ)料庫(kù)相比,大量單語(yǔ)語(yǔ)料庫(kù)更容易獲得。在NMT中,單語(yǔ)語(yǔ)料通常可用于數(shù)據(jù)擴(kuò)充。一種廣泛使用的方法是回譯,其主要思路是首先在一個(gè)小型平行語(yǔ)料庫(kù)上訓(xùn)練一個(gè)標(biāo)準(zhǔn)的NMT模型,然后使用該模型翻譯大量單語(yǔ)語(yǔ)料(例如,將目標(biāo)語(yǔ)言句子翻譯為源語(yǔ)言句子),從而生成一個(gè)可用于重新訓(xùn)練翻譯模型的“偽雙語(yǔ)語(yǔ)料庫(kù)”。在極端情況下,可能根本就沒有平行語(yǔ)料庫(kù)。為了解決該問(wèn)題,可以使用無(wú)監(jiān)督翻譯方法構(gòu)建僅基于源單語(yǔ)語(yǔ)料庫(kù)和目標(biāo)單語(yǔ)語(yǔ)料庫(kù)的翻譯系統(tǒng)。Lample等提出將不同語(yǔ)言的句子映射到相同的隱空間,并通過(guò)重構(gòu)句子來(lái)訓(xùn)練翻譯模型。Artetxe等使用改進(jìn)的SMT模型來(lái)初始化無(wú)監(jiān)督NMT模型,以進(jìn)一步提高翻譯質(zhì)量。Song等、Conneau和Lample以及Ren等提出了基于預(yù)訓(xùn)練的無(wú)監(jiān)督NMT模型。
多語(yǔ)言翻譯的另一個(gè)研究方向是充分利用資源豐富型語(yǔ)言來(lái)提高資源貧乏型語(yǔ)言的翻譯質(zhì)量。該方法可以追溯到SMT時(shí)代。使用最廣泛的方法是基于樞軸語(yǔ)言的翻譯,即使用資源豐富型語(yǔ)言作為樞軸語(yǔ)言,在資源貧乏型語(yǔ)言對(duì)之間建立橋梁。以中德翻譯為例,由于有大量的中英和英德平行語(yǔ)料,因此可以選擇英語(yǔ)作為樞軸語(yǔ)言。最簡(jiǎn)單的基于樞軸語(yǔ)言的翻譯方法是傳遞法,它使用兩個(gè)級(jí)聯(lián)翻譯系統(tǒng):源語(yǔ)-樞軸語(yǔ)翻譯系統(tǒng),將源語(yǔ)言句子翻譯成樞軸語(yǔ)言句子;以及樞軸語(yǔ)-目標(biāo)語(yǔ)翻譯系統(tǒng),將樞軸語(yǔ)言句子翻譯成目標(biāo)語(yǔ)言句子。該方法易于實(shí)現(xiàn),在實(shí)際系統(tǒng)中得到了廣泛應(yīng)用。缺點(diǎn)是級(jí)聯(lián)系統(tǒng)存在誤差傳播問(wèn)題。Wu和Wang以及Cohn和Lapata提出了一種三角定位法,通過(guò)從源語(yǔ)-樞軸語(yǔ)和樞軸語(yǔ)-目標(biāo)語(yǔ)翻譯模型中引入源語(yǔ)-目標(biāo)語(yǔ)翻譯模型來(lái)學(xué)習(xí)短語(yǔ)級(jí)別的翻譯知識(shí)。
此外,多語(yǔ)言NMT還可以使用統(tǒng)一建模方法,充分利用資源豐富型語(yǔ)言來(lái)提高資源貧乏型語(yǔ)言的翻譯質(zhì)量。傳統(tǒng)的機(jī)器翻譯方法需要為每個(gè)語(yǔ)言對(duì)和每項(xiàng)任務(wù)建立單獨(dú)的翻譯模型,而NMT使得在一個(gè)統(tǒng)一模型中跨不同任務(wù)翻譯多種語(yǔ)言成為可能。一般來(lái)說(shuō),根據(jù)源端和目標(biāo)端語(yǔ)言的數(shù)量,可以將該研究分為三類:一對(duì)多、多對(duì)一和多對(duì)多。
Dong等提出了一種用于多語(yǔ)言NMT的多任務(wù)學(xué)習(xí)方法。如圖1所示,通過(guò)共享編碼器共享源語(yǔ)言語(yǔ)義表示,該模型可以在不同語(yǔ)言對(duì)之間充分利用源語(yǔ)言語(yǔ)料庫(kù)。該方法為探索將一種源語(yǔ)言翻譯成多個(gè)目標(biāo)語(yǔ)言的問(wèn)題提供了統(tǒng)一的框架。為了在個(gè)語(yǔ)言之間部署翻譯系統(tǒng),該模型只需要訓(xùn)練一個(gè)編碼器和個(gè)解碼器。Luong等將該框架擴(kuò)展到多任務(wù),包括翻譯、句法分析和圖像描述。Zoph和Knight提出了一種多對(duì)一的NMT模型,該模型在目標(biāo)端共享解碼器。Firat等使用具有共享注意力機(jī)制的不同編碼器和解碼器進(jìn)行多對(duì)多翻譯。
圖1. 基于多任務(wù)學(xué)習(xí)的一對(duì)多NMT翻譯框架圖解。A1,A2,… ,AZ是目標(biāo)語(yǔ)言的注意力,TY1, TY2,… ,TYz是目標(biāo)語(yǔ)言,Z是目標(biāo)語(yǔ)言數(shù),stTYz(1≤ z ≤Z)是解碼端的隱狀態(tài)。
Johnson等提出了一種簡(jiǎn)單的方法,將所有語(yǔ)言放在一起訓(xùn)練一個(gè)統(tǒng)一的編碼器-解碼器模型,以執(zhí)行多語(yǔ)言翻譯。研究人員在源語(yǔ)言句子開頭添加了一個(gè)特殊標(biāo)記,以指示它被翻譯成哪種目標(biāo)語(yǔ)言。該方法允許NMT模型學(xué)習(xí)多語(yǔ)言共享表示,并且實(shí)現(xiàn)簡(jiǎn)單,無(wú)需對(duì)NMT模型結(jié)構(gòu)進(jìn)行修改。考慮到語(yǔ)言的多樣性,Tan等將語(yǔ)言分為幾個(gè)群組,并為每個(gè)群組訓(xùn)練單獨(dú)的NMT模型。
在實(shí)際系統(tǒng)中,通常將上述方法結(jié)合起來(lái),兼顧翻譯效率、部署成本等因素。得益于技術(shù)進(jìn)步,當(dāng)前的翻譯系統(tǒng)可以支持?jǐn)?shù)百個(gè)語(yǔ)言之間的翻譯。Arivazhagan等提出了一種大規(guī)模多語(yǔ)言翻譯模型,該模型在超過(guò)250億個(gè)句對(duì)上訓(xùn)練一個(gè)具有超過(guò)500億個(gè)參數(shù)的單一模型,支持103種語(yǔ)言翻譯(以英語(yǔ)作為源語(yǔ)言或者目標(biāo)語(yǔ)言,與其他102種語(yǔ)言之間的翻譯)。Fan等提出了M2M-100模型,使用75億個(gè)句對(duì)進(jìn)行訓(xùn)練,可以支持100種語(yǔ)言互譯。
(三)同聲傳譯
機(jī)器同傳的目標(biāo)是實(shí)現(xiàn)兼顧翻譯質(zhì)量和翻譯效率的高質(zhì)量實(shí)時(shí)翻譯。在整句翻譯(第2.1節(jié))中,機(jī)器翻譯模型基于整個(gè)源語(yǔ)言句子生成目標(biāo)譯文。而在機(jī)器同傳中,為了保證實(shí)時(shí)性,翻譯模型需要在未得到源語(yǔ)言句子完整內(nèi)容的條件下進(jìn)行翻譯。
目前,機(jī)器同傳的研究可以分為兩類:級(jí)聯(lián)(流水線)模型和端到端模型。
1. 級(jí)聯(lián)模型
典型的級(jí)聯(lián)機(jī)器同傳系統(tǒng)包括將源語(yǔ)音轉(zhuǎn)錄為源語(yǔ)言文本流的ASR系統(tǒng)、執(zhí)行從源文本到目標(biāo)文本翻譯的機(jī)器翻譯系統(tǒng),以及生成目標(biāo)語(yǔ)言語(yǔ)音的TTS系統(tǒng),具體如圖2所示。在實(shí)踐中,TTS系統(tǒng)是可選的,這取決于不同應(yīng)用場(chǎng)景中目標(biāo)端輸出的是文本還是語(yǔ)音。
圖2. 級(jí)聯(lián)機(jī)器同傳系統(tǒng)框架。
如前所述,機(jī)器同傳面臨的最大挑戰(zhàn)是實(shí)現(xiàn)高翻譯質(zhì)量和低時(shí)間延遲。由于ASR系統(tǒng)輸出的文本流沒有句子邊界,而傳統(tǒng)的機(jī)器翻譯系統(tǒng)將具有明確邊界的句子作為輸入。因此,ASR的輸出與機(jī)器翻譯的輸入不匹配。如果翻譯系統(tǒng)在未得到充足的源語(yǔ)言信息之前開始翻譯,則翻譯質(zhì)量會(huì)降低。反之,如果等待太多的源語(yǔ)言信息,則會(huì)增加時(shí)間延遲。
為了解決上述問(wèn)題,需要對(duì)ASR的輸出進(jìn)行切分,將切分后的結(jié)果作為機(jī)器翻譯的輸入。通常有兩種方法:固定文本長(zhǎng)度的固定策略和根據(jù)上下文動(dòng)態(tài)切分的自適應(yīng)策略。
固定策略是獨(dú)立于上下文的預(yù)定義的硬策略。此類策略根據(jù)固定長(zhǎng)度對(duì)源文本進(jìn)行切分。Ma等基于“前綴到前綴”的思路提出了wait-k策略,其中,k是模型首先讀取的單詞數(shù),此后模型邊讀入邊翻譯。也就是說(shuō),輸出總是落后于輸入k個(gè)單詞。該策略受人類同聲傳譯的啟發(fā),他們通常在演講者開始演講幾秒鐘后開始翻譯,并在演講結(jié)束后的幾秒鐘內(nèi)完成翻譯。舉例而言,如果k = 2,則使用前兩個(gè)源詞預(yù)測(cè)第一個(gè)目標(biāo)詞,使用前三個(gè)源詞和生成的第一個(gè)目標(biāo)詞預(yù)測(cè)第二個(gè)目標(biāo)詞,依此類推。形式化描述為
即使用源語(yǔ)言句子前綴而不是整個(gè)源句子來(lái)預(yù)測(cè)目標(biāo)詞。是一個(gè)單調(diào)非遞減函數(shù),表示預(yù)測(cè)時(shí)編碼器處理的源詞數(shù)。一般情況下,q(t)?可以用來(lái)表示任意長(zhǎng)度的同傳策略,其中對(duì)于所有t,0 ≤?q(t) ≤ |x|? 。兩種特殊情況除外:①?q(t) = |x|,此時(shí)翻譯模型即是傳統(tǒng)的整句翻譯模型;②?q(t)?= 0,則翻譯模型退化為一個(gè)預(yù)測(cè)模型,即不依賴源語(yǔ)言句子的任何信息就開始翻譯。固定策略簡(jiǎn)單易行,但由于缺乏上下文信息,通常會(huì)導(dǎo)致翻譯質(zhì)量下降。
自適應(yīng)策略根據(jù)上下文信息進(jìn)行動(dòng)態(tài)的源文本切分。通常有兩種方式,使用獨(dú)立的模型對(duì)源語(yǔ)言文本流進(jìn)行切分,或者在端到端框架中聯(lián)合學(xué)習(xí)切分和翻譯。自適應(yīng)策略比固定策略更靈活,取得了更好的效果。受到人類同聲傳譯員翻譯方式的啟發(fā),Zhang等提出了一種語(yǔ)義單元驅(qū)動(dòng)的機(jī)器同傳方法,將源語(yǔ)言文本流動(dòng)態(tài)切分為可獨(dú)立翻譯的片段,以同時(shí)滿足高質(zhì)量和低時(shí)延要求。
在語(yǔ)音翻譯中,有關(guān)增量TTS的研究不多。當(dāng)前主流的TTS系統(tǒng)獲取完文本中的所有單詞后才開始生成語(yǔ)音,導(dǎo)致時(shí)間延遲高。在機(jī)器同傳中,為了減少延遲,需要以增量方式生成語(yǔ)音。傳統(tǒng)的增量TTS方法基于隱馬爾可夫模型,使用語(yǔ)言特征的完整上下文,每個(gè)特征需要單獨(dú)訓(xùn)練和調(diào)參。最近的研究利用了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)。Yanagita等提出了一種基于分段的TTS,一次合成一個(gè)分段。Ma等提出了一種神經(jīng)增量詞級(jí)TTS。如圖3所示,該方法基于兩個(gè)前提:①單詞依賴關(guān)系是非常局部的;②音頻播放本質(zhì)上是順序的,可以與音頻生成同時(shí)進(jìn)行。也就是說(shuō),可以在合成后續(xù)文本時(shí)播放已經(jīng)生成的上一段音頻。綜上所述,該方法在收到前兩個(gè)單詞后開始生成第一個(gè)單詞的頻譜圖;該頻譜圖被送到聲碼器以生成第一個(gè)單詞的波形,該波形會(huì)被立即播放。
圖3. 整句TTS與增量TTS。K1和K2分別是頻譜圖和聲波生成的前瞻窗口大小。
級(jí)聯(lián)模型易于實(shí)現(xiàn),但是也存在問(wèn)題。例如,級(jí)聯(lián)系統(tǒng)中的三個(gè)模塊均需滿足實(shí)時(shí)性要求。此外,ASR錯(cuò)誤會(huì)在向下游任務(wù)傳播的過(guò)程中被放大,一個(gè)單詞識(shí)別錯(cuò)誤可能會(huì)導(dǎo)致整體的翻譯結(jié)果不可接受。因此,需要增強(qiáng)語(yǔ)音翻譯系統(tǒng)的健壯性。
2. 端到端模型
機(jī)器同傳的最終目標(biāo)是開發(fā)端到端的語(yǔ)音翻譯系統(tǒng),以便源語(yǔ)言語(yǔ)音可以直接翻譯成目標(biāo)語(yǔ)言,而無(wú)需像級(jí)聯(lián)方法那樣經(jīng)過(guò)中間階段。端到端模型不僅可以減少級(jí)聯(lián)模型中的錯(cuò)誤傳播,還可以提高效率。然而,構(gòu)建高實(shí)時(shí)性的端到端語(yǔ)音翻譯模型是極具挑戰(zhàn)性的。此外,可用于訓(xùn)練端到端模型的語(yǔ)音翻譯數(shù)據(jù)非常稀缺。目前,公開可用的機(jī)器同傳訓(xùn)練數(shù)據(jù)僅包含數(shù)百小時(shí)的演講,其中大部分是日語(yǔ)-英語(yǔ)以及歐洲語(yǔ)言之間的數(shù)據(jù)。對(duì)于中英翻譯,百度發(fā)布了一個(gè)包含70 h演講的開放數(shù)據(jù)集,包括相應(yīng)的語(yǔ)音轉(zhuǎn)錄和翻譯。
將語(yǔ)音識(shí)別和機(jī)器翻譯集成到一個(gè)統(tǒng)一的框架中并非易事,端到端語(yǔ)音翻譯是一項(xiàng)前沿技術(shù)。Bansal等首次驗(yàn)證了端到端語(yǔ)音翻譯可以在不用源語(yǔ)言語(yǔ)音轉(zhuǎn)錄的情況下實(shí)現(xiàn)。近來(lái)有些研究基于預(yù)訓(xùn)練或多任務(wù)學(xué)習(xí)來(lái)提高語(yǔ)音翻譯質(zhì)量。例如,基于ASR數(shù)據(jù)預(yù)訓(xùn)練編碼器,利用文本翻譯來(lái)改進(jìn)語(yǔ)音翻譯等。Liu等使用知識(shí)蒸餾方法,通過(guò)從機(jī)器翻譯模型遷移知識(shí)來(lái)改進(jìn)端到端語(yǔ)音翻譯。但是,這些方法中的不同任務(wù)之間不能相互共享信息。為了解決這個(gè)問(wèn)題,研究人員提出了兩階段模型,其中第一階段執(zhí)行語(yǔ)音識(shí)別任務(wù),其隱狀態(tài)(而非識(shí)別結(jié)果)作為第二階段解碼器(翻譯系統(tǒng))的輸入。Liu等提出一種交互式端到端語(yǔ)音翻譯模型,可以交互地進(jìn)行語(yǔ)音識(shí)別和機(jī)器翻譯,從而提高了這兩項(xiàng)任務(wù)的性能。最近也有一些研究聚焦直接建立端到端語(yǔ)音翻譯模型。然而,由于訓(xùn)練數(shù)據(jù)有限,以及將語(yǔ)音識(shí)別和機(jī)器翻譯集成到統(tǒng)一框架中的復(fù)雜性,目前的端到端語(yǔ)音翻譯系統(tǒng)的性能尚不能滿足實(shí)際要求。
由于級(jí)聯(lián)模型易于部署且翻譯質(zhì)量比較高,因此當(dāng)前大多數(shù)實(shí)用的語(yǔ)音翻譯系統(tǒng)使用該方法。Xiong等將機(jī)器同傳系統(tǒng)與具有3~7年經(jīng)驗(yàn)的人類同傳譯員進(jìn)行了比較。實(shí)驗(yàn)發(fā)現(xiàn),同傳譯員通常會(huì)忽略不重要的信息以保持合理的時(shí)間延遲。這可能會(huì)損失譯文的完整度,但保證了實(shí)時(shí)性。與同傳譯員相比,機(jī)器同傳系統(tǒng)生成的譯文完整度更好。Shimizu等實(shí)驗(yàn)也表明經(jīng)驗(yàn)較少的同傳口譯員在同傳過(guò)程中會(huì)丟失細(xì)節(jié)。這些研究表明,同聲傳譯對(duì)于人類和機(jī)器來(lái)說(shuō)都是一項(xiàng)艱巨的任務(wù)。
三、機(jī)器翻譯應(yīng)用
機(jī)器翻譯因其低成本、高效率和高翻譯質(zhì)量而在許多領(lǐng)域得到廣泛應(yīng)用。在中國(guó),人工翻譯費(fèi)用通常為0.1~0.5元/字不等,具體取決于翻譯人員的經(jīng)驗(yàn)豐富程度。而機(jī)器翻譯的價(jià)格約為0.00005元/字符。百度翻譯目前支持200多種語(yǔ)言互譯,每天翻譯量超過(guò)千億字符,應(yīng)用領(lǐng)域廣泛。圖4列出了8個(gè)較大的領(lǐng)域分布。
圖4. 百度翻譯領(lǐng)域分布。
(一)文本翻譯
文本翻譯是最常見的機(jī)器翻譯應(yīng)用形式。以下是文本翻譯的一些典型應(yīng)用。
(1)網(wǎng)頁(yè)翻譯。隨著全球化的迅速發(fā)展,快速獲取外語(yǔ)信息的需求日益增加。聘請(qǐng)人工翻譯人員翻譯大量網(wǎng)頁(yè)既昂貴又耗時(shí)。機(jī)器翻譯提供了一種查看外語(yǔ)網(wǎng)頁(yè)的便捷方式。用戶只需復(fù)制/粘貼網(wǎng)頁(yè)內(nèi)容或輸入網(wǎng)址即可以用母語(yǔ)閱讀頁(yè)面。
(2)科技文獻(xiàn)翻譯。研究人員、工程師和研究生等用戶經(jīng)常使用機(jī)器翻譯系統(tǒng)閱讀論文和專利等科技文獻(xiàn),或?qū)⑺麄兊墓ぷ鞒晒g成其他語(yǔ)言。例如,為了抗擊新型冠狀病毒肺炎(COVID-19),生物醫(yī)學(xué)領(lǐng)域的翻譯需求迅速增長(zhǎng)??萍嘉墨I(xiàn)通常包含許多術(shù)語(yǔ)。借助領(lǐng)域自適應(yīng)技術(shù),翻譯模型首先使用大規(guī)模語(yǔ)料進(jìn)行預(yù)訓(xùn)練,然后使用少量領(lǐng)域內(nèi)數(shù)據(jù)進(jìn)行微調(diào)以進(jìn)一步提升翻譯質(zhì)量。此外,文檔翻譯用于翻譯格式豐富的文檔,例如,PowerPoint、Excel、Word和PDF,在生成譯文的同時(shí)保留字體大小和字體顏色等格式信息。
(3)電子商務(wù)翻譯。機(jī)器翻譯廣泛用于國(guó)際貿(mào)易。在機(jī)器翻譯系統(tǒng)的幫助下,賣家可以快速將網(wǎng)站、產(chǎn)品信息和服務(wù)手冊(cè)翻譯成外語(yǔ),而買家可以輕松購(gòu)買來(lái)自世界各地的產(chǎn)品。此外,機(jī)器翻譯還可以用于客戶服務(wù),以提高服務(wù)質(zhì)量和效率。
(4)語(yǔ)言學(xué)習(xí)。目前的機(jī)器翻譯系統(tǒng)通常提供豐富的功能,包括翻譯、高質(zhì)量詞典、例句等。因此,用戶可以方便地查詢單詞或短語(yǔ)的含義并學(xué)習(xí)如何使用它。學(xué)生用戶經(jīng)常輸入整個(gè)段落以幫助閱讀理解,并使用例句來(lái)輔助寫作。
除了文本翻譯,基于人工智能技術(shù)的最新進(jìn)展,圖像翻譯和語(yǔ)音翻譯也已廣泛應(yīng)用于實(shí)際場(chǎng)景中。
(二)圖像翻譯
圖像翻譯結(jié)合了計(jì)算機(jī)視覺和機(jī)器翻譯技術(shù),將圖像作為輸入,然后將其翻譯成目標(biāo)語(yǔ)言。
(1)多語(yǔ)言圖像描述。此類系統(tǒng)可以描述圖片內(nèi)容并進(jìn)行視覺問(wèn)答,近年來(lái)得到了廣泛研究。多語(yǔ)言圖像描述基于NMT思想,其中,編碼器的輸入是圖像,解碼器的輸出是文本。由于模型可以為同一張圖片生成不同的語(yǔ)言,因此此功能對(duì)語(yǔ)言學(xué)習(xí)非常有幫助。
(2)光學(xué)字符識(shí)別(OCR)翻譯。此種形式的機(jī)器翻譯首先識(shí)別圖片中的字符,然后進(jìn)行翻譯并使用譯文替換原文本。此功能可用于出國(guó)旅行時(shí)翻譯菜單、街道路牌、產(chǎn)品描述等。隨著近年來(lái)對(duì)文檔圖像布局和文本信息進(jìn)行聯(lián)合建模的研究不斷進(jìn)步,OCR翻譯還可用于翻譯掃描的文檔,同時(shí)保留原始格式信息。
(三)語(yǔ)音翻譯
語(yǔ)音翻譯結(jié)合了語(yǔ)音處理和機(jī)器翻譯技術(shù),將源語(yǔ)言語(yǔ)音作為輸入,并以目標(biāo)語(yǔ)言文本或語(yǔ)音作為輸出。
(1)機(jī)器同聲傳譯。如第2.3節(jié)所述,機(jī)器同傳最近取得較大進(jìn)展,并得到廣泛應(yīng)用。語(yǔ)音到文本(S2T)翻譯將語(yǔ)音識(shí)別結(jié)果和譯文以字幕形式投影到屏幕上,以方便用戶觀看。但是,屏幕上有限的空間通常只能顯示一種語(yǔ)言對(duì)的字幕。因此,很難將S2T擴(kuò)展到多語(yǔ)言。語(yǔ)音到語(yǔ)音翻譯使得觀眾可以通過(guò)手機(jī)收聽目標(biāo)語(yǔ)言聲音來(lái)解決這個(gè)問(wèn)題。來(lái)自不同國(guó)家的用戶可以選擇他們的母語(yǔ)或他們喜歡的任何其他語(yǔ)言。機(jī)器同傳系統(tǒng)目前廣泛應(yīng)用于國(guó)際會(huì)議。受新冠疫情影響,越來(lái)越多的會(huì)議以在線會(huì)議的形式舉辦。針對(duì)這類需求,機(jī)器同傳系統(tǒng)也已集成到在線會(huì)議系統(tǒng)中,提供實(shí)時(shí)翻譯。此外,用戶可以使用機(jī)器同傳插件用母語(yǔ)觀看外語(yǔ)視頻,如電影和講座等。
(2)便攜式翻譯設(shè)備。帶有語(yǔ)音翻譯功能的移動(dòng)設(shè)備近年來(lái)受到用戶青睞。它們易于攜帶和使用,在語(yǔ)言學(xué)習(xí)、海外旅行和商務(wù)談判等許多場(chǎng)景中有廣泛應(yīng)用。
此外,機(jī)器翻譯技術(shù)也可用于詩(shī)歌生成和中文對(duì)聯(lián)生成。以詩(shī)歌生成為例,機(jī)器翻譯模型將前一行生成的詩(shī)句作為“源語(yǔ)言句子”,將后續(xù)詩(shī)句作為“目標(biāo)語(yǔ)言句子”,則可以逐行生成詩(shī)歌。
四、挑戰(zhàn)和展望
盡管當(dāng)前機(jī)器翻譯取得了顯著進(jìn)步,但仍有很大的提升空間。在機(jī)器翻譯研討會(huì)(WMT)等開展的機(jī)器翻譯評(píng)測(cè)中,某些基準(zhǔn)測(cè)試集上的自動(dòng)評(píng)價(jià)指標(biāo)(如BLEU、WER、METEOR等)表明,機(jī)器翻譯有時(shí)比人工翻譯更好。但需要注意的是,這些指標(biāo)很難全面反映譯文質(zhì)量。好的翻譯至少應(yīng)該具備兩個(gè)基本特點(diǎn):譯文忠實(shí)于原文(忠實(shí)度),以及譯文地道流暢(流利度)。NMT方法在某些語(yǔ)言對(duì)或者領(lǐng)域翻譯中表現(xiàn)出較高的忠實(shí)度和流利度。然而,該方法遠(yuǎn)非完美,在有些任務(wù)如語(yǔ)音翻譯上,仍面臨較大挑戰(zhàn)。
總體而言,機(jī)器翻譯還有許多方面有待改進(jìn)。
第一,需要設(shè)計(jì)新的評(píng)價(jià)指標(biāo)來(lái)衡量機(jī)器譯文不同部分的重要程度。例如,人類同傳譯員在進(jìn)行同聲傳譯時(shí)不會(huì)試圖翻譯所有內(nèi)容。在同傳過(guò)程中,知道哪些內(nèi)容需要翻譯以及何時(shí)開始翻譯是非常重要的。同傳譯員知道何時(shí)需要加快速度,何時(shí)可以放緩節(jié)奏;知道哪些內(nèi)容需要著重強(qiáng)調(diào),哪些內(nèi)容則可以省略不譯。但是,機(jī)器同傳系統(tǒng)會(huì)翻譯所有內(nèi)容,并且不知道如何省略非重要內(nèi)容以減少時(shí)間延遲。進(jìn)一步地,機(jī)器同傳系統(tǒng)應(yīng)該反映出演講者所強(qiáng)調(diào)的重點(diǎn)內(nèi)容。最近,有些研究使用聲學(xué)特征來(lái)識(shí)別重點(diǎn)內(nèi)容并將其翻譯成目標(biāo)語(yǔ)言。除了語(yǔ)音信息外,說(shuō)話者的肢體語(yǔ)言和韻律也可以清晰傳達(dá)說(shuō)話者所強(qiáng)調(diào)的某一部分內(nèi)容(相對(duì)于其他部分而言)。然而,將翻譯與說(shuō)話者的肢體語(yǔ)言同步是比較困難的。此外,演講者在演講時(shí)經(jīng)常會(huì)參考幻燈片。同樣地,將翻譯與幻燈片內(nèi)容同步也充滿挑戰(zhàn)。盡管BLEU和WER之類的評(píng)價(jià)指標(biāo)能夠一定程度上衡量譯文的完整性,但是不夠全面,沒有涉及延遲、強(qiáng)調(diào)、同步、理解等,這些也是影響翻譯的重要因素。在機(jī)器同傳中,前端ASR系統(tǒng)不僅需要能識(shí)別單詞,還應(yīng)該能夠識(shí)別說(shuō)話人所強(qiáng)調(diào)的重點(diǎn)內(nèi)容,這些內(nèi)容將會(huì)影響下游任務(wù)(機(jī)器翻譯、語(yǔ)音合成)的效果。因此,新的評(píng)價(jià)指標(biāo)應(yīng)該獎(jiǎng)勵(lì)同傳系統(tǒng)將重要內(nèi)容做出準(zhǔn)確翻譯,同時(shí)懲罰只將非重點(diǎn)內(nèi)容做出翻譯。
第二,機(jī)器翻譯的魯棒性需要進(jìn)一步提高。有時(shí)源句子的微小改變(如詞語(yǔ)或標(biāo)點(diǎn)符號(hào)的改變)可能會(huì)導(dǎo)致機(jī)器翻譯產(chǎn)生的譯文發(fā)生巨大變化。與機(jī)器相比,人類具有很強(qiáng)的容錯(cuò)能力,能夠靈活地處理各種非標(biāo)準(zhǔn)語(yǔ)言現(xiàn)象和錯(cuò)誤,有時(shí)甚至下意識(shí)地予以糾正。高魯棒性的機(jī)器翻譯系統(tǒng)在實(shí)際應(yīng)用中至關(guān)重要。研發(fā)可解釋的機(jī)器翻譯系統(tǒng)是一種可能的解決方案。
第三,NMT在資源貧乏的語(yǔ)言對(duì)和領(lǐng)域中面臨著嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。目前的機(jī)器翻譯系統(tǒng)通常使用數(shù)千萬(wàn)甚至數(shù)億個(gè)句對(duì)的數(shù)據(jù)進(jìn)行訓(xùn)練,從而獲得較高的翻譯質(zhì)量。數(shù)據(jù)稀缺會(huì)導(dǎo)致機(jī)器翻譯質(zhì)量變差。與機(jī)器相比,人類卻能從少量樣本中學(xué)習(xí)。盡管研究者已經(jīng)提出了多種數(shù)據(jù)增強(qiáng)方法、多任務(wù)學(xué)習(xí)方法和預(yù)訓(xùn)練方法來(lái)緩解多語(yǔ)言翻譯面臨的數(shù)據(jù)稀疏問(wèn)題,但如何提高資源貧乏型語(yǔ)言的翻譯質(zhì)量仍任重道遠(yuǎn)。
綜上所述,要實(shí)現(xiàn)高質(zhì)量的機(jī)器翻譯還有很長(zhǎng)的路要走。需要研發(fā)能夠結(jié)合符號(hào)規(guī)則、知識(shí)和神經(jīng)網(wǎng)絡(luò)的新方法,以進(jìn)一步提高翻譯質(zhì)量。幸運(yùn)的是,機(jī)器翻譯在實(shí)際場(chǎng)景中的廣泛應(yīng)用可以不斷提供更多更豐富的數(shù)據(jù),促進(jìn)機(jī)器翻譯新方法的快速發(fā)展。
審核編輯:湯梓紅
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4781瀏覽量
101205 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7546瀏覽量
88691 -
smt
+關(guān)注
關(guān)注
40文章
2931瀏覽量
69712 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14952 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22113
原文標(biāo)題:機(jī)器翻譯研究進(jìn)展
文章出處:【微信號(hào):信息與電子工程前沿FITEE,微信公眾號(hào):信息與電子工程前沿FITEE】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論