語(yǔ)音轉(zhuǎn)語(yǔ)音翻譯 (S2ST) 是打破世界各地人與人之間語(yǔ)言障礙的關(guān)鍵。自動(dòng) S2ST 系統(tǒng)通常由語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成子系統(tǒng)級(jí)聯(lián)組成。然而,此類級(jí)聯(lián)系統(tǒng)可能會(huì)面臨較長(zhǎng)的延遲、信息(尤其是副語(yǔ)言和非語(yǔ)言信息)丟失,以及各子系統(tǒng)之間的錯(cuò)誤疊加等問(wèn)題。
2019 年,我們推出了 Translatotron,這是首款能夠直接翻譯兩種語(yǔ)言間語(yǔ)音的模型。此款直接 S2ST 模型能夠有效地進(jìn)行端到端訓(xùn)練,并擁有一個(gè)獨(dú)特功能——在生成的翻譯語(yǔ)音中保留源說(shuō)話者聲音(非語(yǔ)言信息)。
Translatotron
https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html
不過(guò),盡管該模型能夠生成聽起來(lái)自然的高保真翻譯語(yǔ)音,但與強(qiáng)大的基準(zhǔn)級(jí)聯(lián) S2ST 系統(tǒng)(例如,由語(yǔ)音轉(zhuǎn)文字直接翻譯模型[1、2]和 Tacotron 2 TTS 模型組成的系統(tǒng))相比,其表現(xiàn)仍然欠佳。
1
https://arxiv.org/abs/1703.08581
2
https://arxiv.org/abs/1811.02050
Tacotron 2
https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
在“Translatotron 2:穩(wěn)健的語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中,我們介紹了 Translatotron 的一個(gè)改進(jìn)版本。該版本的表現(xiàn)得到顯著提高,同時(shí)我們還應(yīng)用了一種新的方法來(lái)將源說(shuō)話者的聲音轉(zhuǎn)換到翻譯的語(yǔ)音中。即使輸入語(yǔ)音中存在多位說(shuō)話者輪流說(shuō)話的情況,經(jīng)過(guò)修訂的語(yǔ)音轉(zhuǎn)換方法也能取得成功,同時(shí)還能減少濫用的可能性,并且更加符合我們的 AI 原則。使用三個(gè)不同語(yǔ)料庫(kù)進(jìn)行的實(shí)驗(yàn)一致表明,Translatotron 2 在翻譯質(zhì)量、語(yǔ)音自然度和語(yǔ)音穩(wěn)健性方面的表現(xiàn)明顯優(yōu)于原始版本 Translatotron。
Translatotron 2:穩(wěn)健的語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯
https://arxiv.org/abs/2107.08661
AI 原則
https://ai.google/responsibilities/
Translatotron 2
Translatotron 2 由四個(gè)主要組件組成:語(yǔ)音編碼器、目標(biāo)音素 (Phoneme) 解碼器、目標(biāo)語(yǔ)音合成器,以及將它們連接起來(lái)的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的語(yǔ)音轉(zhuǎn)文字直接翻譯 (ST) 模型。合成器則使用編碼器和注意力模塊的輸出作為條件。
Translatotron 2 的模型架構(gòu)
(將西班牙語(yǔ)語(yǔ)音翻譯為英語(yǔ)語(yǔ)音)
相較于 Translatotron ,Translatotron 2 的更高表現(xiàn)主要源于以下三點(diǎn)新變化:
1. 盡管在原始版本 Translatotron 中,目標(biāo)音素解碼器的輸出僅用作輔助損失使用,但在 Translatotron 2 中,它是聲譜圖合成器的輸入之一。這一強(qiáng)大條件使 Translatotron 2 更易于訓(xùn)練,且表現(xiàn)更好。
2. 與 Tacotron 2 TTS 模型類似,原始版本 Translatotron 中的聲譜圖合成器基于注意力,因此其也存在類似 Tacotron 2 所表現(xiàn)出的穩(wěn)健性問(wèn)題。相比之下,Translatotron 2 中使用的是基于持續(xù)時(shí)間的聲譜圖合成器(類似于 Non-Attentive Tacotron 使用的聲譜圖合成器),這能夠大大提高合成語(yǔ)音的穩(wěn)健性。
3. Translatotron 和 Translatotron 2,都使用基于注意力的連接到編碼的源語(yǔ)音。然而,在 Translatotron 2 中,這種基于注意力的連接由音素解碼器而非聲譜圖合成器驅(qū)動(dòng),這確保了聲譜圖合成器所獲取的聲學(xué)信息與其合成的翻譯內(nèi)容相一致,從而有助于在不同說(shuō)話者輪流說(shuō)話時(shí)保留每位說(shuō)話者的聲音。
更強(qiáng)大、更負(fù)責(zé)任的聲音保留
原始版本 Translatotron 能夠在生成的翻譯語(yǔ)音中保留源說(shuō)話者的聲音,方法是將其解碼器限定于由單獨(dú)訓(xùn)練的說(shuō)話者編碼器生成的說(shuō)話者嵌入向量之上。然而,如果使用目標(biāo)說(shuō)話者的錄音片段作為說(shuō)話者編碼器的參考音頻,或者目標(biāo)說(shuō)話者的嵌入向量直接可用,則這種方法還能以不同說(shuō)話者的聲音生成翻譯后的語(yǔ)音。雖然這一功能非常強(qiáng)大,但有可能遭到濫用,如使用任意內(nèi)容制作欺詐音頻,這會(huì)給生產(chǎn)部署帶來(lái)問(wèn)題。
為解決這一問(wèn)題,Translatotron 2 這樣設(shè)計(jì):只使用一個(gè)語(yǔ)音編碼器,該編碼器同時(shí)負(fù)責(zé)語(yǔ)言理解和語(yǔ)音錄制。這樣,訓(xùn)練后的模型便無(wú)法用于重現(xiàn)非源語(yǔ)音。這種方法也可以應(yīng)用于原始版本 Translatotron。
為了在翻譯過(guò)程中保留說(shuō)話者的聲音,研究人員通常傾向于使用兩端都是同一位說(shuō)話者聲音的平行說(shuō)話內(nèi)容來(lái)訓(xùn)練 S2ST 模型。這樣一個(gè)兩邊都有人類錄音的數(shù)據(jù)集很難收集,因?yàn)樗枰罅苛骼碾p語(yǔ)使用者。為了避免這一難題,我們使用了 PnG NAT 的修改版本,這是一種能夠跨語(yǔ)言語(yǔ)音轉(zhuǎn)換來(lái)合成此類訓(xùn)練目標(biāo)的 TTS 模型。我們的修改版 PnG NAT 模型采用了與舊版 TTS 工作方式相同(即使用的策略與原始版本 Translatotron 相同)的單獨(dú)訓(xùn)練的說(shuō)話者編碼器,因此能夠?qū)崿F(xiàn)零樣本語(yǔ)音傳輸。
舊版 TTS 工作方式
https://arxiv.org/abs/1806.04558
以下是使用 Translatotron 2 進(jìn)行語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯的示例,其中保留了源說(shuō)話者的聲音:
輸入(西班牙語(yǔ)):
TTS 合成的參考音頻(英語(yǔ)):
Translatotron 2 預(yù)測(cè)(英語(yǔ)):
Translatotron 預(yù)測(cè)(英語(yǔ)):
當(dāng)輸入語(yǔ)音包含多個(gè)說(shuō)話者輪流說(shuō)話時(shí),為了使 S2ST 模型能夠在翻譯后的語(yǔ)音中保留每個(gè)說(shuō)話者的聲音,我們提出了一種簡(jiǎn)單的基于串聯(lián)的數(shù)據(jù)增強(qiáng)技術(shù),稱為 ConcatAug。該方法會(huì)對(duì)成對(duì)的訓(xùn)練示例隨機(jī)采樣,并將源語(yǔ)音、目標(biāo)語(yǔ)音和目標(biāo)音素序列串聯(lián)成新的訓(xùn)練示例,以增強(qiáng)訓(xùn)練數(shù)據(jù)。由此得到的樣本在源語(yǔ)音和目標(biāo)語(yǔ)音中都包含兩位說(shuō)話者的聲音,這使模型能夠根據(jù)不同說(shuō)話者輪流說(shuō)話的示例進(jìn)行學(xué)習(xí)。以下來(lái)自 Translatotron 2 的音頻樣本展示了不同說(shuō)話者輪流說(shuō)話的場(chǎng)景:
輸入(西班牙語(yǔ)):
TTS 合成的參考音頻(英語(yǔ)):
Translatotron 2(采用 ConcatAug)預(yù)測(cè)(英語(yǔ)):
Translatotron 2(未采用 ConcatAug)預(yù)測(cè)(英語(yǔ)):
點(diǎn)擊此處獲取更多音頻樣本。
此處
https://google-research.github.io/lingvo-lab/translatotron2/
表現(xiàn)
在我們衡量的各個(gè)方面,Translatotron 2 的表現(xiàn)都大大優(yōu)于原始版本 Translatotron:更高的翻譯質(zhì)量(以 BLEU 衡量,數(shù)值越高越好),更好的語(yǔ)音自然度(以 MOS 衡量,數(shù)值越高越好),以及更強(qiáng)的語(yǔ)音穩(wěn)健性(以 UDR 衡量,數(shù)值越低越好)。它在難度更大的 Fisher 語(yǔ)料庫(kù)上表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語(yǔ)音質(zhì)量方面的表現(xiàn)接近強(qiáng)大的基準(zhǔn)級(jí)聯(lián)系統(tǒng),并且在語(yǔ)音穩(wěn)健性方面優(yōu)于級(jí)聯(lián)基準(zhǔn)。
UDR
https://arxiv.org/abs/2010.04301
Fisher 語(yǔ)料庫(kù)
https://catalog.ldc.upenn.edu/LDC2014T23
使用兩個(gè)西班牙語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)評(píng)估的翻譯質(zhì)量
(以 BLEU 衡量,數(shù)值越高越好)
使用兩個(gè)西班牙語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)評(píng)估的語(yǔ)音自然度
(以 MOS 衡量,數(shù)值越高越好)
使用兩個(gè)西班牙語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)評(píng)估的語(yǔ)音穩(wěn)健性
(以 UDR 衡量,數(shù)值越低越好)
多語(yǔ)言語(yǔ)音翻譯
除了西班牙語(yǔ)到英語(yǔ)的 S2ST,我們還評(píng)估了 Translatotron 2 在多語(yǔ)言情境中的表現(xiàn),該模型接收四種不同語(yǔ)言的語(yǔ)音輸入并將其翻譯為英語(yǔ)。由于事先未提供輸入語(yǔ)音的語(yǔ)言,這迫使模型需要自行檢測(cè)語(yǔ)言。
源語(yǔ)言frdeesca
Translatotron 2 27.018.827.722.5
Translatotron18.910.818.813.9
ST(Wang
等人,2020)27.018.928.023.9
訓(xùn)練目標(biāo) 82.186.085.189.3
使用 CoVoST 2 語(yǔ)料庫(kù)評(píng)估的多語(yǔ)言 X=》En S2ST 表現(xiàn)
Wang 等人
https://arxiv.org/abs/2007.10310
CoVoST 2
https://arxiv.org/abs/2007.10310
在此任務(wù)中,Translatotron 2 的表現(xiàn)同樣明顯優(yōu)于原始版本 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果沒(méi)有直接可比性,但接近的數(shù)字表明Translatotron 2的翻譯質(zhì)量與基準(zhǔn)語(yǔ)音轉(zhuǎn)文字翻譯模型相當(dāng)。這些結(jié)果表明,Translatotron 2 在多語(yǔ)言 S2ST 上也非常有效。
責(zé)任編輯:haq
-
語(yǔ)音
+關(guān)注
關(guān)注
3文章
386瀏覽量
38148 -
AI
+關(guān)注
關(guān)注
87文章
31670瀏覽量
270465 -
模型
+關(guān)注
關(guān)注
1文章
3336瀏覽量
49260
原文標(biāo)題:Translatotron 2:高質(zhì)量、穩(wěn)健、負(fù)責(zé)任的語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論