有码av一区二区三区,综合自拍亚洲综合图区高清

語(yǔ)音轉(zhuǎn)語(yǔ)音翻譯（S2ST）是打破世界各地人與人之間語(yǔ)言障礙的關(guān)鍵。自動(dòng) S2ST 系統(tǒng)通常由語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成子系統(tǒng)級(jí)聯(lián)組成。然而，此類級(jí)聯(lián)系統(tǒng)可能會(huì)面臨較長(zhǎng)的延遲、信息（尤其是副語(yǔ)言和非語(yǔ)言信息）丟失，以及各子系統(tǒng)之間的錯(cuò)誤疊加等問(wèn)題。

2019 年，我們推出了 Translatotron，這是首款能夠直接翻譯兩種語(yǔ)言間語(yǔ)音的模型。此款直接 S2ST 模型能夠有效地進(jìn)行端到端訓(xùn)練，并擁有一個(gè)獨(dú)特功能——在生成的翻譯語(yǔ)音中保留源說(shuō)話者聲音（非語(yǔ)言信息）。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不過(guò)，盡管該模型能夠生成聽起來(lái)自然的高保真翻譯語(yǔ)音，但與強(qiáng)大的基準(zhǔn)級(jí)聯(lián) S2ST 系統(tǒng)（例如，由語(yǔ)音轉(zhuǎn)文字直接翻譯模型［1、2］和 Tacotron 2 TTS 模型組成的系統(tǒng)）相比，其表現(xiàn)仍然欠佳。

https://arxiv.org/abs/1703.08581

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2：穩(wěn)健的語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯（Translatotron 2:Robust direct speech-to-speech translation）” 一文中，我們介紹了 Translatotron 的一個(gè)改進(jìn)版本。該版本的表現(xiàn)得到顯著提高，同時(shí)我們還應(yīng)用了一種新的方法來(lái)將源說(shuō)話者的聲音轉(zhuǎn)換到翻譯的語(yǔ)音中。即使輸入語(yǔ)音中存在多位說(shuō)話者輪流說(shuō)話的情況，經(jīng)過(guò)修訂的語(yǔ)音轉(zhuǎn)換方法也能取得成功，同時(shí)還能減少濫用的可能性，并且更加符合我們的 AI 原則。使用三個(gè)不同語(yǔ)料庫(kù)進(jìn)行的實(shí)驗(yàn)一致表明，Translatotron 2 在翻譯質(zhì)量、語(yǔ)音自然度和語(yǔ)音穩(wěn)健性方面的表現(xiàn)明顯優(yōu)于原始版本 Translatotron。

Translatotron 2：穩(wěn)健的語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯

https://arxiv.org/abs/2107.08661

AI 原則

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四個(gè)主要組件組成：語(yǔ)音編碼器、目標(biāo)音素（Phoneme）解碼器、目標(biāo)語(yǔ)音合成器，以及將它們連接起來(lái)的注意力模塊。編碼器、注意力模塊和解碼器的組合類似于典型的語(yǔ)音轉(zhuǎn)文字直接翻譯（ST）模型。合成器則使用編碼器和注意力模塊的輸出作為條件。

Translatotron 2 的模型架構(gòu)

（將西班牙語(yǔ)語(yǔ)音翻譯為英語(yǔ)語(yǔ)音）

相較于 Translatotron ，Translatotron 2 的更高表現(xiàn)主要源于以下三點(diǎn)新變化：

1. 盡管在原始版本 Translatotron 中，目標(biāo)音素解碼器的輸出僅用作輔助損失使用，但在 Translatotron 2 中，它是聲譜圖合成器的輸入之一。這一強(qiáng)大條件使 Translatotron 2 更易于訓(xùn)練，且表現(xiàn)更好。

2. 與 Tacotron 2 TTS 模型類似，原始版本 Translatotron 中的聲譜圖合成器基于注意力，因此其也存在類似 Tacotron 2 所表現(xiàn)出的穩(wěn)健性問(wèn)題。相比之下，Translatotron 2 中使用的是基于持續(xù)時(shí)間的聲譜圖合成器（類似于 Non-Attentive Tacotron 使用的聲譜圖合成器），這能夠大大提高合成語(yǔ)音的穩(wěn)健性。

3. Translatotron 和 Translatotron 2，都使用基于注意力的連接到編碼的源語(yǔ)音。然而，在 Translatotron 2 中，這種基于注意力的連接由音素解碼器而非聲譜圖合成器驅(qū)動(dòng)，這確保了聲譜圖合成器所獲取的聲學(xué)信息與其合成的翻譯內(nèi)容相一致，從而有助于在不同說(shuō)話者輪流說(shuō)話時(shí)保留每位說(shuō)話者的聲音。

更強(qiáng)大、更負(fù)責(zé)任的聲音保留

原始版本 Translatotron 能夠在生成的翻譯語(yǔ)音中保留源說(shuō)話者的聲音，方法是將其解碼器限定于由單獨(dú)訓(xùn)練的說(shuō)話者編碼器生成的說(shuō)話者嵌入向量之上。然而，如果使用目標(biāo)說(shuō)話者的錄音片段作為說(shuō)話者編碼器的參考音頻，或者目標(biāo)說(shuō)話者的嵌入向量直接可用，則這種方法還能以不同說(shuō)話者的聲音生成翻譯后的語(yǔ)音。雖然這一功能非常強(qiáng)大，但有可能遭到濫用，如使用任意內(nèi)容制作欺詐音頻，這會(huì)給生產(chǎn)部署帶來(lái)問(wèn)題。

為解決這一問(wèn)題，Translatotron 2 這樣設(shè)計(jì)：只使用一個(gè)語(yǔ)音編碼器，該編碼器同時(shí)負(fù)責(zé)語(yǔ)言理解和語(yǔ)音錄制。這樣，訓(xùn)練后的模型便無(wú)法用于重現(xiàn)非源語(yǔ)音。這種方法也可以應(yīng)用于原始版本 Translatotron。

為了在翻譯過(guò)程中保留說(shuō)話者的聲音，研究人員通常傾向于使用兩端都是同一位說(shuō)話者聲音的平行說(shuō)話內(nèi)容來(lái)訓(xùn)練 S2ST 模型。這樣一個(gè)兩邊都有人類錄音的數(shù)據(jù)集很難收集，因?yàn)樗枰罅苛骼碾p語(yǔ)使用者。為了避免這一難題，我們使用了 PnG NAT 的修改版本，這是一種能夠跨語(yǔ)言語(yǔ)音轉(zhuǎn)換來(lái)合成此類訓(xùn)練目標(biāo)的 TTS 模型。我們的修改版 PnG NAT 模型采用了與舊版 TTS 工作方式相同（即使用的策略與原始版本 Translatotron 相同）的單獨(dú)訓(xùn)練的說(shuō)話者編碼器，因此能夠?qū)崿F(xiàn)零樣本語(yǔ)音傳輸。

舊版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 進(jìn)行語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯的示例，其中保留了源說(shuō)話者的聲音：

輸入（西班牙語(yǔ)）：

TTS 合成的參考音頻（英語(yǔ)）：

Translatotron 2 預(yù)測(cè)（英語(yǔ)）：

Translatotron 預(yù)測(cè)（英語(yǔ)）：

當(dāng)輸入語(yǔ)音包含多個(gè)說(shuō)話者輪流說(shuō)話時(shí)，為了使 S2ST 模型能夠在翻譯后的語(yǔ)音中保留每個(gè)說(shuō)話者的聲音，我們提出了一種簡(jiǎn)單的基于串聯(lián)的數(shù)據(jù)增強(qiáng)技術(shù)，稱為 ConcatAug。該方法會(huì)對(duì)成對(duì)的訓(xùn)練示例隨機(jī)采樣，并將源語(yǔ)音、目標(biāo)語(yǔ)音和目標(biāo)音素序列串聯(lián)成新的訓(xùn)練示例，以增強(qiáng)訓(xùn)練數(shù)據(jù)。由此得到的樣本在源語(yǔ)音和目標(biāo)語(yǔ)音中都包含兩位說(shuō)話者的聲音，這使模型能夠根據(jù)不同說(shuō)話者輪流說(shuō)話的示例進(jìn)行學(xué)習(xí)。以下來(lái)自 Translatotron 2 的音頻樣本展示了不同說(shuō)話者輪流說(shuō)話的場(chǎng)景：

輸入（西班牙語(yǔ)）：

TTS 合成的參考音頻（英語(yǔ)）：

Translatotron 2（采用 ConcatAug）預(yù)測(cè)（英語(yǔ)）：

Translatotron 2（未采用 ConcatAug）預(yù)測(cè)（英語(yǔ)）：

點(diǎn)擊此處獲取更多音頻樣本。

此處

https://google-research.github.io/lingvo-lab/translatotron2/

表現(xiàn)

在我們衡量的各個(gè)方面，Translatotron 2 的表現(xiàn)都大大優(yōu)于原始版本 Translatotron：更高的翻譯質(zhì)量（以 BLEU 衡量，數(shù)值越高越好），更好的語(yǔ)音自然度（以 MOS 衡量，數(shù)值越高越好），以及更強(qiáng)的語(yǔ)音穩(wěn)健性（以 UDR 衡量，數(shù)值越低越好）。它在難度更大的 Fisher 語(yǔ)料庫(kù)上表現(xiàn)尤為出色。Translatotron 2 在翻譯質(zhì)量和語(yǔ)音質(zhì)量方面的表現(xiàn)接近強(qiáng)大的基準(zhǔn)級(jí)聯(lián)系統(tǒng)，并且在語(yǔ)音穩(wěn)健性方面優(yōu)于級(jí)聯(lián)基準(zhǔn)。

UDR

https://arxiv.org/abs/2010.04301

Fisher 語(yǔ)料庫(kù)

https://catalog.ldc.upenn.edu/LDC2014T23

使用兩個(gè)西班牙語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)評(píng)估的翻譯質(zhì)量

（以 BLEU 衡量，數(shù)值越高越好）

使用兩個(gè)西班牙語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)評(píng)估的語(yǔ)音自然度

（以 MOS 衡量，數(shù)值越高越好）

使用兩個(gè)西班牙語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)評(píng)估的語(yǔ)音穩(wěn)健性

（以 UDR 衡量，數(shù)值越低越好）

多語(yǔ)言語(yǔ)音翻譯

除了西班牙語(yǔ)到英語(yǔ)的 S2ST，我們還評(píng)估了 Translatotron 2 在多語(yǔ)言情境中的表現(xiàn)，該模型接收四種不同語(yǔ)言的語(yǔ)音輸入并將其翻譯為英語(yǔ)。由于事先未提供輸入語(yǔ)音的語(yǔ)言，這迫使模型需要自行檢測(cè)語(yǔ)言。

源語(yǔ)言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST（Wang

等人，2020）27.018.928.023.9

訓(xùn)練目標(biāo) 82.186.085.189.3

使用 CoVoST 2 語(yǔ)料庫(kù)評(píng)估的多語(yǔ)言 X=》En S2ST 表現(xiàn)

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任務(wù)中，Translatotron 2 的表現(xiàn)同樣明顯優(yōu)于原始版本 Translatotron。盡管 S2ST 和 ST 之間的結(jié)果沒(méi)有直接可比性，但接近的數(shù)字表明Translatotron 2的翻譯質(zhì)量與基準(zhǔn)語(yǔ)音轉(zhuǎn)文字翻譯模型相當(dāng)。這些結(jié)果表明，Translatotron 2 在多語(yǔ)言 S2ST 上也非常有效。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音

語(yǔ)音

+關(guān)注

關(guān)注
3

文章
386

瀏覽量
38148
AI

AI

+關(guān)注

關(guān)注
87

文章
31670

瀏覽量
270465
模型

模型

+關(guān)注

關(guān)注
1

文章
3336

瀏覽量
49260

原文標(biāo)題：Translatotron 2：高質(zhì)量、穩(wěn)健、負(fù)責(zé)任的語(yǔ)音轉(zhuǎn)語(yǔ)音直接翻譯

文章出處：【微信號(hào)：tensorflowers，微信公眾號(hào)：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI助力實(shí)時(shí)翻譯耳機(jī)

是一種能夠實(shí)時(shí)將一種語(yǔ)言翻譯成另一種語(yǔ)言的耳機(jī)設(shè)備。

發(fā)表于 01-24 11:14 ?517次閱讀

AI助力實(shí)時(shí)<b class='flag-5'>翻譯</b>耳機(jī)

一文理解多模態(tài)大語(yǔ)言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語(yǔ)言模型 - 上》介紹了什么是多模態(tài)大語(yǔ)言模型，以及構(gòu)建多模態(tài) LLM 有

發(fā)表于 12-03 15:18 ?219次閱讀

一文理解多模態(tài)大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>——下

語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

在人工智能的快速發(fā)展中，語(yǔ)音識(shí)別和自然語(yǔ)言處理（NLP）成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使得機(jī)器能夠理解人類的

發(fā)表于 11-26 09:21 ?612次閱讀

PCM5242 OUT LN和OUT LP之間能夠直接接16-32Ω的耳機(jī)，能夠驅(qū)動(dòng)嗎？

PCM5242數(shù)據(jù)表中的說(shuō)的輸出4.2-VRMS 這個(gè)指的是 OUT LN 和OUT LP之間的電壓還OUT LN 和GND 的之間的電壓？OUT LN和OUT LP之間能夠直接接16-32Ω的耳機(jī)，能夠驅(qū)動(dòng)嗎？

發(fā)表于 10-25 06:46

請(qǐng)問(wèn)如何將HSPICE和 IBIS兩種模型怎么轉(zhuǎn)換成TINA軟件中用？

TI網(wǎng)站里，給出了一些期間的HSPICE和IBIS模型，但是現(xiàn)有的仿真工具只有TINA這種，請(qǐng)問(wèn)如何將HSPICE和 IBIS兩種模型怎么轉(zhuǎn)換成TINA軟件中用？請(qǐng)高手給予解答。感謝！

發(fā)表于 09-02 07:56

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下一個(gè)詞，模型逐漸掌握語(yǔ)言的規(guī)律和特征。常用的模型結(jié)構(gòu) Transformer架構(gòu)：大語(yǔ)言模型

發(fā)表于 08-02 11:03

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

的機(jī)會(huì)！本人曾經(jīng)也參與過(guò)語(yǔ)音識(shí)別產(chǎn)品的開發(fā)，包括在線和離線識(shí)別，但僅是應(yīng)用語(yǔ)言模型實(shí)現(xiàn)端側(cè)的應(yīng)用開發(fā)，相當(dāng)于調(diào)用模型的接口函數(shù)，實(shí)際對(duì)模型

發(fā)表于 07-21 13:35

DeepL推出新一代翻譯編輯大型語(yǔ)言模型

在人工智能與語(yǔ)言處理領(lǐng)域，DeepL再次以其創(chuàng)新實(shí)力引領(lǐng)潮流，宣布成功推出新一代面向翻譯與編輯應(yīng)用的大型語(yǔ)言模型。這一里程碑式的進(jìn)展，不僅鞏固了DeepL作為頂尖

發(fā)表于 07-19 15:56 ?747次閱讀

超ChatGPT-4o，國(guó)產(chǎn)大模型竟然更懂翻譯，8款大模型深度測(cè)評(píng)｜AI 橫評(píng)

隨著AI工具的不斷增多，各家模型的能力也日益提升，現(xiàn)在無(wú)論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當(dāng)下，越來(lái)越多的論文和前沿信息需要快速翻譯

發(fā)表于 07-14 08:04 ?128次閱讀

求助，TTS能夠直接使用IO口輸出到PA嗎？

TTS能夠直接使用IO口輸出到PA嗎？不經(jīng)過(guò)I2C和I2S解碼芯片

發(fā)表于 06-28 06:02

大語(yǔ)言模型(LLM)快速理解

歷史可以追溯到早期的語(yǔ)言模型和機(jī)器翻譯系統(tǒng)，但其真正的起點(diǎn)可以說(shuō)是隨著深度學(xué)習(xí)技術(shù)的興起而開始。1.1統(tǒng)計(jì)語(yǔ)言模型在深度學(xué)習(xí)技術(shù)出現(xiàn)之前，

發(fā)表于 06-04 08:27 ?1160次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

丹尼爾·卡尼曼在《思考，快與慢》中提出了著名的“系統(tǒng)1與系統(tǒng)2”理論。該理論指出，人類大腦的決策系統(tǒng)存在兩種模式：一種是快速的、感性的系統(tǒng)1，它幫助我們處理簡(jiǎn)單的決策；另一種是緩慢的、理性的系統(tǒng)2

發(fā)表于 05-07 17:21

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

的作用。同時(shí)，模型在多語(yǔ)言方面的表現(xiàn)直接決定了其在全球范圍內(nèi)的適用性和普及度。為了全面評(píng)估大語(yǔ)言模型在翻

發(fā)表于 05-07 17:12

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

的，與上下文語(yǔ)境無(wú)關(guān)，因此不適用于一詞多義的情況。例如，“蘋果”在“我去吃個(gè)蘋果”與“這個(gè)蘋果手機(jī)好用嗎”這兩個(gè)句子中的語(yǔ)義明顯不同，但靜態(tài)詞向量語(yǔ)言模型僅利用同一個(gè)向量表示詞的語(yǔ)義，難以刻畫同一個(gè)詞在

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

，大語(yǔ)言模型還具備出色的關(guān)聯(lián)和關(guān)系理解能力，能夠捕捉數(shù)據(jù)間的隱含關(guān)系和語(yǔ)義聯(lián)系，進(jìn)行高級(jí)關(guān)聯(lián)推理。它還支持多步推理，能在推理過(guò)程中進(jìn)行多個(gè)步驟的演繹和分析。最后，通過(guò)學(xué)習(xí)大規(guī)模數(shù)據(jù)，大

發(fā)表于 05-04 23:55

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

能夠直接翻譯兩種語(yǔ)言間語(yǔ)音的模型

評(píng)論

AI助力實(shí)時(shí)翻譯耳機(jī)

一文理解多模態(tài)大語(yǔ)言模型——下

語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

PCM5242 OUT LN和OUT LP之間能夠直接接16-32Ω的耳機(jī)，能夠驅(qū)動(dòng)嗎？

請(qǐng)問(wèn)如何將HSPICE和 IBIS兩種模型怎么轉(zhuǎn)換成TINA軟件中用？

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

DeepL推出新一代翻譯編輯大型語(yǔ)言模型

超ChatGPT-4o，國(guó)產(chǎn)大模型竟然更懂翻譯，8款大模型深度測(cè)評(píng)｜AI 橫評(píng)

求助，TTS能夠直接使用IO口輸出到PA嗎？

大語(yǔ)言模型(LLM)快速理解

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗