小編說:在這個技術(shù)快速更迭的時代,人工智能的可能性在逐漸拓寬。為了讓大家可以更好的理解人工智能在智能語音方面的強(qiáng)大能力,今天小編就來詳細(xì)為大家介紹微軟在人工智能TTS語音合成(Text-to-Speech)技術(shù)上的一些最新進(jìn)展。
不同對話場景
用戶期待不同語氣的擬人 AI 語音
TTS 語音已被越來越多地用于支持人機(jī)對話或機(jī)器輔助的日常交流——例如人與人之間對話的同聲傳譯。在這些場景中,人們普遍期待能夠?qū)崿F(xiàn)更自然、更口語化的對話風(fēng)格。我們不妨從以下三個典型場景中,來理解用戶對于對話聲音和風(fēng)格的不同需求。
客服機(jī)器人:語氣要自然、友好且專業(yè)
很多企業(yè)正在使用支持語音的聊天機(jī)器人或 IVR(互動式語音應(yīng)答)系統(tǒng),為客戶帶來相比傳統(tǒng)方式更為高效、體貼的客戶服務(wù)。例如國際移動通訊網(wǎng)絡(luò)公司沃達(dá)豐就成功地創(chuàng)建了一個擁有自然語音的客服機(jī)器人 TOBi。Azure 的人工智能和自然語言處理功能賦予了 TOBi 鮮明的個性,使客戶與 TOBi 之間的人機(jī)對話變得輕松自然,讓客戶更樂于與之交流。
設(shè)想這樣的情景:在客戶對 TOBi 報出姓名后,當(dāng) TOBi 需要了解客戶的地址以便提供進(jìn)一步服務(wù)時,TOBi 并不會生硬地接著發(fā)問:「請說出您的地址?!苟菚@樣表達(dá):「嘿,好名字!接下來我還需要了解一下您住在哪里?」此時此刻,客戶一定希望 AI 能夠以聽起來熱情、友好、溫暖,且又專業(yè)的聲音來說出這句話。類似的需求不僅體現(xiàn)在 AI 解答客戶疑問時,還適用于 AI 語音向客戶打招呼,或表達(dá)共情態(tài)度時。個人助理:表情符號、重點(diǎn)強(qiáng)調(diào)要讀懂
隨著虛擬助手和虛擬現(xiàn)實(shí)技術(shù)的興起,使用 Neural TTS 來支持閑聊和日常對話功能的客戶數(shù)量正在不斷增加。想要讓 AI 與人類的對話更加自然,最主要的挑戰(zhàn)之一在于如何讓 AI 理解包含特殊字符在內(nèi)的聊天用語——比如「呵呵」、「哈哈」、「哎喲」這類詞匯。
這類表情符號,還有重復(fù)字母如「soooo good」——然后再以自然的語氣提供即時響應(yīng)。此外,讓 AI 能使用不同的信息來表達(dá)相應(yīng)情感,從而表現(xiàn)出對人類感受的共鳴感,也正在成為一種越來越普遍的用戶需求。同聲傳譯:翻譯前后說話風(fēng)格、語氣要一致
語音互譯是又一個對話式 AI 語音可支持的典型場景。Azure Neural TTS 已覆蓋 110 多種不同語言,被應(yīng)用于多種翻譯場景中。不過,如何在翻譯的同時保持講話者的原始語氣風(fēng)格,一直都是個挑戰(zhàn)。尤其是在較為隨意的對話場景中,講話者往往會使用語氣上的細(xì)微差別來與聽眾建立情感聯(lián)系。在這種情況下,如果 AI 語音可在提供同步翻譯的同時,又能捕捉并理解講話者的風(fēng)格,就能使不同語言之間的對話依然生動且具有吸引力。
Azure Neural TTS
進(jìn)化:多國語言皆可栩栩如生戶
Sara(英語):更能表現(xiàn)自然情感的聊天機(jī)器人語音
Sara 是一個新近推出的美式英語音色,尤其擅長輕松的對話?!杆褂兄p松自然的年輕女性聲線,能夠勝任各種需要聊天機(jī)器人的場景。Sara 擁有三種情緒:快樂、悲傷和氣憤。她在閱讀表情符號時,可以發(fā)出笑聲、嘆息或氣憤語氣,而且還能發(fā)出「太~(拉長語調(diào))好了」這種人類特有的語調(diào)。播放下面的語音,親耳感受一下效果。
下面這段錄音,來自 Sara 作為聊天機(jī)器人與人類用戶之間的自然對話。(此示例來自機(jī)器人和人類用戶之間的閑聊,對話很隨意,可能包含錯誤。)
除了預(yù)設(shè)的幾種「情緒」,用戶還可以通過 SSML 讓 Sara 在常規(guī)交流、歡快、悲傷和憤怒等幾種語氣風(fēng)格之間隨意切換。
曉辰和曉顏(中文普通話):專為日常對話及客服場景而優(yōu)化的全新中文語音
曉辰和曉顏是專為中文用戶提供的普通話語音。其中曉辰擅長逼真的自然語氣,曉顏與客戶服務(wù)場景更匹配。曉辰和曉顏?zhàn)铒@著的特征,在于能逼真模仿人類在日常場合下的交流。與朗誦、播音這類「嚴(yán)肅」場合不同,人們的日常對話中除了語氣隨意,韻律多變,而且常常出現(xiàn)詞語發(fā)音不完整,句子語法不像課本那么嚴(yán)謹(jǐn),且會出現(xiàn)重復(fù)、不完整、或者啰嗦等情況。借助先進(jìn)的建模技術(shù),曉辰和曉顏的 AI 語音能夠?qū)W習(xí)并活用這些人類表達(dá)的「缺陷」,并逼真地還原這些「不完美」,使合成語音聽起來更加真實(shí)親切。在下面這段客服場景模擬對話中,曉顏是客服助理,曉辰是客戶。您可以從中感受到他們?nèi)缤嫒艘话爿p松、自然的對話語氣。
Nanami(日語):元?dú)鉂M滿的東瀛女聲
Nanami 是擁有動聽女性聲線的日語語音。「她」有著三種不同語音風(fēng)格:聊天風(fēng)格、客服風(fēng)格和開朗風(fēng)格,讓合成語音在各種場景中都更具吸引力。
來聽一聽 Nanami 元?dú)鉂M滿的聲音:
現(xiàn)在就來感受
Azure Neural TTS 擬人語音的動人表現(xiàn)力吧!
微軟不斷傾聽全球用戶對于 Azure Neural TTS 在不同情況下語音發(fā)音準(zhǔn)確性的反饋,以負(fù)責(zé)任的 AI 及公平、可靠和安全、隱私和保障、包容、透明、負(fù)責(zé)的六項(xiàng)人工智能準(zhǔn)則為前提,進(jìn)行了這次更新,為用戶帶來表達(dá)更自然、語義更清晰的語音體驗(yàn)。現(xiàn)在,微軟的文本轉(zhuǎn)語音可以支持超過 110 種語言的 270 多種 AI 語音。如果想親身感受 Azure Neural TTS 的強(qiáng)大,就來 Azure 官網(wǎng)親自體驗(yàn)吧!還有聲音定制平臺可以即刻為企業(yè)創(chuàng)建多種語言和風(fēng)格的獨(dú)特品牌語音。
原文標(biāo)題:什么!跟我說話的竟然是AI!
文章出處:【微信公眾號:微軟科技】歡迎添加關(guān)注!文轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
微軟
+關(guān)注
關(guān)注
4文章
6632瀏覽量
104530 -
AI
+關(guān)注
關(guān)注
87文章
31682瀏覽量
270484 -
人工智能
+關(guān)注
關(guān)注
1796文章
47772瀏覽量
240511
原文標(biāo)題:什么!跟我說話的竟然是AI!
文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
Qorvo在手機(jī)RF和Wi-Fi 7技術(shù)上的最新進(jìn)展及市場策略
FF將發(fā)布FX品牌最新進(jìn)展
揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范最新進(jìn)展(2024Q4)
![揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范<b class='flag-5'>最新進(jìn)展</b>(2024Q4)](https://file1.elecfans.com/web1/M00/F5/51/wKgZoWc6_9iAR8mrAAXA5f5chSc558.jpg)
Qorvo在射頻和電源管理領(lǐng)域的最新進(jìn)展
智能優(yōu)化的自動點(diǎn)焊控制系統(tǒng):電源技術(shù)新進(jìn)展與應(yīng)用實(shí)踐
芯片和封裝級互連技術(shù)的最新進(jìn)展
5G新通話技術(shù)取得新進(jìn)展
FPGA在人工智能中的應(yīng)用有哪些?
蘋果宣布基于生成式AI系統(tǒng)的Siri語音助手
美國政府推動美國科技公司在阿聯(lián)酋發(fā)展人工智能
百度首席技術(shù)官王海峰解讀文心大模型的關(guān)鍵技術(shù)和最新進(jìn)展
![百度首席<b class='flag-5'>技術(shù)</b>官王海峰解讀文心大模型的關(guān)鍵<b class='flag-5'>技術(shù)</b>和<b class='flag-5'>最新進(jìn)展</b>](https://file1.elecfans.com/web2/M00/CD/1C/wKgaomYgddKAG-uTAAAOKd5w0Gw262.jpg)
評論