下圖是美國(guó)著名科幻電影《鋼鐵俠》中的幾個(gè)場(chǎng)景,可以說這部電影全面展現(xiàn)了未來先進(jìn)人機(jī)語音交互的強(qiáng)大魅力。在電影中,主角托尼·斯塔克擁有一套名叫“賈維斯”的虛擬智能管家,無論是在家中還是戶外,抑或是身披戰(zhàn)甲時(shí)托尼都可隨意與其對(duì)話并發(fā)號(hào)施令,而這位虛擬管家的回復(fù)之自然如同一位真實(shí)存在的伙伴,不僅對(duì)命令的理解準(zhǔn)確無誤,還能對(duì)托尼的一些比較無厘頭的笑話做出與真人類似的回應(yīng),這種強(qiáng)大的交互能力讓每一位看過此片的觀眾都期待能夠在現(xiàn)實(shí)中也擁有一位這樣的虛擬智能管家。實(shí)際上依賴當(dāng)前的科技水平,在真實(shí)生活場(chǎng)景中實(shí)現(xiàn)如此自然的對(duì)話,仍是一件非常困難的事情。本次分享不會(huì)涉及太多有關(guān)深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識(shí)圖譜的技術(shù)范疇,也不會(huì)過多討論諸如ASR、IOP等有關(guān)自然語言理解能力的技術(shù),而是主要關(guān)注語音信號(hào)的拾取優(yōu)化,能否進(jìn)一步提升未來自然語音交互的識(shí)別能力。
以《鋼鐵俠》電影中的場(chǎng)景為例,在實(shí)際應(yīng)用中,人機(jī)語音交互面臨著諸多復(fù)雜的場(chǎng)景:
風(fēng)噪、機(jī)械振動(dòng)噪聲:以鋼鐵俠戰(zhàn)衣飛行為代表的應(yīng)用場(chǎng)景,戰(zhàn)衣飛行的速度越快,其產(chǎn)生的風(fēng)噪與機(jī)械部件摩擦振動(dòng)的噪聲就越嚴(yán)重。
槍林彈雨的爆炸聲:以鋼鐵俠作戰(zhàn)為代表的特殊場(chǎng)景,戰(zhàn)斗時(shí)周圍環(huán)境中的爆炸聲會(huì)對(duì)拾音系統(tǒng)產(chǎn)生嚴(yán)重干擾。
遠(yuǎn)場(chǎng)問題:以托尼的豪宅為代表的生活場(chǎng)景,如何保證托尼在寬敞大客廳中任何一個(gè)角落向虛擬管家下達(dá)的指令都能被準(zhǔn)確拾取。
混響問題:以“鋼鐵俠戰(zhàn)衣”的密閉空間為代表的應(yīng)用場(chǎng)景,此場(chǎng)景中聲音會(huì)產(chǎn)生反彈折射從而造成混響干擾聲音拾取。
回聲問題
如果以現(xiàn)實(shí)生活場(chǎng)景為例,用戶與一個(gè)人工智能硬件設(shè)備進(jìn)行人機(jī)對(duì)話會(huì)面臨什么樣的影響呢?
上圖展示的是一個(gè)包括客廳、書房、陽臺(tái)、各種家具在內(nèi)的非常典型的普通家庭場(chǎng)景,其中存在多種能夠?yàn)檎Z音交互帶來干擾的環(huán)境因素。例如來自廚房的包括水流聲、油煙機(jī)噪聲、炒菜洗碗雜聲在內(nèi)的各種噪聲;客廳中的人交談?wù)f話、兒童游戲打鬧的噪聲;還有因遠(yuǎn)場(chǎng)和房間角落造成的混響,房間中的家用電器如空調(diào)、風(fēng)扇、吸塵器、電視、音響等等發(fā)出的強(qiáng)烈噪聲,窗外傳來的包括汽車聲、風(fēng)聲、雨聲雷聲在內(nèi)的戶外噪聲等等。即使我們實(shí)現(xiàn)了在理想環(huán)境中智能語音交互的強(qiáng)大性能,一旦在實(shí)際應(yīng)用中涉及到如遠(yuǎn)場(chǎng)噪聲、回聲等問題,人機(jī)交互的性能就會(huì)急劇下降。
為了進(jìn)一步驗(yàn)證以上環(huán)境因素對(duì)智能語音識(shí)別系統(tǒng)的影響,我們使用智能音響進(jìn)行了測(cè)試。
上圖是我們使用世界上最著名的智能音箱之一 Amazon Echo 測(cè)試在不同噪聲場(chǎng)景下喚醒性能波動(dòng)的結(jié)果,測(cè)試方法如下:我們使用一百次100%可用的測(cè)試用例(在安靜環(huán)境中距離設(shè)備非常近的條件下播放一百次喚醒指令并確保Echo喚醒成功率為100%。則視此測(cè)試用例是可用的),并分別測(cè)試了添加七種不同類型噪聲:安靜、輕音樂、激烈歌曲、新聞聯(lián)播、雷雨聲、客廳綜合噪聲、廚房綜合噪聲;同時(shí)把聲源與Echo之間的距離控制在1m與3.5m兩個(gè)距離量,進(jìn)行喚醒測(cè)試并統(tǒng)計(jì)其喚醒成功率。通過測(cè)試可以發(fā)現(xiàn),在安靜的環(huán)境中,距離Echo 1m時(shí)喚醒成功率可保持91%左右,3.5m時(shí)則下降到72%;而在后續(xù)各種不同噪聲環(huán)境中,Echo的喚醒性能急劇下降。實(shí)驗(yàn)結(jié)果基本驗(yàn)證了之前的推測(cè):真實(shí)生活場(chǎng)景中的各種環(huán)境條件,的確會(huì)對(duì)人機(jī)交互識(shí)別造成不利影響。除了Amazon Echo,我們還測(cè)試了Google Home以及國(guó)內(nèi)的一些智能助手。除了以上環(huán)境變量之外,我們還選擇了回聲、遠(yuǎn)場(chǎng)、混響、不同角度等干擾場(chǎng)景,得到的性能曲線都是類似的。
綜上所述,生活中的種種干擾因素一定會(huì)對(duì)人機(jī)語音交互的性能造成很大的不利影響,而某些干擾因素就目前技術(shù)而言,是無法從根本上解決的。如果將近場(chǎng)、無噪聲、無回聲、無混響等理想環(huán)境下的語音識(shí)別作為天花板,那么不同廠商探索的在干擾環(huán)境下的高性能語音識(shí)別方案,則是致力于如何在惡劣環(huán)境下更接近這層天花板。
2、什么是語音前處理
接下來介紹的技術(shù)是語音前處理。這種技術(shù)從何而來?因何而生的?其意義是什么?
2.1 原理
我們所謂的人機(jī)語音交互實(shí)際上是一種仿生模擬,上圖第一條路徑表示的是人類通過生理器官進(jìn)行拾音的過程。人耳的生理構(gòu)造包括耳廓、耳道、鼓膜等,外界的聲波傳播至耳朵,耳廓收集聲波后通過耳道將其傳播至鼓膜并引起鼓膜振動(dòng),鼓膜振動(dòng)使聲音信號(hào)通過聽覺神經(jīng)傳遞至大腦,并由大腦對(duì)接收到的聲音進(jìn)行辨別。這里需要強(qiáng)調(diào)的是,人的生理器官具有多種處理能力,例如人的耳廓與耳道具備濾波器的功能,而鼓膜與聽覺神經(jīng)則負(fù)責(zé)將信號(hào)放大,從而易于在聲音中提煉有效信息;接下來的高級(jí)神經(jīng)與大腦則具備了聲紋識(shí)別、自然語言理解等語音識(shí)別的功能,最終經(jīng)過大腦分撿出的有效信息則指導(dǎo)人類根據(jù)語言理解驅(qū)動(dòng)正常的行為。
第二條路徑表示的是機(jī)器進(jìn)行聲音拾取的過程,首先需要用于聲音拾取的麥克風(fēng),在這里麥克風(fēng)拾取的是模擬信號(hào),系統(tǒng)需通過信號(hào)處理對(duì)模擬信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換,從而獲得聲音的數(shù)字信號(hào);與人類聽覺系統(tǒng)類似,接下來通過數(shù)字信號(hào)領(lǐng)域的一系列放大、降噪、回聲一致等處理,聲音的清晰度與信噪比會(huì)得到顯著提升,最終這些聲學(xué)數(shù)字信號(hào)會(huì)被傳輸至機(jī)器的大腦,如深度學(xué)習(xí)或自然語言理解系統(tǒng)從而被轉(zhuǎn)換成機(jī)器可以理解的指令。與人類的聽覺系統(tǒng)不同,這里的麥克風(fēng)明顯不具備人耳的耳廓、耳道等特性,無法對(duì)聲音信號(hào)進(jìn)行有效的前期處理,只能最大限度地實(shí)現(xiàn)不失真拾音。因此我們需要在麥克風(fēng)拾取原始聲音的基礎(chǔ)上進(jìn)行相應(yīng)的優(yōu)化也就是語音“前”處理,才能得到有利于機(jī)器學(xué)習(xí)理解辨識(shí)并作出正確反饋的聲學(xué)信號(hào)。
2.2 意義
為什么需要語音“前”處理?上圖表示一個(gè)比較典型的語音信號(hào)處理過程:首先,我們將麥克風(fēng)拾取聲音信號(hào)的過程稱為“聽到”,此過程的作用是將聲音信息由聲波形式轉(zhuǎn)換成數(shù)字信號(hào)形式;隨后聲音信息被傳輸至“語音信號(hào)處理”模塊,此語音數(shù)字信號(hào)處理模塊的功能是“聽清”,也就是對(duì)接收到的聲音信號(hào)進(jìn)行清晰化處理;經(jīng)過清晰化處理之后的聲音信號(hào)會(huì)被繼續(xù)傳輸至文字信息識(shí)別系統(tǒng),我們將文字信息識(shí)別系統(tǒng)中的處理過程稱為“聽懂”——從“聽到”、“聽清”到“聽懂”的整體流程就是機(jī)器模擬人聽覺生理活動(dòng)的過程。在“聽懂”部分,系統(tǒng)首先會(huì)對(duì)信號(hào)中的聲學(xué)特征進(jìn)行提取,隨后根據(jù)之前整個(gè)深度學(xué)習(xí)系統(tǒng)經(jīng)過大量標(biāo)準(zhǔn)語言訓(xùn)練訓(xùn)練得到的聲學(xué)模型與語音模型進(jìn)行匹配與解碼,最終得到一個(gè)較為準(zhǔn)確的文字識(shí)別結(jié)果。如果在“聽到”階段沒有清晰拾得目標(biāo)音頻,麥克風(fēng)拾取到的信號(hào)中就會(huì)包含我們上文介紹到的各種惡劣環(huán)境影響因子例如混響聲音、外界噪聲、回聲、遠(yuǎn)場(chǎng)聲音、衰減聲音等等,倘若不處理這些混有噪音的聲音信號(hào)而是直接將其送到文字識(shí)別系統(tǒng)就難以根據(jù)之前的標(biāo)準(zhǔn)語言訓(xùn)練得到的聲學(xué)模型對(duì)目標(biāo)聲音進(jìn)行識(shí)別與匹配,識(shí)別效果一定會(huì)大打折扣。因而我們必須在其中添加一個(gè)“聽清”的過程,在語音識(shí)別之前加入語音信號(hào)處理模塊,通常我們會(huì)把這部分流程我們稱為“語音前處理”。
3、信號(hào)處理VS深度學(xué)習(xí)
接下來我將會(huì)講述信號(hào)處理與深度學(xué)習(xí)的關(guān)系??梢哉f這兩者中的前者算是傳統(tǒng)學(xué)科,后者算是前沿學(xué)科。首先需要提出以下幾個(gè)問題:深度學(xué)習(xí)+大數(shù)據(jù)能否解決所有的語音干擾問題?深度學(xué)習(xí)時(shí)代的前端數(shù)字信號(hào)處理技術(shù)是否已經(jīng)過時(shí)?深度學(xué)習(xí)是數(shù)字信號(hào)處理的終結(jié)嗎??jī)H針對(duì)干擾的模型訓(xùn)練能夠有效識(shí)別并去除干擾嗎?之前我參與了有關(guān)深度學(xué)習(xí)時(shí)代信號(hào)處理沒有意義的討論,對(duì)此觀點(diǎn)的結(jié)論是否定的。
為什么深度學(xué)習(xí)不可能代替信號(hào)處理?我們?cè)诂F(xiàn)實(shí)生活中面臨以下幾大問題:
第一大問題是噪聲問題。噪聲分為平穩(wěn)噪聲與非平穩(wěn)噪聲,平穩(wěn)噪聲指的是特性相對(duì)平穩(wěn),以日常生活中的一些如白噪聲、駕駛汽車勻速行駛時(shí)發(fā)動(dòng)機(jī)的聲音、風(fēng)噪等頻率特性、時(shí)變特性比較平穩(wěn)的理想噪聲為例;而非平穩(wěn)噪聲則與之相反,比較典型的例子是人說話聲、KTV音樂等等。
第二大問題是回聲問題,例如一個(gè)智能音箱正在播放歌曲,此時(shí)音響上的麥克風(fēng)也正在工作并處于隨時(shí)等待被主人喚醒的待命狀態(tài)。這時(shí),用戶會(huì)希望與智能音箱進(jìn)行語音交互時(shí)麥克風(fēng)不會(huì)混淆拾取到的自己發(fā)出的指令聲與音響喇叭放出的音樂聲,此時(shí)對(duì)于用戶發(fā)出的語音指令來說此音箱喇叭發(fā)出的聲音就被稱為“回聲”;在實(shí)踐中音響必須濾除此回聲并保留來自用戶有效的指令聲才能對(duì)用戶的指令做出正確反應(yīng)。也許有些人會(huì)認(rèn)為這與噪聲類似,實(shí)際上二者并不一樣,處理方法也不盡相同。
第三大問題是遠(yuǎn)場(chǎng)問題。用戶距離智能音響比較近時(shí)可獲得較為準(zhǔn)確的語音識(shí)別體驗(yàn);而一旦用戶距離智能音響較遠(yuǎn),其語音交互的性能就會(huì)急劇下降并影響用戶使用智能音箱的良好體驗(yàn)。
第四大問題是混響問題。當(dāng)將此設(shè)備擺放在墻角或較為空曠的房間時(shí),用戶發(fā)出的有效指令聲經(jīng)過此房間的墻壁折射反彈多次后被設(shè)備的麥克風(fēng)拾取,麥克風(fēng)會(huì)收到混合在一起的多個(gè)不同時(shí)間延遲下的指令聲音,這種混響多次的指令也會(huì)為語音識(shí)別帶來巨大干擾。
第五大問題是聲音定位。圍繞在此設(shè)備周圍360度空間內(nèi)的任何方位都有可能成為用戶指令的聲源位置,聲音定位的目的就是瞄準(zhǔn)用戶指令聲源所在的角度并進(jìn)行波束集中,有效提高聲音拾取的準(zhǔn)確性。
那么這些問題可以用深度學(xué)習(xí)來有效解決嗎?
平穩(wěn)噪聲:可以解決
方法是針對(duì)一個(gè)干擾模型進(jìn)行大量訓(xùn)練。例如在訓(xùn)練最初時(shí)向語音識(shí)別系統(tǒng)輸入大量加噪的語料,這里的“加噪”是指加入明確希望去除的噪聲類型如風(fēng)噪、汽車噪聲等。將此噪聲提前模擬并加入訓(xùn)練后得到的識(shí)別系統(tǒng)可準(zhǔn)確識(shí)別此噪聲的聲學(xué)特性,這樣就可得到能夠識(shí)別并處理真正含有此噪聲語料的語音識(shí)別系統(tǒng),增強(qiáng)它的魯棒性,更有效地去除平穩(wěn)噪聲對(duì)有效語音的影響。
非平穩(wěn)噪聲:部分解決
即使絕大多數(shù)非平穩(wěn)噪聲無法被捕捉特性,但仍然存在少量非平穩(wěn)噪聲可被捕捉到特性,我們可以通過深度學(xué)習(xí)訓(xùn)練解決這部分非平穩(wěn)噪聲的干擾問題。
混響問題:部分解決
如果我們確定了某房間的混響模型,例如這間房間的空曠程度、長(zhǎng)寬高、墻壁的材質(zhì)、設(shè)備在房間中擺放的位置等,那么聲音在此房間中傳遞、反彈再傳遞到設(shè)備的時(shí)長(zhǎng)、混響效果與混響模型就是確定的,就能將其結(jié)合深度學(xué)習(xí)從而解決混響問題;如果這些場(chǎng)景發(fā)生了改變,那么相對(duì)應(yīng)的混響模型就需要進(jìn)行改變。
綜上所述,深度學(xué)習(xí)可以解決平穩(wěn)噪聲問題與部分非平穩(wěn)噪聲和混響問題,但是豐富其語料模型從而達(dá)到良好訓(xùn)練效果的工作量很大;而通過深度學(xué)習(xí)并不能妥善解決并不具備恒定特性的遠(yuǎn)場(chǎng)、回聲與聲源定位問題,我們無法從這三者中提取有價(jià)值的模型特征的。語音識(shí)別問題歸根結(jié)底是信噪比問題,我們可以把所有的干擾都視為影響原始語音信號(hào)信噪比的噪聲,當(dāng)信噪比不佳時(shí)系統(tǒng)無法從聲音中提取有效信號(hào)的聲音模型,語音識(shí)別就無法成功。
4、語音前處理的變革演進(jìn)
講完了語音信號(hào)處理的前世,接下來我們談一談?wù)Z音信號(hào)處理的今生。想必大家聽完之前的分享,心中可能會(huì)產(chǎn)生一個(gè)疑問:我們知道語音信號(hào)處理是一個(gè)有著近百年歷史的傳統(tǒng)技術(shù),那么傳統(tǒng)的語音信號(hào)處理技術(shù)能否直接完美地運(yùn)用于人機(jī)語音交互呢?
我們熟知的語音信號(hào)處理主要被應(yīng)用于通信系統(tǒng),而通信系統(tǒng)的設(shè)備處于一個(gè)較為可控的應(yīng)用場(chǎng)景中,例如從最早的座機(jī)、固定電話到現(xiàn)在的移動(dòng)電話,而移動(dòng)電話也是從模擬信號(hào)發(fā)展到到數(shù)字電話時(shí)代,整體主要服務(wù)于包括軍用步話機(jī)在內(nèi)的通信場(chǎng)景。我們以手機(jī)為例,手機(jī)有四種通訊模式:手持、免提、插線耳機(jī)以及藍(lán)牙耳機(jī)。對(duì)于語音信號(hào)處理來說,經(jīng)過業(yè)界幾十年的探索,這幾種模式的發(fā)展都比較成熟,大家已經(jīng)摸索出了應(yīng)對(duì)這幾種通訊模式較為典型的語音算法,例如免提模式下如何降噪,手持模式下可用手機(jī)多個(gè)麥克風(fēng)進(jìn)行降噪等。
業(yè)界應(yīng)對(duì)這些傳統(tǒng)方式都有比較成熟的方案,但是面對(duì)現(xiàn)在以智能音箱為例的新型人工智能硬件設(shè)備來說,其與手機(jī)的結(jié)構(gòu)和應(yīng)用場(chǎng)景完全不同,手機(jī)主要用于近場(chǎng)通訊,但智能音箱主要運(yùn)用在中遠(yuǎn)距離通訊,且智能音箱上喇叭的功率與其播放的聲音強(qiáng)度比手機(jī)高很多;使用距離較遠(yuǎn)就存在我之前提到的遠(yuǎn)場(chǎng)聲音問題,與此同時(shí)麥克風(fēng)所能識(shí)別到用戶的指令音量也會(huì)更小而回聲卻會(huì)更惡劣;由于智能音箱擺放位置的多樣性,其需要面臨的混響環(huán)境也會(huì)更加復(fù)雜;即使智能音箱具備多個(gè)麥克風(fēng),但由于其是作為一個(gè)遠(yuǎn)場(chǎng)設(shè)備,我們無法使用副麥進(jìn)行降噪處理。有信號(hào)處理經(jīng)驗(yàn)的同學(xué)可能對(duì)此會(huì)比較了解,副麥降噪依賴于手持模式下主麥在用戶嘴邊而副麥在手機(jī)背面,只有當(dāng)主麥副麥之間拾音差異在6dB以上才能實(shí)現(xiàn)副麥降噪,那么對(duì)于遠(yuǎn)場(chǎng)設(shè)備來說副麥降噪并無理論基礎(chǔ)。
除了以上新型智能音箱人機(jī)對(duì)話與傳統(tǒng)通訊工具手機(jī)電話之間的明顯差異,人腦對(duì)語言的理解與機(jī)器之間也存在不小差異。傳統(tǒng)的通信是人與人之間的交流,而語音識(shí)別則是人與機(jī)器之間的交流,二者本質(zhì)上存在很大差別。任何的信號(hào)處理過程都會(huì)破壞語音信號(hào)聲學(xué)特性,也許人能夠成功識(shí)別這種破壞后的信息但機(jī)器卻無法處理。因而我們需要在傳統(tǒng)通信的語音信號(hào)處理基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新,特別優(yōu)化匹配語音識(shí)別的特性要求,從而讓人工智能硬件既能聽清楚也能講明白,這也是所有人工智能硬件廠家核心科技之所在。
總結(jié)來說,就是從前端的信號(hào)處理與后端的識(shí)別兩個(gè)層面進(jìn)行系統(tǒng)性的綜合優(yōu)化,才能實(shí)現(xiàn)我們期待的與人工智能自然交流的美好愿景。
Q&A
Q:前端使用哪些去噪算法?
A:通常降噪有以下幾類方法:
1)濾波器降噪:一種較為典型的方案,主要通過如維納濾波這樣的自適應(yīng)濾波對(duì)聲音進(jìn)行降噪。
2)主副麥降噪:主要運(yùn)用于手機(jī)等手持模式上,使用位于手機(jī)下方的主麥克風(fēng)與手機(jī)背面的副麥克風(fēng)進(jìn)行降噪。
當(dāng)用戶使用手持模式撥打電話時(shí)主麥靠在嘴邊而副麥朝向外界,當(dāng)外界環(huán)境充斥噪聲時(shí)主麥玉副麥都會(huì)收到有效語音與噪聲的混合聲音,但對(duì)比兩個(gè)麥克風(fēng),主麥?zhǔn)盏接脩舻挠行дZ音信號(hào)更強(qiáng)而副麥?zhǔn)盏酵饨绲脑肼暩鼜?qiáng),使用譜減法將主麥?zhǔn)盏降穆曇魷p去副麥的噪聲,留下的就是有效信號(hào);再放大有效信號(hào)即可得到清晰的語音。而智能硬件無法使用副麥降噪,如果使用單麥那么我們可借助濾波與噪聲估計(jì),用估計(jì)出噪聲的頻譜與此噪聲對(duì)比,并使用普減法從原始信號(hào)中消除噪聲頻譜。在這里需要強(qiáng)調(diào)的是我們的降噪處理最終的接收對(duì)象是誰。如果是給機(jī)器則不能破壞原始語音的聲學(xué)特征,需要把降噪控制在一定的程度內(nèi)。
Q:遠(yuǎn)場(chǎng)單通道降噪對(duì)于收益率有何影響?
A:兩年前我們的小魚在家產(chǎn)品就使用了單麥克風(fēng)并實(shí)現(xiàn)降噪與語音信號(hào)放大、回聲抑制、遠(yuǎn)場(chǎng)增強(qiáng)等一系列功能,提升十分明顯。我們?cè)褂糜嶏w的語音識(shí)別引擎與標(biāo)準(zhǔn)接口進(jìn)行對(duì)比實(shí)驗(yàn),在沒有添加任何其他處理算法的情況下使用訊飛識(shí)別引擎測(cè)試近場(chǎng)拾音,其準(zhǔn)確率可達(dá)到100%,一旦將距離增加到1m~3m的遠(yuǎn)場(chǎng),識(shí)別率會(huì)大幅度降低至50%~10%;而如果加上遠(yuǎn)場(chǎng)單通道語音增強(qiáng)算法,可將3m時(shí)10%的準(zhǔn)確率提升至70%左右,收益十分明顯。單麥算法的使用需要結(jié)合不同場(chǎng)景,如果現(xiàn)在絕大多數(shù)智能音箱為了比拼識(shí)別準(zhǔn)確率都用麥克風(fēng)陣列,在成本上則會(huì)帶來很大壓力,單麥算法在小型設(shè)備或低成本設(shè)備的應(yīng)用前景十分廣闊。
Q:智能音箱的揚(yáng)聲器音量是否不能過大,否則會(huì)造成強(qiáng)非線性影響AEC?
A:是的,這涉及到硬件的選型問題。我們知道較昂貴的揚(yáng)聲器其聲音特性也會(huì)更出色,主要體現(xiàn)在線性優(yōu)秀、底噪更低、失真更小、信噪比更高等。但由于受到產(chǎn)品的限制我們往往無法選擇性能如此優(yōu)秀的揚(yáng)聲器,因而揚(yáng)聲器的播放響度控制在不失真的范圍內(nèi)。如果一味地追求聲音大而使播放出的聲音信號(hào)被麥克風(fēng)吸收使得頻譜失真或造成非常強(qiáng)的非線性,那么從算法層面上來說很難解決由此帶來的影響。我認(rèn)為應(yīng)該盡可能調(diào)試好揚(yáng)聲器的聲學(xué)參數(shù)或從硬件選型進(jìn)行控制從而達(dá)到一個(gè)音量與音質(zhì)的平衡。
-
信號(hào)處理
+關(guān)注
關(guān)注
48文章
1043瀏覽量
103415 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5516瀏覽量
121583
原文標(biāo)題:鄧濱:信號(hào)處理+深度學(xué)習(xí)才能實(shí)現(xiàn)語音交互
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
車載導(dǎo)航人機(jī)語音交互系統(tǒng)的實(shí)現(xiàn)
【Gokit 3試用體驗(yàn)】通過Lark 7618模組實(shí)現(xiàn)語音交互+語音交互UI設(shè)計(jì)理念
【MYD-Y6ULX申請(qǐng)】語音交互前端信號(hào)處理板
車載導(dǎo)航人機(jī)語音交互系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
對(duì)語音交互技術(shù)感興趣的童鞋戳進(jìn)來!
什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?
基于Internet的語音交互系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
![基于Internet的<b class='flag-5'>語音</b><b class='flag-5'>交互</b>系統(tǒng)的設(shè)計(jì)和<b class='flag-5'>實(shí)現(xiàn)</b>](https://file1.elecfans.com//web2/M00/A4/E1/wKgZomUMNhGAY7lKAAA9GbKH3Fo969.jpg)
如何使用深度學(xué)習(xí)實(shí)現(xiàn)語音聲學(xué)模型的研究
![如何使用<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>語音</b>聲學(xué)模型的研究](https://file.elecfans.com/web1/M00/BC/4A/pIYBAF62eEKALBULAABat_Mgxrs069.png)
評(píng)論