百度公司提出的端對(duì)端神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行語音識(shí)別,成功的代替了手工工程化部件的流水線操作,這讓整個(gè)語音識(shí)別技術(shù)更加便捷,而使用神經(jīng)網(wǎng)絡(luò)來抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面。
集微網(wǎng)消息,近年來,語音識(shí)別技術(shù)得到了迅猛的發(fā)展,這得益于人工智能的快速發(fā)展,其中最為主要的學(xué)業(yè)界的各大神經(jīng)網(wǎng)絡(luò)的出現(xiàn),包括基礎(chǔ)的序列神經(jīng)網(wǎng)絡(luò)模型RNN、LSTM和GRU。語音識(shí)別技術(shù)也已經(jīng)進(jìn)入到各行各業(yè)中,如工業(yè)、家電、通信和汽車電子等。于是,對(duì)于語音識(shí)別技術(shù)的要求也將更加嚴(yán)格了,更傾向于走向準(zhǔn)確化和便捷化。
以往,構(gòu)建語音識(shí)別模型主要是使用HMM的序列模型,再使用手工工程化部件來實(shí)現(xiàn)整個(gè)流水線操作,并且對(duì)于不同的語言的語音需要重新構(gòu)建模型的結(jié)果特征。對(duì)此,國內(nèi)語音識(shí)別技術(shù)第一梯隊(duì)公司百度便提出了使用端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行語音識(shí)別工作,該專利為“端對(duì)端語音識(shí)別”(專利號(hào):CN107408111A)。
首先,小編在這先介紹一下神經(jīng)網(wǎng)絡(luò)端對(duì)端的學(xué)習(xí)方式。對(duì)于語音識(shí)別來說,端到端深度學(xué)習(xí)做的是,訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),輸入就是一段音頻,輸出直接是聽寫文本。其中這里的端表示輸入源數(shù)據(jù)端,另外一端是神經(jīng)網(wǎng)絡(luò)處理的結(jié)果也就是我們最終需要的目標(biāo)。這種訓(xùn)練學(xué)習(xí)的方式能應(yīng)對(duì)多種語言的語音識(shí)別的場(chǎng)景構(gòu)建,因?yàn)閮H僅是需要改變輸入端和輸出端,深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)并不需要根據(jù)語言的語音不同而改變。
專利中提出的端對(duì)端的深度學(xué)習(xí)模型的架構(gòu)圖如圖1所示。該架構(gòu)包括訓(xùn)練以攝取語譜并生成文本的遞歸神經(jīng)網(wǎng)絡(luò)模型。首先,使用一個(gè)或更多個(gè)卷積層對(duì)語譜進(jìn)行特征提取,緊接著,使用一個(gè)或多個(gè)遞歸層(雙向GRU神經(jīng)網(wǎng)絡(luò))對(duì)語譜的特征進(jìn)行時(shí)序建模。最后再使用全連接層將遞歸層獲取的語譜信息進(jìn)行全連接作為CTC(鏈結(jié)式時(shí)間分類算法:重點(diǎn)解決輸入數(shù)據(jù)與給定標(biāo)簽的對(duì)齊問題)的輸入,經(jīng)過Softmax計(jì)算輸出各個(gè)文本標(biāo)簽的概率。
圖1端對(duì)端深度學(xué)習(xí)模型架構(gòu)圖
經(jīng)過上述端對(duì)端深度學(xué)習(xí)模型構(gòu)建后,專利中還給出了端對(duì)端深度學(xué)習(xí)模型的訓(xùn)練方法,如圖2所示。
圖2 端對(duì)端深度學(xué)習(xí)模型訓(xùn)練方法圖
首先需要為模型設(shè)置好,輸入端和輸出端,對(duì)于語音識(shí)別技術(shù)來說,輸入端為一時(shí)間序列頻譜幀的話語X,輸出端是與話語X具有相關(guān)聯(lián)的真實(shí)標(biāo)簽Y。
構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型(包括一個(gè)或多個(gè)卷積層和一個(gè)或多個(gè)遞歸層的模型)用來預(yù)測(cè)一個(gè)或多個(gè)字符也就是我們輸出端的標(biāo)簽。
根據(jù)網(wǎng)絡(luò)模型的輸出端的標(biāo)簽的概率分布與真實(shí)標(biāo)簽的誤差計(jì)算損失函數(shù),提供損失函數(shù)推出標(biāo)簽預(yù)測(cè)的誤差,再使用梯度反向傳播算法更新模型參數(shù)。從而達(dá)到網(wǎng)絡(luò)模型學(xué)習(xí)的目的。
百度公司提出的端對(duì)端神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行語音識(shí)別,成功的代替了手工工程化部件的流水線操作,這讓整個(gè)語音識(shí)別技術(shù)更加便捷,而使用神經(jīng)網(wǎng)絡(luò)來抽取輸入端的特征信息相當(dāng)于人功抽取特征則更加全面,這讓整個(gè)語音識(shí)別技術(shù)更加準(zhǔn)確。從這兩方面來看,端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型確實(shí)是讓語音識(shí)別技術(shù)走向了便捷化,準(zhǔn)確化。
-
百度
+關(guān)注
關(guān)注
9文章
2284瀏覽量
90815 -
語音識(shí)別
+關(guān)注
關(guān)注
38文章
1745瀏覽量
112960
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
百度百科啟動(dòng)“繁星計(jì)劃”
ElfBoard開源項(xiàng)目|百度智能云平臺(tái)的人臉識(shí)別項(xiàng)目
![ElfBoard開源項(xiàng)目|<b class='flag-5'>百度</b>智能云平臺(tái)的人臉<b class='flag-5'>識(shí)別</b>項(xiàng)目](https://file1.elecfans.com/web3/M00/03/91/wKgZO2dqImyAMrkHAABBmezrNfQ419.png)
百度正式回應(yīng)進(jìn)軍短劇領(lǐng)域
百度文心大模型日均調(diào)用量超15億
百度小度將發(fā)布AI智能眼鏡
百度百舸AI計(jì)算平臺(tái)4.0震撼發(fā)布
循環(huán)神經(jīng)網(wǎng)絡(luò)在端到端語音識(shí)別中的應(yīng)用
http讀取百度返回的json數(shù)據(jù)時(shí)丟失數(shù)據(jù)怎么處理?
百度申請(qǐng)文小言商標(biāo)
2024百度移動(dòng)生態(tài)萬象大會(huì):百度新搜索11%內(nèi)容已AI生成
百度與特斯拉探討Robotaxi合作新機(jī)遇
百度王海峰:百度人工智能專利申請(qǐng)量、授權(quán)量國內(nèi)第一
百度文心一言用戶破2億,AI原生應(yīng)用開發(fā)數(shù)量達(dá)19萬
百度智能云正式發(fā)布了《百度智能云水業(yè)大模型白皮書》
![<b class='flag-5'>百度</b>智能云正式發(fā)布了《<b class='flag-5'>百度</b>智能云水業(yè)大模型白皮書》](https://file1.elecfans.com/web2/M00/C7/10/wKgaomYGGCWAfCHKAAAgH1pKxgI163.jpg)
評(píng)論