語音識別自半個世紀(jì)前誕生以來,一直處于不溫不火的狀態(tài),直到 2009 年深度學(xué)習(xí)技術(shù)的長足發(fā)展才使得語音識別的精度大大提高,雖然還無法進行無限制領(lǐng)域、無限制人群的應(yīng)用,但也在大多數(shù)場景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個角度來回顧一下語音識別發(fā)展的歷程和現(xiàn)狀,并分析一些未來趨勢,希望能幫助更多年輕技術(shù)人員了解語音行業(yè),并能產(chǎn)生興趣投身于這個行業(yè)。
語音識別,通常稱為自動語音識別,英文是Automatic Speech Recognition,縮寫為 ASR,主要是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進制編碼或者字符序列。但是,我們一般理解的語音識別其實都是狹義的語音轉(zhuǎn)文字的過程,簡稱語音轉(zhuǎn)文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應(yīng)起來。
語音識別是一項融合多學(xué)科知識的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計學(xué)、聲學(xué)與語言學(xué)、計算機與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語音識別自誕生以來的半個多世紀(jì),一直沒有在實際應(yīng)用過程得到普遍認(rèn)可,一方面這與語音識別的技術(shù)缺陷有關(guān),其識別精度和速度都達不到實際應(yīng)用的要求;另一方面,與業(yè)界對語音識別的期望過高有關(guān),實際上語音識別與鍵盤、鼠標(biāo)或觸摸屏等應(yīng)是融合關(guān)系,而非替代關(guān)系。
深度學(xué)習(xí)技術(shù)自 2009 年興起之后,已經(jīng)取得了長足進步。語音識別的精度和速度取決于實際應(yīng)用環(huán)境,但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見詞匯場景下的語音識別率已經(jīng)超過 95%,意味著具備了與人類相仿的語言識別能力,而這也是語音識別技術(shù)當(dāng)前發(fā)展比較火熱的原因。
隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場景下的語音識別也達到了可用狀態(tài),特別是遠(yuǎn)場語音識別已經(jīng)隨著智能音箱的興起成為全球消費電子領(lǐng)域應(yīng)用最為成功的技術(shù)之一。由于語音交互提供了更自然、更便利、更高效的溝通形式,語音必定將成為未來最主要的人機互動接口之一。
當(dāng)然,當(dāng)前技術(shù)還存在很多不足,如對于強噪聲、超遠(yuǎn)場、強干擾、多語種、大詞匯等場景下的語音識別還需要很大的提升;另外,多人語音識別和離線語音識別也是當(dāng)前需要重點解決的問題。雖然語音識別還無法做到無限制領(lǐng)域、無限制人群的應(yīng)用,但是至少從應(yīng)用實踐中我們看到了一些希望。
本篇文章將從技術(shù)和產(chǎn)業(yè)兩個角度來回顧一下語音識別發(fā)展的歷程和現(xiàn)狀,并分析一些未來趨勢,希望能幫助更多年輕技術(shù)人員了解語音行業(yè),并能產(chǎn)生興趣投身于這個行業(yè)。
語音識別的技術(shù)歷程
現(xiàn)代語音識別可以追溯到 1952 年,Davis 等人研制了世界上第一個能識別 10 個英文數(shù)字發(fā)音的實驗系統(tǒng),從此正式開啟了語音識別的進程。語音識別發(fā)展到今天已經(jīng)有 70 多年,但從技術(shù)方向上可以大體分為三個階段。
下圖是從 1993 年到 2017 年在 Switchboard 上語音識別率的進展情況,從圖中也可以看出 1993 年到 2009 年,語音識別一直處于 GMM-HMM 時代,語音識別率提升緩慢,尤其是 2000 年到 2009 年語音識別率基本處于停滯狀態(tài);2009 年隨著深度學(xué)習(xí)技術(shù),特別是 DNN 的興起,語音識別框架變?yōu)?DNN-HMM,語音識別進入了 DNN 時代,語音識別精準(zhǔn)率得到了顯著提升;2015 年以后,由于“端到端”技術(shù)興起,語音識別進入了百花齊放時代,語音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時利用端到端技術(shù)進一步大幅提升了語音識別的性能,直到 2017 年微軟在 Swichboard 上達到詞錯誤率 5.1%,從而讓語音識別的準(zhǔn)確性首次超越了人類,當(dāng)然這是在一定限定條件下的實驗結(jié)果,還不具有普遍代表性。
GMM-HMM時代
70 年代,語音識別主要集中在小詞匯量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特征構(gòu)建參數(shù)模板,然后將測試語音與參考模板參數(shù)進行一一比較和匹配,取距離最近的樣本所對應(yīng)的詞標(biāo)注為該語音信號的發(fā)音。該方法對解決孤立詞識別是有效的,但對于大詞匯量、非特定人連續(xù)語音識別就無能為力。因此,進入 80 年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型(HMM)的技術(shù)思路。
HMM 的理論基礎(chǔ)在 1970 年前后就已經(jīng)由 Baum 等人建立起來,隨后由 CMU 的 Baker 和 IBM 的 Jelinek 等人將其應(yīng)用到語音識別當(dāng)中。HMM 模型假定一個音素含有 3 到 5 個狀態(tài),同一狀態(tài)的發(fā)音相對穩(wěn)定,不同狀態(tài)間是可以按照一定概率進行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來描述,使用最廣泛的模型是 GMM。因此 GMM-HMM 框架中,HMM 描述的是語音的短時平穩(wěn)的動態(tài)性,GMM 用來描述 HMM 每一狀態(tài)內(nèi)部的發(fā)音特征。
基于 GMM-HMM 框架,研究者提出各種改進方法,如結(jié)合上下文信息的動態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN 混合模型方法等。這些方法都對語音識別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語音識別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì) 90 年代語音識別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長一段內(nèi)語音識別的發(fā)展比較緩慢,語音識別錯誤率那條線一直沒有明顯下降。
DNN-HMM時代
2006 年,Hinton 提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復(fù)蘇。2009 年,Hinton 將 DNN 應(yīng)用于語音的聲學(xué)建模,在 TIMIT 上獲得了當(dāng)時最好的結(jié)果。2011 年底,微軟研究院的俞棟、鄧力又把 DNN 技術(shù)應(yīng)用在了大詞匯量連續(xù)語音識別任務(wù)上,大大降低了語音識別錯誤率。從此語音識別進入 DNN-HMM 時代。
DNN-HMM主要是用 DNN 模型代替原來的 GMM 模型,對每一個狀態(tài)進行建模,DNN 帶來的好處是不再需要對語音數(shù)據(jù)分布進行假設(shè),將相鄰的語音幀拼接又包含了語音的時序結(jié)構(gòu)信息,使得對于狀態(tài)的分類概率有了明顯提升,同時DNN還具有強大環(huán)境學(xué)習(xí)能力,可以提升對噪聲和口音的魯棒性。
簡單來說,DNN 就是給出輸入的一串特征所對應(yīng)的狀態(tài)概率。由于語音信號是連續(xù)的,不僅各個音素、音節(jié)以及詞之間沒有明顯的邊界,各個發(fā)音單位還會受到上下文的影響。雖然拼幀可以增加上下文信息,但對于語音來說還是不夠。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對語音信號的上下文信息進行建模。
由于簡單的 RNN 存在梯度爆炸和梯度消散問題,難以訓(xùn)練,無法直接應(yīng)用于語音信號建模上,因此學(xué)者進一步探索,開發(fā)出了很多適合語音建模的 RNN 結(jié)構(gòu),其中最有名的就是 LSTM 。LSTM 通過輸入門、輸出門和遺忘門可以更好的控制信息的流動和傳遞,具有長短時記憶能力。雖然 LSTM 的計算復(fù)雜度會比 DNN 增加,但其整體性能比 DNN 有相對 20% 左右穩(wěn)定提升。
BLSTM 是在 LSTM 基礎(chǔ)上做的進一步改進,不僅考慮語音信號的歷史信息對當(dāng)前幀的影響,還要考慮未來信息對當(dāng)前幀的影響,因此其網(wǎng)絡(luò)中沿時間軸存在正向和反向兩個信息傳遞過程,這樣該模型可以更充分考慮上下文對于當(dāng)前語音幀的影響,能夠極大提高語音狀態(tài)分類的準(zhǔn)確率。BLSTM 考慮未來信息的代價是需要進行句子級更新,模型訓(xùn)練的收斂速度比較慢,同時也會帶來解碼的延遲,對于這些問題,業(yè)屆都進行了工程優(yōu)化與改進,即使現(xiàn)在仍然有很多大公司使用的都是該模型結(jié)構(gòu)。
圖像識別中主流的模型就是 CNN,而語音信號的時頻圖也可以看作是一幅圖像,因此 CNN 也被引入到語音識別中。要想提高語音識別率,就需要克服語音信號所面臨的多樣性,包括說話人自身、說話人所處的環(huán)境、采集設(shè)備等,這些多樣性都可以等價為各種濾波器與語音信號的卷積。而 CNN 相當(dāng)于設(shè)計了一系列具有局部關(guān)注特性的濾波器,并通過訓(xùn)練學(xué)習(xí)得到濾波器的參數(shù),從而從多樣性的語音信號中抽取出不變的部分,CNN 本質(zhì)上也可以看作是從語音信號中不斷抽取特征的一個過程。CNN 相比于傳統(tǒng)的 DNN 模型,在相同性能情況下,前者的參數(shù)量更少。
綜上所述,對于建模能力來說,DNN 適合特征映射到獨立空間,LSTM 具有長短時記憶能力,CNN 擅長減少語音信號的多樣性,因此一個好的語音識別系統(tǒng)是這些網(wǎng)絡(luò)的組合。
端到端時代
語音識別的端到端方法主要是代價函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒有太大變化。總體來說,端到端技術(shù)解決了輸入序列的長度遠(yuǎn)大于輸出序列長度的問題。端到端技術(shù)主要分成兩類:一類是 CTC 方法,另一類是 Sequence-to-Sequence 方法。傳統(tǒng)語音識別 DNN-HMM 架構(gòu)里的聲學(xué)模型,每一幀輸入都對應(yīng)一個標(biāo)簽類別,標(biāo)簽需要反復(fù)的迭代來確保對齊更準(zhǔn)確。
采用 CTC 作為損失函數(shù)的聲學(xué)模型序列,不需要預(yù)先對數(shù)據(jù)對齊,只需要一個輸入序列和一個輸出序列就可以進行訓(xùn)練。CTC 關(guān)心的是預(yù)測輸出的序列是否和真實的序列相近,而不關(guān)心預(yù)測輸出序列中每個結(jié)果在時間點上是否和輸入的序列正好對齊。CTC 建模單元是音素或者字,因此它引入了 Blank。對于一段語音,CTC 最后輸出的是尖峰的序列,尖峰的位置對應(yīng)建模單元的 Label,其他位置都是 Blank。
Sequence-to-Sequence 方法原來主要應(yīng)用于機器翻譯領(lǐng)域。2017 年,Google 將其應(yīng)用于語音識別領(lǐng)域,取得了非常好的效果,將詞錯誤率降低至5.6%。如下圖所示,Google 提出新系統(tǒng)的框架由三個部分組成:Encoder 編碼器組件,它和標(biāo)準(zhǔn)的聲學(xué)模型相似,輸入的是語音信號的時頻特征;經(jīng)過一系列神經(jīng)網(wǎng)絡(luò),映射成高級特征 henc,然后傳遞給 Attention 組件,其使用 henc 特征學(xué)習(xí)輸入 x 和預(yù)測子單元之間的對齊方式,子單元可以是一個音素或一個字。最后,attention 模塊的輸出傳遞給 Decoder,生成一系列假設(shè)詞的概率分布,類似于傳統(tǒng)的語言模型。
端到端技術(shù)的突破,不再需要 HMM 來描述音素內(nèi)部狀態(tài)的變化,而是將語音識別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型,使語音識別朝著更簡單、更高效、更準(zhǔn)確的方向發(fā)展。
語音識別的技術(shù)現(xiàn)狀
目前,主流語音識別框架還是由 3 個部分組成:聲學(xué)模型、語言模型和解碼器,有些框架也包括前端處理和后處理。隨著各種深度神經(jīng)網(wǎng)絡(luò)以及端到端技術(shù)的興起,聲學(xué)模型是近幾年非常熱門的方向,業(yè)界都紛紛發(fā)布自己新的聲學(xué)模型結(jié)構(gòu),刷新各個數(shù)據(jù)庫的識別記錄。由于中文語音識別的復(fù)雜性,國內(nèi)在聲學(xué)模型的研究進展相對更快一些,主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù)。
2018 年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),DFCNN 使用大量的卷積直接對整句語音信號進行建模,主要借鑒了圖像識別的網(wǎng)絡(luò)配置,每個卷積層使用小卷積核,并在多個卷積層之后再加上池化層,通過累積非常多卷積池化層對,從而可以看到更多的歷史信息。
2018 年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。該模型將低幀率算法和 DFSMN 算法進行融合,語音識別錯誤率相比上一代技術(shù)降低 20%,解碼速度提升 3 倍。FSMN 通過在 FNN 的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效的對語音的長時相關(guān)性進行建模。而 DFSMN 是通過跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問題,可以訓(xùn)練出更深層的網(wǎng)絡(luò)結(jié)構(gòu)。
2019 年,百度提出了流式多級的截斷注意力模型 SMLTA,該模型是在 LSTM 和 CTC 的基礎(chǔ)上引入了注意力機制來獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對語音進行一個小片段一個小片段的增量解碼;多級表示堆疊多層注意力模型;截斷則表示利用 CTC 模型的尖峰信息,把語音切割成一個一個小片段,注意力模型和解碼可以在這些小片段上展開。在線語音識別率上,該模型比百度上一代 Deep Peak2 模型提升相對 15% 的性能。
開源語音識別 Kaldi 是業(yè)界語音識別框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。該模型是一種類似于 CTC 的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個狀態(tài),一個狀態(tài)是 CD Phone,另一個是 CD Phone 的空白,訓(xùn)練方法采用的是 Lattice-Free MMI 訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有非常顯著的提升。
遠(yuǎn)場語音識別技術(shù)主要解決真實場景下舒適距離內(nèi)人機任務(wù)對話和服務(wù)的問題,是 2015 年以后開始興起的技術(shù)。由于遠(yuǎn)場語音識別解決了復(fù)雜環(huán)境下的識別問題,在智能家居、智能汽車、智能會議、智能安防等實際場景中獲得了廣泛應(yīng)用。目前國內(nèi)遠(yuǎn)場語音識別的技術(shù)框架以前端信號處理和后端語音識別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號處理,以讓語音更清晰,然后送入后端的語音識別引擎進行識別。
語音識別另外兩個技術(shù)部分:語言模型和解碼器,目前來看并沒有太大的技術(shù)變化。語言模型主流還是基于傳統(tǒng)的 N-Gram 方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語言模型的研究,但在實用中主要還是更多用于后處理糾錯。解碼器的核心指標(biāo)是速度,業(yè)界大部分都是按照靜態(tài)解碼的方式進行,即將聲學(xué)模型和語言模型構(gòu)造成 WFST 網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了所有可能路徑,解碼就是在該空間進行搜索的過程。由于該理論相對成熟,更多的是工程優(yōu)化的問題,所以不論是學(xué)術(shù)還是產(chǎn)業(yè)目前關(guān)注的較少。
語音識別的技術(shù)趨勢
語音識別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展,但在遠(yuǎn)場可靠性還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問題,讓機器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進步,需要整個產(chǎn)業(yè)鏈的共同技術(shù)升級,包括更為先進的傳感器和算力更強的芯片。
單從遠(yuǎn)場語音識別技術(shù)來看,仍然存在很多挑戰(zhàn),包括:
(1)回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號處理手段很難將回聲消除干凈,這也阻礙了語音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒有考慮相位信息,直接求取的是各個頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進行擬合,同時結(jié)合信號處理手段可能是一個好的方向。
(2)噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題,深度學(xué)習(xí)擅長處理非線性問題,而實際問題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。
(3)上述兩個問題的共性是目前的深度學(xué)習(xí)僅用到了語音信號各個頻帶的能量信息,而忽略了語音信號的相位信息,尤其是對于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個方向。
(4)另外,在較少數(shù)據(jù)量的情況下,如何通過遷移學(xué)習(xí)得到一個好的聲學(xué)模型也是研究的熱點方向。例如方言識別,若有一個比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個好的方言聲學(xué)模型,如果做到這點將極大擴展語音識別的應(yīng)用范疇。這方面已經(jīng)取得了一些進展,但更多的是一些訓(xùn)練技巧,距離終極目標(biāo)還有一定差距。
(5)語音識別的目的是讓機器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的。如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語音識別里的 LSTM 已經(jīng)考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。
(6)讓機器聽懂人類語言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機器才能感知世界的真實信息,這是機器能夠?qū)W習(xí)人類知識的前提條件。而且,機器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。
語音識別的產(chǎn)業(yè)歷程
語音識別這半個多世紀(jì)的產(chǎn)業(yè)歷程中,其中共有三個關(guān)鍵節(jié)點,兩個和技術(shù)有關(guān),一個和應(yīng)用有關(guān)。第一個關(guān)鍵節(jié)點是 1988 年的一篇博士論文,開發(fā)了第一個基于隱馬爾科夫模型(HMM)的語音識別系統(tǒng)—— Sphinx,當(dāng)時實現(xiàn)這一系統(tǒng)的正是現(xiàn)在的著名投資人李開復(fù)。
從 1986 年到 2010 年,雖然混合高斯模型效果得到持續(xù)改善,而被應(yīng)用到語音識別中,并且確實提升了語音識別的效果,但實際上語音識別已經(jīng)遭遇了技術(shù)天花板,識別的準(zhǔn)確率很難超過 90%。很多人可能還記得,在 1998 年前后 IBM、微軟都曾經(jīng)推出和語音識別相關(guān)的軟件,但最終并未取得成功。
第二個關(guān)鍵節(jié)點是 2009 年深度學(xué)習(xí)被系統(tǒng)應(yīng)用到語音識別領(lǐng)域中。這導(dǎo)致識別的精度再次大幅提升,最終突破 90%,并且在標(biāo)準(zhǔn)環(huán)境下逼近 98%。有意思的是,盡管技術(shù)取得了突破,也涌現(xiàn)出了一些與此相關(guān)的產(chǎn)品,比如 Siri、Google Assistant 等,但與其引起的關(guān)注度相比,這些產(chǎn)品實際取得的成績則要遜色得多。Siri 剛一面世的時候,時任 Google CEO 的施密特就高呼,這會對 Google 的搜索業(yè)務(wù)產(chǎn)生根本性威脅,但事實上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。
第三個關(guān)鍵點正是 Amazon Echo 的出現(xiàn),純粹從語音識別和自然語言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對于 Siri 等并未有什么本質(zhì)性改變,核心變化只是把近場語音交互變成了遠(yuǎn)場語音交互。Echo 正式面世于 2015 年 6 月,到 2017 年銷量已經(jīng)超過千萬,同時在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態(tài),其后臺的第三方技能已經(jīng)突破 10000 項。借助落地時從近場到遠(yuǎn)場的突破,亞馬遜一舉從這個賽道的落后者變?yōu)樾袠I(yè)領(lǐng)導(dǎo)者。
但自從遠(yuǎn)場語音技術(shù)規(guī)模落地以后,語音識別領(lǐng)域的產(chǎn)業(yè)競爭已經(jīng)開始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰更有優(yōu)勢,而應(yīng)用比較的是在真實場景下誰的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗,而一旦比拼真實場景下的體驗,語音識別便失去獨立存在的價值,更多作為產(chǎn)品體驗的一個環(huán)節(jié)而存在。
所以到 2019 年,語音識別似乎進入了一個相對平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。
語音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種大躍進的姿態(tài)出現(xiàn)在大眾面前。2016 年以前,智能音箱玩家們對這款產(chǎn)品的認(rèn)識還都停留在:亞馬遜出了一款叫 Echo 的產(chǎn)品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬的美國銷量讓整個世界震驚。這是智能設(shè)備從未達到過的高點,在 Echo 以前除了 Apple Watch 與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國內(nèi)各大巨頭幾乎是同時轉(zhuǎn)變態(tài)度,積極打造自己的智能音箱。
未來,回看整個發(fā)展歷程,2019 年是一個明確的分界點。在此之前,全行業(yè)是突飛猛進,但 2019 年之后則開始進入對細(xì)節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點也不再是單純的技術(shù)指標(biāo),而是回歸到體驗,回歸到一種“新的交互方式到底能給我們帶來什么價值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進行交互結(jié)合,比如人物形象;流程自動化是否要與語音結(jié)合;酒店場景應(yīng)該如何使用這種技術(shù)來提升體驗,諸如此類最終都會一一呈現(xiàn)在從業(yè)者面前。而此時行業(yè)的主角也會從原來的產(chǎn)品方過渡到平臺提供方,AIoT 縱深過大,沒有任何一個公司可以全線打造所有的產(chǎn)品。
語音識別的產(chǎn)業(yè)趨勢
當(dāng)語音產(chǎn)業(yè)需求四處開花的同時,行業(yè)的發(fā)展速度反過來會受限于平臺服務(wù)商的供給能力。跳出具體案例來看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個點的投入產(chǎn)出是否達到一個普遍接受的界限。
離這個界限越近,行業(yè)就越會接近滾雪球式發(fā)展的臨界點,否則整體增速就會相對平緩。不管是家居、酒店、金融、教育或者其他場景,如果解決問題都是非常高投入并且長周期的事情,那對此承擔(dān)成本的一方就會猶豫,這相當(dāng)于試錯成本過高。如果投入后,沒有可感知的新體驗或者銷量促進,那對此承擔(dān)成本的一方也會猶豫,顯然這會影響值不值得上的判斷。而這兩個事情,歸根結(jié)底都必須由平臺方解決,產(chǎn)品方或者解決方案方對此無能為力,這是由智能語音交互的基礎(chǔ)技術(shù)特征所決定。
從核心技術(shù)來看,整個語音交互鏈條有五項單點技術(shù):喚醒、麥克風(fēng)陣列、語音識別、自然語言處理、語音合成,其它技術(shù)點比如聲紋識別、哭聲檢測等數(shù)十項技術(shù)通用性略弱,但分別出現(xiàn)在不同的場景下,并會在特定場景下成為關(guān)鍵。看起來關(guān)聯(lián)的技術(shù)已經(jīng)相對龐雜,但切換到商業(yè)視角我們就會發(fā)現(xiàn),找到這些技術(shù)距離打造一款體驗上佳的產(chǎn)品仍然有絕大距離。
所有語音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺,逐項整合具體的內(nèi)容(比如音樂、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來看是不可接受的。這時候就會催生相應(yīng)的平臺服務(wù)商,它要同時解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問題,最終達成試錯成本低、體驗卻足夠好的目標(biāo)。
平臺服務(wù)并不需要閉門造車,平臺服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是 AI+IOT 的特征,也是有所參照的,亞馬遜過去近 10 年里是同步著手做兩件事:一個是持續(xù)推出面向終端用戶的產(chǎn)品,比如 Echo,Echo Show等;一個是把所有產(chǎn)品所內(nèi)置的系統(tǒng) Alexa 進行平臺化,面向設(shè)備端和技能端同步開放SDK和調(diào)試發(fā)布平臺。雖然 Google Assistant 號稱單點技術(shù)更為領(lǐng)先,但從各方面的結(jié)果來看 Alexa 是當(dāng)之無愧的最為領(lǐng)先的系統(tǒng)平臺,可惜的是 Alexa 并不支持中文以及相應(yīng)的后臺服務(wù)。
國內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺提供商,當(dāng)前的平臺提供商分為兩個陣營:一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺服務(wù)上反倒是可以主推一些更為面向未來、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會更加徹底,這種兼容性對于一套產(chǎn)品同時覆蓋國內(nèi)國外市場是相當(dāng)有利的。
類比過去的 Android,語音交互的平臺提供商們其實面臨更大的挑戰(zhàn),發(fā)展過程可能會更加的曲折。過去經(jīng)常被提到的操作系統(tǒng)的概念在智能語音交互背景下事實上正被賦予新的內(nèi)涵,它日益被分成兩個不同但必須緊密結(jié)合的部分。
過去的 Linux 以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以 Alexa 為代表的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出最終用戶可感知的體驗。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對多的關(guān)系,不同的 AIoT 硬件產(chǎn)品在傳感器(深度攝像頭、雷達等)、顯示器上(有屏、無屏、小屏、大屏等)具有巨大差異,這會導(dǎo)致功能型系統(tǒng)的持續(xù)分化(可以和 Linux 的分化相對應(yīng))。這反過來也就意味著一套智能型系統(tǒng),必須同時解決與功能型系統(tǒng)的適配以及對不同后端內(nèi)容以及場景進行支撐的雙重責(zé)任。
這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應(yīng)用商店的開發(fā)者。這里面蘊含著巨大的挑戰(zhàn)和機遇。在過去功能型操作系統(tǒng)的打造過程中,國內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來從頭打造完整的系統(tǒng)。(國外巨頭不管在中文相關(guān)的技術(shù)上還是內(nèi)容整合上事實上都非常薄弱,不存在侵略國內(nèi)市場的可能性)
隨著平臺服務(wù)商兩邊的問題解決的越來越好,基礎(chǔ)的計算模式則會逐漸發(fā)生改變,人們的數(shù)據(jù)消費模式會與今天不同。個人的計算設(shè)備(當(dāng)前主要是手機、筆記本、Pad)會根據(jù)不同場景進一步分化。比如在車上、家里、酒店、工作場景、路上、業(yè)務(wù)辦理等會根據(jù)地點和業(yè)務(wù)進行分化。但分化的同時背后的服務(wù)則是統(tǒng)一的,每個人可以自由的根據(jù)場景做設(shè)備的遷移,背后的服務(wù)雖然會針對不同的場景進行優(yōu)化,但在個人偏好這樣的點上則是統(tǒng)一的。
人與數(shù)字世界的接口,在現(xiàn)在越來越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會越來越統(tǒng)一于系統(tǒng)本身。作為結(jié)果這會帶來數(shù)據(jù)化程度的持續(xù)加深,我們越來越接近一個百分百數(shù)據(jù)化的世界。
總結(jié)
從技術(shù)進展和產(chǎn)業(yè)發(fā)展來看,語音識別雖然還不能解決無限制場景、無限制人群的通用識別問題,但是已經(jīng)能夠在各個真實場景中普遍應(yīng)用并且得到規(guī)模驗證。更進一步的是,技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場景越多,得到的真實數(shù)據(jù)越多,挖掘的用戶需求也更準(zhǔn)確,這幫助了語音識別技術(shù)快速進步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實際問題,這也是語音識別相對其他 AI 技術(shù)最為明顯的優(yōu)勢。
不過,我們也要看到,語音識別的內(nèi)涵必須不斷擴展,狹義語音識別必須走向廣義語音識別,致力于讓機器聽懂人類語言,這才能將語音識別研究帶到更高維度。我們相信,多技術(shù)、多學(xué)科、多傳感的融合化將是未來人工智能發(fā)展的主流趨勢。在這種趨勢下,我們還有很多未來的問題需要探討,比如鍵盤、鼠標(biāo)、觸摸屏和語音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?
-
語音識別
+關(guān)注
關(guān)注
38文章
1743瀏覽量
112942 -
人工智能
+關(guān)注
關(guān)注
1796文章
47734瀏覽量
240411 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5516瀏覽量
121584
發(fā)布評論請先 登錄
相關(guān)推薦
評論