12月5日消息,據(jù)外媒報道,阿里巴巴浙江大學研究中心和史蒂文斯理工學院(Stevens Institute of Technology)的研究人員近日推出了一種提升AI閱讀唇語準確率的方法——“Lip by Speech(LIBS)”。該方法利用視頻中的語音信息作為輔助線索,減少了AI對視頻中無關幀的關注,使其注意力更加集中。據(jù)研究人員稱,使用該方法的AI在兩個唇語閱讀基準測試中,字符錯誤率分別降低了7.66%和2.75%。
一、圖像語音相結(jié)合解讀唇語
▲面部圖像識別的過程示例
實際上,能夠從視頻中讀唇語的AI和機器學習算法并不是什么新鮮事物。早在2016年,谷歌和牛津大學的研究人員就詳細介紹了一種系統(tǒng),該系統(tǒng)可以以46.8%的精度注釋視頻素材,優(yōu)于專業(yè)讀唇語人員12.4%的精度。但是,即使是最先進的系統(tǒng)也難以解決唇部運動的“一語多義”問題,從而使唇語識別的準確率一直無法超越語音識別。
為了追求唇語閱讀性能更加強大的系統(tǒng),阿里巴巴浙江大學研究中心和史蒂文斯理工學院的研究人員設計了一種方法,稱為“Lip by Speech(LIBS)”。該方法利用從語音識別器中提取的特征信息作為補充線索。他們說,利用該方法的系統(tǒng)在兩個基準測試中都達到了業(yè)界領先的準確性,在字符錯誤率方面分別降低了7.66%和2.75%。
LIBS和其他類似的解決方案可以幫助那些聽障人士觀看缺少字幕的視頻。據(jù)估計,全世界有4.66億人患有失能性聽力障礙(disabling hearing loss),約占世界人口的5%。根據(jù)世界衛(wèi)生組織的數(shù)據(jù),到2050年,這一數(shù)字可能會超過9億。
二、LIBS方法是怎樣應用的?
▲WAS與LIBS方法唇語解讀標記范圍的對比
LIBS會以多種規(guī)模等級,從有聲視頻中提取有用的音頻數(shù)據(jù),包括序列級(sequence level)、文本級(context level)和幀級(frame level)。然后,將這些提取的數(shù)據(jù)與視頻數(shù)據(jù)通過他們之間的對應關系對齊,最后利用一種篩選(filtering)技術來優(yōu)化(refine)提取的數(shù)據(jù)。
LIBS的語音識別器和唇語閱讀器這兩部分均為一種“基于注意力的序列到序列的(attention-based sequence-to-sequence)”體系結(jié)構,這種體系結(jié)構可將一段音頻或視頻序列的輸入信息轉(zhuǎn)化為帶有標簽和注意價值(attention value)的輸出信息。
研究人員通過上述方法在LRS2數(shù)據(jù)集上對系統(tǒng)進行訓練,LRS2包含來自BBC的45,000多個口頭句子,同時也在CMLR上訓練,CMLR是現(xiàn)有的最大中文普通話口語語料庫,具有來自中國網(wǎng)絡電視臺的10萬多個自然句子(包括3,000多個中文字符和20,000個詞組)。
三、“幀級知識提取”是關鍵
該團隊指出,由于LRS2數(shù)據(jù)集中的某些句子過短,該系統(tǒng)難以在LRS2數(shù)據(jù)集上實現(xiàn)“合理的”結(jié)果。但是,一旦對最大長度為16個單詞的句子進行了預訓練,解碼器就可以利用文本級的知識,提高LRS2數(shù)據(jù)集中句子結(jié)尾部分的質(zhì)量。
研究人員在論文中寫道:“LIBS減少了對無關幀的關注”,“幀級知識的提?。╢rame-level knowledge distillation)進一步提高了視頻幀特征的可分辨性,使注意力更加集中。”
結(jié)語:AI唇語識別市場仍具有較高增長潛力
目前AI唇語識別在基準測試中的準確率仍然在50%左右,現(xiàn)實應用價值還有待于準確率的進一步提升。此次新提出的LIBS方法為這一領域的研究提供了更好的思路,一種視頻語音相結(jié)合的研究思路。金融身份識別、嘈雜環(huán)境下的語音識別輔助、聽障人士的輔助交流等領域均為AI唇語識別的重要應用場景。期待國內(nèi)外科技巨頭在該領域有更多新的突破。
-
人工智能
+關注
關注
1796文章
47794瀏覽量
240587 -
阿里巴巴
+關注
關注
7文章
1623瀏覽量
47572 -
唇語識別
+關注
關注
0文章
4瀏覽量
2016
發(fā)布評論請先 登錄
相關推薦
評論