網(wǎng)易互娛 AI Lab 的研發(fā)人員,基于 Wenet 語(yǔ)音識(shí)別工具進(jìn)行優(yōu)化和創(chuàng)新,利用 NVIDIA Triton 推理服務(wù)器的 GPU Batch Inference 機(jī)制加速了語(yǔ)音識(shí)別的速度,并且降低了成本。
2001 年正式成立的網(wǎng)易游戲·互動(dòng)娛樂(lè)事業(yè)群在經(jīng)歷了近 20 年的發(fā)展歷程后,以“創(chuàng)新無(wú)邊界,匠心造精品”為文化基石,創(chuàng)造了一系列大家耳熟能詳?shù)拇碜髌罚鐗?mèng)幻西游系列、大話西游系列、《陰陽(yáng)師》、《第五人格》、《荒野行動(dòng)》、《率土之濱》、《哈利波特:魔法覺(jué)醒》等。在 data.ai 公布的 2021 全球發(fā)行商 52 強(qiáng)榜單中,網(wǎng)易排名第二。
語(yǔ)音識(shí)別 AI 算法服務(wù)目前已經(jīng)成為各個(gè)領(lǐng)域不可或缺的基礎(chǔ)算法服務(wù)。網(wǎng)易互娛 AI Lab 為所有互娛游戲的玩家,CC 直播平臺(tái)用戶等提供完善的語(yǔ)音識(shí)別服務(wù)。語(yǔ)音識(shí)別服務(wù)每天都有大量的調(diào)用量,AI 推理的計(jì)算量繁重。
在網(wǎng)易游戲中,語(yǔ)音識(shí)別是一個(gè)調(diào)用量龐大的基礎(chǔ)算法服務(wù),如果在語(yǔ)音識(shí)別算法服務(wù)這里出現(xiàn)時(shí)耗或吞吐瓶頸的話,會(huì)因?yàn)檎Z(yǔ)音內(nèi)容識(shí)別過(guò)慢,使得用戶使用體驗(yàn)大幅下降。
服務(wù)是基于開(kāi)源框架 Wenet 優(yōu)化開(kāi)發(fā),但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且熱詞和語(yǔ)言模型部分均采用了 Openfst,速度較慢,也不太方便使用。經(jīng)過(guò)測(cè)試 CPU Float32 模式下解碼,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時(shí)還需要有拼接 Batch 的機(jī)制,batch inference 雖然在使用 CPU 做推理時(shí)沒(méi)有太大的提升,但是能大大提升 GPU 的利用率。
基于以上的挑戰(zhàn),網(wǎng)易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開(kāi)源的 Triton 部署方案來(lái)改進(jìn)優(yōu)化后進(jìn)行 GPU 部署,使得語(yǔ)音識(shí)別速度提高,大幅降低時(shí)延和運(yùn)營(yíng)成本。
由于 Wenet 開(kāi)源框架下的 Triton 推理服務(wù)器并沒(méi)有考慮音頻解碼,顯存溢出等問(wèn)題,所以需要有個(gè)前端邏輯做音頻解碼處理和音頻分段處理。并且因?yàn)?Triton 推理服務(wù)器組 batch 的機(jī)制是相同音頻長(zhǎng)度才會(huì)自動(dòng)組成 batch 做推理,所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。
其中前端處理流程如圖所示:
NVIDIA Triton 推理服務(wù)器處理流程:
(圖片來(lái)源于網(wǎng)易互娛授權(quán))
其中 Triton 推理服務(wù)器中解碼器部分是基于 Wenet 的熱詞方案而自研實(shí)現(xiàn)的熱詞解碼器方案。
QPS,RTF 在 5 秒音頻下,CPU 設(shè)備和 GPU 設(shè)備對(duì)比,CPU 為 36 核機(jī)器, GPU 為單卡 T4:
(圖片來(lái)源于網(wǎng)易互娛授權(quán))
由表格可知,對(duì)比 CPU-FP32 與 GPU-FP16,單卡 T4 的推理能力基本相當(dāng)于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機(jī)器的 4 倍。并且實(shí)驗(yàn)測(cè)試可以得知 FP16 與 FP32 的 WER 基本無(wú)損。
自研熱詞解碼器的方法結(jié)果展示:
(圖片來(lái)源于網(wǎng)易互娛授權(quán))
這里 GPU 的效果采用自研的熱詞增強(qiáng)的方法,識(shí)別率在熱詞這塊能有絕對(duì) 0.8% 的性能提升,而 Wenet 開(kāi)源的方法大概是 0.5%。并且自研熱詞實(shí)例的構(gòu)建耗時(shí)基本可以忽略不計(jì)。
整體來(lái)看 GPU 的方案在識(shí)別率基本無(wú)損的情況下,單卡 T4 比 36 核 CPU 機(jī)器提高近 4 倍的 QPS,單個(gè)音頻 RTF 測(cè)試下,包含音頻解碼等損耗情況下也能提高近 3 倍,并且也能夠支持熱詞增強(qiáng)功能,讓機(jī)器成本和識(shí)別速度都得到了很好的優(yōu)化。
網(wǎng)易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示:“目前該方案已在網(wǎng)易互娛 AI Lab 語(yǔ)音識(shí)別服務(wù)落地,大大的降低了識(shí)別時(shí)延和機(jī)器成本。后續(xù),我們還將與英偉達(dá)一起研究將熱詞增強(qiáng)的方法在 GPU 中實(shí)現(xiàn),探索的極致的語(yǔ)音識(shí)別推理性能?!?/p>
原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語(yǔ)音識(shí)別效率及成本
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5079瀏覽量
103803 -
AI
+關(guān)注
關(guān)注
87文章
31670瀏覽量
270463 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1744瀏覽量
112954
原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語(yǔ)音識(shí)別效率及成本
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
GPU加速云服務(wù)器怎么用的
Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用
ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別
新加坡服務(wù)器的速度測(cè)試方法有哪些
服務(wù)器數(shù)據(jù)恢復(fù)—raid磁盤亮紅色,分區(qū)無(wú)法識(shí)別的數(shù)據(jù)恢復(fù)案例
![<b class='flag-5'>服務(wù)器</b>數(shù)據(jù)恢復(fù)—raid磁盤亮紅色,分區(qū)無(wú)法<b class='flag-5'>識(shí)別的</b>數(shù)據(jù)恢復(fù)案例](https://file1.elecfans.com/web2/M00/09/74/wKgaomb4wjaAYydYAALgOen7QwQ970.png)
什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢(shì)是什么?
AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器
![AMD助力HyperAccel開(kāi)發(fā)全新AI<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>](https://file1.elecfans.com/web2/M00/07/9F/wKgaombqLxCAdBaIAAGAxEvslZA335.png)
NVIDIA助力提供多樣、靈活的模型選擇
服務(wù)器數(shù)據(jù)恢復(fù)—搬遷導(dǎo)致服務(wù)器無(wú)法識(shí)別raid的數(shù)據(jù)恢復(fù)案例
英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)
AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)
美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度如何?
利用NVIDIA組件提升GPU推理的吞吐
語(yǔ)音識(shí)別的技術(shù)歷程及工作原理
![<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別的</b>技術(shù)歷程及工作原理](https://file1.elecfans.com/web2/M00/C5/72/wKgZomX9SFGADHoiAAIxmVfMrok240.png)
評(píng)論