掀起少妇的裙子挺进去短篇小说,亚洲色欲色欱www在线观看

網(wǎng)易互娛 AI Lab 的研發(fā)人員，基于 Wenet 語(yǔ)音識(shí)別工具進(jìn)行優(yōu)化和創(chuàng)新，利用 NVIDIA Triton 推理服務(wù)器的 GPU Batch Inference 機(jī)制加速了語(yǔ)音識(shí)別的速度，并且降低了成本。

2001 年正式成立的網(wǎng)易游戲·互動(dòng)娛樂(lè)事業(yè)群在經(jīng)歷了近 20 年的發(fā)展歷程后，以“創(chuàng)新無(wú)邊界，匠心造精品”為文化基石，創(chuàng)造了一系列大家耳熟能詳?shù)拇碜髌罚鐗?mèng)幻西游系列、大話西游系列、《陰陽(yáng)師》、《第五人格》、《荒野行動(dòng)》、《率土之濱》、《哈利波特：魔法覺(jué)醒》等。在 data.ai 公布的 2021 全球發(fā)行商 52 強(qiáng)榜單中，網(wǎng)易排名第二。

語(yǔ)音識(shí)別 AI 算法服務(wù)目前已經(jīng)成為各個(gè)領(lǐng)域不可或缺的基礎(chǔ)算法服務(wù)。網(wǎng)易互娛 AI Lab 為所有互娛游戲的玩家，CC 直播平臺(tái)用戶等提供完善的語(yǔ)音識(shí)別服務(wù)。語(yǔ)音識(shí)別服務(wù)每天都有大量的調(diào)用量，AI 推理的計(jì)算量繁重。

在網(wǎng)易游戲中，語(yǔ)音識(shí)別是一個(gè)調(diào)用量龐大的基礎(chǔ)算法服務(wù)，如果在語(yǔ)音識(shí)別算法服務(wù)這里出現(xiàn)時(shí)耗或吞吐瓶頸的話，會(huì)因?yàn)檎Z(yǔ)音內(nèi)容識(shí)別過(guò)慢，使得用戶使用體驗(yàn)大幅下降。

服務(wù)是基于開(kāi)源框架 Wenet 優(yōu)化開(kāi)發(fā)，但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的，并且熱詞和語(yǔ)言模型部分均采用了 Openfst，速度較慢，也不太方便使用。經(jīng)過(guò)測(cè)試 CPU Float32 模式下解碼，onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時(shí)還需要有拼接 Batch 的機(jī)制，batch inference 雖然在使用 CPU 做推理時(shí)沒(méi)有太大的提升，但是能大大提升 GPU 的利用率。

基于以上的挑戰(zhàn)，網(wǎng)易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開(kāi)源的 Triton 部署方案來(lái)改進(jìn)優(yōu)化后進(jìn)行 GPU 部署，使得語(yǔ)音識(shí)別速度提高，大幅降低時(shí)延和運(yùn)營(yíng)成本。

由于 Wenet 開(kāi)源框架下的 Triton 推理服務(wù)器并沒(méi)有考慮音頻解碼，顯存溢出等問(wèn)題，所以需要有個(gè)前端邏輯做音頻解碼處理和音頻分段處理。并且因?yàn)?Triton 推理服務(wù)器組 batch 的機(jī)制是相同音頻長(zhǎng)度才會(huì)自動(dòng)組成 batch 做推理，所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。

其中前端處理流程如圖所示：

NVIDIA Triton 推理服務(wù)器處理流程：

(圖片來(lái)源于網(wǎng)易互娛授權(quán))

其中 Triton 推理服務(wù)器中解碼器部分是基于 Wenet 的熱詞方案而自研實(shí)現(xiàn)的熱詞解碼器方案。

QPS，RTF 在 5 秒音頻下，CPU 設(shè)備和 GPU 設(shè)備對(duì)比，CPU 為 36 核機(jī)器， GPU 為單卡 T4：

(圖片來(lái)源于網(wǎng)易互娛授權(quán))

由表格可知，對(duì)比 CPU-FP32 與 GPU-FP16，單卡 T4 的推理能力基本相當(dāng)于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機(jī)器的 4 倍。并且實(shí)驗(yàn)測(cè)試可以得知 FP16 與 FP32 的 WER 基本無(wú)損。

自研熱詞解碼器的方法結(jié)果展示：

(圖片來(lái)源于網(wǎng)易互娛授權(quán))

這里 GPU 的效果采用自研的熱詞增強(qiáng)的方法，識(shí)別率在熱詞這塊能有絕對(duì) 0.8% 的性能提升，而 Wenet 開(kāi)源的方法大概是 0.5%。并且自研熱詞實(shí)例的構(gòu)建耗時(shí)基本可以忽略不計(jì)。

整體來(lái)看 GPU 的方案在識(shí)別率基本無(wú)損的情況下，單卡 T4 比 36 核 CPU 機(jī)器提高近 4 倍的 QPS，單個(gè)音頻 RTF 測(cè)試下，包含音頻解碼等損耗情況下也能提高近 3 倍，并且也能夠支持熱詞增強(qiáng)功能，讓機(jī)器成本和識(shí)別速度都得到了很好的優(yōu)化。

網(wǎng)易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示：“目前該方案已在網(wǎng)易互娛 AI Lab 語(yǔ)音識(shí)別服務(wù)落地，大大的降低了識(shí)別時(shí)延和機(jī)器成本。后續(xù)，我們還將與英偉達(dá)一起研究將熱詞增強(qiáng)的方法在 GPU 中實(shí)現(xiàn)，探索的極致的語(yǔ)音識(shí)別推理性能?！?/p>

原文標(biāo)題：NVIDIA Triton 助力網(wǎng)易互娛 AI Lab，改善語(yǔ)音識(shí)別效率及成本

文章出處：【微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5079

瀏覽量
103803
AI

AI

+關(guān)注

關(guān)注
87

文章
31670

瀏覽量
270463
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1744

瀏覽量
112954

原文標(biāo)題：NVIDIA Triton 助力網(wǎng)易互娛 AI Lab，改善語(yǔ)音識(shí)別效率及成本

文章出處：【微信號(hào)：NVIDIA_China，微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

GPU加速云服務(wù)器怎么用的

GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合，通過(guò)云服務(wù)提供商的平臺(tái)，用戶可以根據(jù)需求靈活租用帶有GPU資源的虛擬機(jī)實(shí)例。那么，GPU加速

發(fā)表于 12-26 11:58 ?132次閱讀

Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用

1. Triton編譯器概述 Triton編譯器是NVIDIA Triton

發(fā)表于 12-24 18:13 ?530次閱讀

ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

識(shí)別技術(shù)。構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。提高了語(yǔ)音識(shí)別的準(zhǔn)確率和穩(wěn)定性。傳統(tǒng)語(yǔ)音

發(fā)表于 11-18 15:22 ?657次閱讀

新加坡服務(wù)器的速度測(cè)試方法有哪些

測(cè)試新加坡服務(wù)器的速度和性能是確保服務(wù)器能夠滿足業(yè)務(wù)需求的關(guān)鍵步驟。以下是一些常用的方法和工具： Ping測(cè)試： Ping命令是一種基本的網(wǎng)絡(luò)診斷工具，用于測(cè)試與服務(wù)器的連接延遲和丟包

發(fā)表于 10-14 14:55 ?236次閱讀

服務(wù)器數(shù)據(jù)恢復(fù)—raid磁盤亮紅色，分區(qū)無(wú)法識(shí)別的數(shù)據(jù)恢復(fù)案例

識(shí)別，但是拷貝文件報(bào)錯(cuò)。管理員重啟服務(wù)器，導(dǎo)致離線的硬盤上線開(kāi)始同步數(shù)據(jù)，同步還沒(méi)有完成就直接強(qiáng)制關(guān)機(jī)了，之后就沒(méi)有動(dòng)過(guò)服務(wù)器。

發(fā)表于 09-29 11:00 ?348次閱讀

什么是AI服務(wù)器？AI服務(wù)器的優(yōu)勢(shì)是什么？

AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器，它采用異構(gòu)形式的硬件架構(gòu)，通常搭載GPU、FPGA、ASIC等加速芯片，利用CPU與加速芯片

發(fā)表于 09-21 11:43 ?1110次閱讀

AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng)，加速了基于轉(zhuǎn)換器的

發(fā)表于 09-18 09:37 ?503次閱讀

NVIDIA助力提供多樣、靈活的模型選擇

在本案例中，Dify 以模型中立以及開(kāi)源生態(tài)的優(yōu)勢(shì)，為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務(wù)器

發(fā)表于 09-09 09:19 ?542次閱讀

服務(wù)器數(shù)據(jù)恢復(fù)—搬遷導(dǎo)致服務(wù)器無(wú)法識(shí)別raid的數(shù)據(jù)恢復(fù)案例

某單位機(jī)房搬遷，將所有服務(wù)器和存儲(chǔ)搬遷到新機(jī)房并重新連接線路，啟動(dòng)所有機(jī)器發(fā)現(xiàn)其中有一臺(tái)服務(wù)器無(wú)法識(shí)別RAID，提示未做初始化操作。發(fā)生故障的這臺(tái)服務(wù)器安裝LINUX操作系統(tǒng)，配置

發(fā)表于 07-25 16:34 ?482次閱讀

英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù)

發(fā)表于 07-25 09:48 ?795次閱讀

AI服務(wù)器的特點(diǎn)和關(guān)鍵技術(shù)

AI服務(wù)器，即人工智能服務(wù)器，是一種專門設(shè)計(jì)用于運(yùn)行和加速人工智能（AI）算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及，AI服務(wù)器在數(shù)據(jù)處理、模型訓(xùn)練、

發(fā)表于 07-17 16:34 ?2061次閱讀

美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度如何?

　美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度如何?Rak部落小編為您整理發(fā)布美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度。

發(fā)表于 04-22 09:56 ?447次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實(shí)踐中，唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡(luò)和熱

發(fā)表于 04-20 09:39 ?828次閱讀

語(yǔ)音識(shí)別的技術(shù)歷程及工作原理

語(yǔ)音識(shí)別的本質(zhì)是一種基于語(yǔ)音特征參數(shù)的模式識(shí)別，即通過(guò)學(xué)習(xí)，系統(tǒng)能夠把輸入的語(yǔ)音按一定模式進(jìn)行分類，進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。

發(fā)表于 03-22 16:58 ?3971次閱讀

使用NVIDIA Triton推理服務(wù)器來(lái)加速AI預(yù)測(cè)

這家云計(jì)算巨頭的計(jì)算機(jī)視覺(jué)和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來(lái)加速 AI

發(fā)表于 02-29 14:04 ?635次閱讀