基于Kaldi的語(yǔ)音識(shí)別引擎的架構(gòu)設(shè)計(jì)方案

概述

語(yǔ)音識(shí)別技術(shù)，是將語(yǔ)音信號(hào)轉(zhuǎn)換為文本內(nèi)容的技術(shù)。目前比較流行的語(yǔ)音識(shí)別技術(shù)主要有兩種。一種是基于Kaldi的傳統(tǒng)語(yǔ)音識(shí)別技術(shù)，另一種是目前流行的基于深度學(xué)習(xí)模型的端到端語(yǔ)音識(shí)別技術(shù)。Kaldi是一種大而全的語(yǔ)音識(shí)別處理框架，集成了數(shù)據(jù)預(yù)處理、特征提取、聲學(xué)模型建模、語(yǔ)言模型建模、解碼等，識(shí)別效果上能夠滿足大多數(shù)的語(yǔ)音識(shí)別場(chǎng)景。但是Kaldi是自成一體的框架，沒(méi)有現(xiàn)在流行的pytorch、tensorflow框架的支持，需要開(kāi)發(fā)者自行開(kāi)發(fā)能應(yīng)用到生產(chǎn)環(huán)境中的服務(wù)?；谏疃葘W(xué)習(xí)模型的端到端語(yǔ)音識(shí)別框架是指將語(yǔ)音信號(hào)直接輸入到深度學(xué)習(xí)模型中，通過(guò)端到端的方式進(jìn)行語(yǔ)音識(shí)別，無(wú)需使用傳統(tǒng)的聲學(xué)模型和語(yǔ)言模型，常見(jiàn)的基于深度學(xué)習(xí)的端到端語(yǔ)音識(shí)別框架有很多，比如EspNet，WeNet等，這類語(yǔ)音識(shí)別框架有更通用的模型訓(xùn)練和部署框架支持，有著更好的識(shí)別性能和識(shí)別效果。

58自研語(yǔ)音識(shí)別引擎，最初是基于Kaldi框架進(jìn)行開(kāi)發(fā)，在自研初期上線了架構(gòu)1.0版本，后續(xù)以降低機(jī)器資源、提升資源利用率、優(yōu)化性能為目標(biāo)進(jìn)行了升級(jí)重構(gòu)，上線了架構(gòu)2.0版本。本文將介紹基于Kaldi的語(yǔ)音識(shí)別引擎的架構(gòu)設(shè)計(jì)，介紹從架構(gòu)1.0到2.0版本的優(yōu)化歷程。首先介紹業(yè)務(wù)背景，然后介紹Kaldi語(yǔ)音解碼的優(yōu)化，以及后端服務(wù)的各種優(yōu)化，最后是優(yōu)化取得的效果。

我們也在持續(xù)探索基于深度學(xué)習(xí)模型的端到端語(yǔ)音識(shí)別，嘗試了ESPNet，WeNet等流行的端到端框架。在2021年12月引入了端到端WeNet語(yǔ)音識(shí)別(由出門(mén)問(wèn)問(wèn)和西北工業(yè)大學(xué)于2021年1月開(kāi)源)，經(jīng)過(guò)持續(xù)的優(yōu)化，WeNet解碼服務(wù)在效果和性能上都超過(guò)了Kadli解碼，在2022年8月份，我們?cè)诰€上全量替換了Kaldi語(yǔ)音解碼服務(wù)（WeNet端到端語(yǔ)音識(shí)別技術(shù)在58同城的大規(guī)模落地）。

背景

58同城是國(guó)內(nèi)領(lǐng)先的生活分類信息網(wǎng)站平臺(tái)，涉及業(yè)務(wù)有招聘、房產(chǎn)、車、本地生活服務(wù)（黃頁(yè)）等。語(yǔ)音是平臺(tái)上商家、用戶、銷售、客服之間溝通的主要媒介。

58平臺(tái)上的B端商家和C端用戶會(huì)使用電話、微聊進(jìn)行語(yǔ)音溝通，同時(shí)58呼叫中心支撐著數(shù)千名銷售、客服人員工作，年通話時(shí)長(zhǎng)數(shù)百萬(wàn)小時(shí)。這些場(chǎng)景下產(chǎn)生了海量的語(yǔ)音數(shù)據(jù)，這些語(yǔ)音數(shù)據(jù)經(jīng)過(guò)語(yǔ)音識(shí)別轉(zhuǎn)為文字之后，對(duì)于語(yǔ)音質(zhì)檢、信息治理和用戶畫(huà)像等任務(wù)有巨大的價(jià)值。此外，AI Lab團(tuán)隊(duì)研發(fā)了可以提高人效的語(yǔ)音外呼機(jī)器人，典型應(yīng)用為銷售機(jī)器人“黃頁(yè)銷售智能外呼助手”和面試機(jī)器人“神奇面試間”。

架構(gòu)1.0

3.1 架構(gòu)1.0的背景

我們從2019年12月開(kāi)始語(yǔ)音識(shí)別引擎的自研工作(3人半年打造語(yǔ)音識(shí)別引擎——58同城語(yǔ)音識(shí)別自研之路)，業(yè)務(wù)方采購(gòu)的是第三方的語(yǔ)音識(shí)別引擎，采購(gòu)費(fèi)用昂貴，采購(gòu)合同即將在半年后到期。最終提前一個(gè)月上線切換到自研語(yǔ)音識(shí)別引擎。

語(yǔ)音識(shí)別系統(tǒng)通用處理流程是：客戶端發(fā)送音頻文件或者音頻流，服務(wù)端在接收后進(jìn)行格式、采樣率等轉(zhuǎn)換，以及聲道分離、說(shuō)話分離，轉(zhuǎn)換為多個(gè)人聲片段，再由解碼器對(duì)人聲片段進(jìn)行解碼，輸出轉(zhuǎn)寫(xiě)結(jié)果。一個(gè)語(yǔ)音識(shí)別系統(tǒng)的重點(diǎn)和關(guān)鍵點(diǎn)就是在盡量低資源(CPU/GPU)占用的情況下，能較大吞吐、較低延遲、較可靠的處理海量的音頻輸入，并保持較高的轉(zhuǎn)寫(xiě)準(zhǔn)確率。

架構(gòu)1.0系統(tǒng)，基于語(yǔ)音識(shí)別系統(tǒng)的通用流程建立，服務(wù)主要包括網(wǎng)關(guān)接入服務(wù)、音頻解析服務(wù)、以及基于Kaldi的語(yǔ)音解碼內(nèi)核服務(wù)、靜音檢測(cè)和說(shuō)話人服務(wù)、后處理服務(wù)等。各服務(wù)的主要功能：

網(wǎng)關(guān)接入服務(wù)，負(fù)責(zé)業(yè)務(wù)接入分發(fā)、鑒權(quán)和檢測(cè)等功能。

音頻解析服務(wù)，負(fù)責(zé)將音頻做轉(zhuǎn)換處理。語(yǔ)音解碼內(nèi)核服務(wù)負(fù)責(zé)將音頻解碼為文字。

靜音檢測(cè)和說(shuō)話人服務(wù)，負(fù)責(zé)將人聲片段分離出來(lái)，用于后續(xù)解碼。

后處理服務(wù)，負(fù)責(zé)將轉(zhuǎn)寫(xiě)后文字添加標(biāo)點(diǎn)等處理任務(wù)。

語(yǔ)音解碼內(nèi)核服務(wù)，負(fù)責(zé)將音頻片段轉(zhuǎn)寫(xiě)為文本。

3.2 架構(gòu)1.0的不足

架構(gòu)1.0系統(tǒng)是在時(shí)間緊、任務(wù)重的情況下，滿足了快速上線的需要，但也存在以下不足：

占用機(jī)器資源太高

機(jī)器資源利用率不均衡

系統(tǒng)整體耗時(shí)高

可靠性和擴(kuò)展性不足

重構(gòu)的目標(biāo)主要是以下三個(gè)：

降低機(jī)器資源，節(jié)省成本

提高機(jī)器資源利用率

降低系統(tǒng)耗時(shí)、提升可靠性

架構(gòu)2.0

針對(duì)架構(gòu)1.0的不足，主要在以下兩個(gè)大方向上進(jìn)行優(yōu)化：

1. 針對(duì)語(yǔ)音內(nèi)核解碼服務(wù)中，Kaldi并發(fā)解碼支持不足、性能差的問(wèn)題，進(jìn)行了服務(wù)性能優(yōu)化

2. 針對(duì)后端應(yīng)用服務(wù)中的不足，進(jìn)行了服務(wù)拆分和一系列的性能優(yōu)化。

架構(gòu)2.0對(duì)1.0架構(gòu)中部分服務(wù)功能耦合的部分進(jìn)行了拆分、對(duì)網(wǎng)關(guān)接入服務(wù)、音頻解析、解碼內(nèi)核服務(wù)做了重構(gòu)升級(jí)。

架構(gòu)2.0的服務(wù)包括網(wǎng)關(guān)接入服務(wù)、消息調(diào)度服務(wù)、數(shù)據(jù)上報(bào)服務(wù)、音頻解析服務(wù)、消息補(bǔ)償服務(wù)、靜音檢測(cè)服務(wù)、說(shuō)話人分離服務(wù)、以及語(yǔ)音解碼內(nèi)核服務(wù)等。其中新增了消息調(diào)度服務(wù)、數(shù)據(jù)上報(bào)服務(wù)、消息補(bǔ)償服務(wù)。靜音檢測(cè)服務(wù)、說(shuō)話人分離服務(wù)，是從之前靜音檢測(cè)和說(shuō)話人分離服務(wù)拆分而來(lái)。對(duì)這幾個(gè)服務(wù)的情況進(jìn)行如下說(shuō)明：

網(wǎng)關(guān)接入服務(wù)，負(fù)責(zé)業(yè)務(wù)接入分發(fā)、鑒權(quán)和檢測(cè)等功能。將消息可靠性功能拆分為補(bǔ)償服務(wù)，對(duì)服務(wù)的性能進(jìn)行了優(yōu)化

消息調(diào)度服務(wù)、數(shù)據(jù)上報(bào)服務(wù)，負(fù)責(zé)基于機(jī)器負(fù)載狀態(tài)進(jìn)行消息分發(fā)。

消息補(bǔ)償服務(wù)，將消息補(bǔ)償?shù)牟糠窒⒖煽啃员ＷC的功能，從之前的服務(wù)中拆分，負(fù)責(zé)對(duì)不同業(yè)務(wù)提供不同個(gè)性化補(bǔ)償策略。

靜音檢測(cè)服務(wù)、是從之前靜音檢測(cè)和說(shuō)話人分離服務(wù)拆分而來(lái)，將之前同步的流程拆分，進(jìn)行異步處理。

語(yǔ)音解碼內(nèi)核服務(wù)，負(fù)責(zé)將音頻片段轉(zhuǎn)寫(xiě)為文本。將語(yǔ)音解碼內(nèi)核服務(wù)優(yōu)化為可以進(jìn)行并發(fā)解碼，處理并發(fā)請(qǐng)求。

4.1 Kaldi解碼優(yōu)化實(shí)踐

Kaldi主要功能由c++開(kāi)發(fā)完成，共有26萬(wàn)行代碼。解碼器是Kaldi中的核心組件，用于將聲學(xué)特征序列轉(zhuǎn)換為文本序列。Kaldi提供了一些解碼器的接口，以及shell離線腳本demo。但是未提供生產(chǎn)級(jí)的服務(wù)。Kaldi原生解碼的主要問(wèn)題有：

4.1.1 無(wú)服務(wù)化支持

需要梳理調(diào)用關(guān)系，增加服務(wù)端、協(xié)議、客戶端調(diào)用支持。我們將模型、解碼器相關(guān)的接口抽象出來(lái)，封裝為gRPC服務(wù)，服務(wù)接收音頻數(shù)據(jù)、解碼為文本轉(zhuǎn)寫(xiě)結(jié)果。

4.1.2 無(wú)并發(fā)能力支持

原生的解碼器對(duì)并發(fā)請(qǐng)求的處理能力差。需要將服務(wù)的網(wǎng)絡(luò)請(qǐng)求模型和解碼器關(guān)聯(lián)起來(lái)，使服務(wù)獲取并發(fā)處理能力。我們的方案是服務(wù)啟動(dòng)時(shí)初始化足夠的解碼器數(shù)目到同步隊(duì)列中，當(dāng)服務(wù)請(qǐng)求線程到來(lái)時(shí)，從隊(duì)列中取出解碼器。當(dāng)請(qǐng)求結(jié)束后，再放回隊(duì)列中。

那么服務(wù)啟動(dòng)時(shí)初始化足夠數(shù)目的解碼器，這個(gè)數(shù)目是多少比較合適？服務(wù)初始的解碼器數(shù)目，就是可以支持的最大并行解碼的數(shù)目，這個(gè)數(shù)目越大，耗時(shí)越高、CPU/GPU的資源利用率越高。設(shè)置多少數(shù)目的解碼器，取決對(duì)實(shí)時(shí)率、尾包延遲的性能要求、也取決于服務(wù)器的硬件性能。比如在一臺(tái)CPU是Intel Xeon Silver 4210的物理機(jī)上，轉(zhuǎn)寫(xiě)一個(gè)30s的音頻，要求在2s內(nèi)返回轉(zhuǎn)寫(xiě)結(jié)果，系統(tǒng)最多能容忍32個(gè)解碼器并行處理，或者正在實(shí)時(shí)轉(zhuǎn)寫(xiě)的數(shù)據(jù)流，尾包延遲要求在100ms內(nèi)，系統(tǒng)最多能容忍16個(gè)解碼器并行處理。以定義好的性能數(shù)值為目標(biāo)，從小到大的設(shè)置解碼器數(shù)目進(jìn)行測(cè)試，滿足性能數(shù)值目標(biāo)時(shí)，此時(shí)的數(shù)字就是服務(wù)需要初始化的解碼器數(shù)目。

4.1.3 CUDA GPU解碼支持不足

需要處理CUDA環(huán)境、模型、解碼器的關(guān)系，對(duì)于非Exclusive模式有OOM異常風(fēng)險(xiǎn)。一個(gè)解碼服務(wù)進(jìn)程只能有一個(gè)模型對(duì)象進(jìn)行初始化，CUDA環(huán)境和模型對(duì)象是一一映射關(guān)系，單卡綁定一個(gè)CUDA環(huán)境、一個(gè)模型對(duì)象。而模型對(duì)象和解碼器之間是一對(duì)多的關(guān)系。

對(duì)于GPU解碼需要注意多個(gè)并發(fā)請(qǐng)求時(shí)轉(zhuǎn)寫(xiě)結(jié)果偶爾會(huì)出現(xiàn)亂碼、錯(cuò)字等情況，這是由于在Kaldi CUDA接口中的轉(zhuǎn)寫(xiě)回調(diào)函數(shù)在一個(gè)進(jìn)程環(huán)境下只有一個(gè)，這里需要在回調(diào)函數(shù)處理轉(zhuǎn)寫(xiě)結(jié)果時(shí)加鎖、避免這些問(wèn)題。

另外的一個(gè)問(wèn)題是在GPU解碼獲取lattice回調(diào)結(jié)果時(shí)，有資源未清理的問(wèn)題，會(huì)直接導(dǎo)致進(jìn)程異常退出，這是由于在初始化時(shí)解碼進(jìn)程綁定了唯一id和cuda channel的關(guān)系，但是在解碼結(jié)束時(shí)沒(méi)有解綁導(dǎo)致的，這個(gè)問(wèn)題我們發(fā)現(xiàn)后提交了PR就行了修復(fù)。

最終，解碼服務(wù)的設(shè)計(jì)如下，基于Kaldi和CUDA環(huán)境，在離線環(huán)境中完成聲學(xué)模型、語(yǔ)言模型的訓(xùn)練、添加相關(guān)的配置。在解碼服務(wù)啟動(dòng)時(shí)，加載服務(wù)配置，加載離線訓(xùn)練的模型，初始化解碼器同步隊(duì)列，當(dāng)有音頻請(qǐng)求到來(lái)時(shí)，根據(jù)協(xié)議判斷音頻請(qǐng)求的開(kāi)始和結(jié)束狀態(tài)，從隊(duì)列中加載解碼器，轉(zhuǎn)寫(xiě)出結(jié)果后，返回給服務(wù)的調(diào)用方。

4.2 后端應(yīng)用服務(wù)的優(yōu)化

除了在語(yǔ)音解碼服務(wù)上的優(yōu)化，在后端服務(wù)上我們也進(jìn)行了一系列的優(yōu)化，包含并發(fā)處理、多級(jí)緩存、I/O優(yōu)化、GC優(yōu)化、異步處理、分發(fā)效率優(yōu)化等方面，大大的優(yōu)化了系統(tǒng)的處理性能。具體的優(yōu)化如下：

4.2.1 并發(fā)處理和兩級(jí)緩存優(yōu)化

在音頻解析服務(wù)中，有很多音頻解析、轉(zhuǎn)換、分離、解碼、組合的處理模塊，處理鏈路長(zhǎng)，而消息接收的效率、解析轉(zhuǎn)換的效率、解碼的效率是不同的。如果整個(gè)處理過(guò)程是單一的處理鏈條，由于模塊間處理效率上的不匹配，會(huì)出現(xiàn)下游模塊等待上游模塊的情況，那么整體的處理效率就會(huì)受到影響。為了盡可能降低模塊間的阻塞等待，可以將耦合度低的模塊拆分出來(lái)，增加緩存單獨(dú)并行處理，此時(shí)可以認(rèn)為兩個(gè)緩存下的模塊是并行處理的鏈條，在處理效率上理論上大于等于單一鏈條的處理效率。在單一鏈條模塊有阻塞等待情況時(shí)，甚至要遠(yuǎn)高于單一鏈條的處理效率。

將服務(wù)優(yōu)化為設(shè)立二級(jí)緩存來(lái)縮短處理鏈條，同時(shí)兩個(gè)緩存下的模塊獨(dú)立并行處理。二級(jí)緩存中的第一級(jí)在消息接收和解碼轉(zhuǎn)換之間，第二級(jí)在轉(zhuǎn)換和解碼之間，在兩個(gè)不同分級(jí)之間，使用多線程批量處理提高吞吐能力。優(yōu)化后相比優(yōu)化前，TP999耗時(shí)降低了91%。

4.2.2 I/O優(yōu)化

常說(shuō)的I/O包含網(wǎng)絡(luò)I/O、磁盤(pán)I/O、設(shè)備I/O等，由于I/O時(shí)通常會(huì)涉及到數(shù)據(jù)交換、系統(tǒng)內(nèi)核態(tài)的切換，相應(yīng)的就會(huì)增加系統(tǒng)的開(kāi)銷。我們本次I/O優(yōu)化利用緩存、批量處理等手段來(lái)降低I/O，提升系統(tǒng)的性能。在服務(wù)中，涉及到多次磁盤(pán)I/O和網(wǎng)絡(luò)I/O：

(1) 服務(wù)里包含對(duì)大量音頻文件的讀寫(xiě)操作，會(huì)產(chǎn)生多次的磁盤(pán)I/O讀。通過(guò)使用緩存，以空間換時(shí)間的方式，將多次磁盤(pán)I/O讀降低為通過(guò)一次I/O緩存全部數(shù)據(jù)，缺點(diǎn)是增加了內(nèi)存，由于服務(wù)是Java服務(wù)，會(huì)相應(yīng)的增加GC回收頻率和停頓時(shí)長(zhǎng)，那就還涉及到GC上的優(yōu)化。

(2)服務(wù)里包含請(qǐng)求和響應(yīng)相似的單獨(dú)請(qǐng)求，涉及到大量的網(wǎng)絡(luò)I/O。通過(guò)將這些相似請(qǐng)求進(jìn)行合并，增加批量接口，進(jìn)行批量請(qǐng)求，降低網(wǎng)絡(luò)I/O次數(shù)。

整體上，優(yōu)化后相比優(yōu)化前，TP999耗時(shí)降低了10倍。

4.2.3?GC優(yōu)化

系統(tǒng)中的上層處理服務(wù)是Java服務(wù)，Java服務(wù)由于垃圾回收的關(guān)系，會(huì)在回收期間暫停應(yīng)用程序線程的執(zhí)行(Stop-The-World)，直到垃圾回收操作完成，毫無(wú)疑問(wèn)這會(huì)降低系統(tǒng)性能。之前服務(wù)使用G1垃圾回收器，也進(jìn)行了參數(shù)調(diào)優(yōu)，比如增加堆內(nèi)存、調(diào)整G1HeapRegionSize、MaxGCPauseMillis等，但是效果不是很理想。這是由于緩存音頻數(shù)據(jù)導(dǎo)致服務(wù)的內(nèi)存占用大，老年代對(duì)象較多，會(huì)頻繁的進(jìn)行Mixed GC和Full GC。服務(wù)中G1的回收頻率5s左右，回收停頓的時(shí)間平均1.8s、最大停頓時(shí)間接近40s，拉低了服務(wù)整體處理性能。
ZGC在JDK11中首次發(fā)布，是一種低停頓時(shí)間、適合大堆內(nèi)存的垃圾回收器，能在幾毫秒到幾十毫秒內(nèi)完成垃圾回收。ZGC基于并發(fā)標(biāo)記、并發(fā)轉(zhuǎn)移、以及讀屏障等技術(shù)，而且回收時(shí)僅需要掃描GC Roots, 使得STW的延遲非常低。通過(guò)將JDK版本升級(jí)到JDK11，使用ZGC回收器替換G1回收器后，GC回收頻率控制在10~20s左右，回收停頓時(shí)間降低到10ms 以內(nèi)。

4.2.4 分發(fā)效率優(yōu)化

在之前的系統(tǒng)中，是基于不同業(yè)務(wù)場(chǎng)景的消息分發(fā)，對(duì)不同的業(yè)務(wù)場(chǎng)景實(shí)現(xiàn)消息隔離、資源隔離，在流量不高的情況下，這種實(shí)現(xiàn)方式簡(jiǎn)單、靈活。但在各業(yè)務(wù)流量增大，流量不均衡的情況下，會(huì)導(dǎo)致不同業(yè)務(wù)場(chǎng)景資源利用率不均衡、處理性能不均衡。

從基于業(yè)務(wù)場(chǎng)景的消息分發(fā)，修改為基于資源負(fù)載數(shù)據(jù)的消息分發(fā)。針對(duì)消息不同處理階段，賦予不同的分發(fā)狀態(tài)：接收狀態(tài)、分發(fā)狀態(tài)、處理狀態(tài)、完成狀態(tài)。根據(jù)這些狀態(tài)和機(jī)器自身的負(fù)載數(shù)據(jù)，進(jìn)行分發(fā)，盡可能的將消息發(fā)送到低利用率的機(jī)器上，以達(dá)到機(jī)器負(fù)載水平整體均衡的狀態(tài)。優(yōu)化后的實(shí)現(xiàn)方式，實(shí)現(xiàn)難度上有所增加，系統(tǒng)上有一個(gè)中心化的調(diào)度服務(wù)，根據(jù)收集到的數(shù)據(jù)分發(fā)調(diào)度。調(diào)度服務(wù)不但能實(shí)現(xiàn)基于負(fù)載的分發(fā)，也可以定向分發(fā)、或者延遲分發(fā)。

定向分發(fā)是對(duì)于某些業(yè)務(wù)場(chǎng)景，有特殊處理情況，可以將流量定向到某臺(tái)機(jī)器、某個(gè)集群上去處理。延遲分發(fā)，是對(duì)于某些業(yè)務(wù)場(chǎng)景流量不規(guī)律，短時(shí)間的流量尖刺會(huì)發(fā)送大量請(qǐng)求，延遲分發(fā)對(duì)流量進(jìn)行平滑、延遲處理，緩解對(duì)下游服務(wù)的處理負(fù)擔(dān)。

4.2.5 異步化

如果在服務(wù)中存在一些耗時(shí)高的模塊，但是和上下鏈的模塊依賴度不高，和服務(wù)響應(yīng)的關(guān)聯(lián)度也不高，那么可以考慮將高耗時(shí)的模塊異步處理，而快速返回低耗時(shí)模塊的同步處理結(jié)果。

在網(wǎng)關(guān)接入服務(wù)中，就符合這些異步化處理的條件。存在一些高耗時(shí)模塊，比如時(shí)長(zhǎng)計(jì)算、音頻下載分析等模塊，而服務(wù)返回結(jié)果和這些高耗時(shí)模塊也沒(méi)有關(guān)聯(lián)。其他功能模塊和這個(gè)高耗時(shí)模塊的依賴度也不高。如果服務(wù)采用同步處理，一方面服務(wù)的響應(yīng)耗時(shí)會(huì)很高，另一方面會(huì)出現(xiàn)線程阻塞、請(qǐng)求排隊(duì)的情況。采取的優(yōu)化方案是將高耗時(shí)模塊后置異步處理，而其它功能模塊則同步處理，快速返回結(jié)果。優(yōu)化上線后，將服務(wù)的TP999耗時(shí)從數(shù)百毫秒降低到了幾十毫秒。

4.3 數(shù)據(jù)效果

從架構(gòu)1.0升級(jí)到架構(gòu)2.0后，在資源利用率、系統(tǒng)性能、系統(tǒng)可靠性上都得到了提升。GPU卡的最高利用率從45%提升到75%左右；GPU卡資源占用節(jié)省了62%；線上平均耗時(shí)降低了88%，TP999耗時(shí)降低了98%。

總結(jié)

本文介紹了基于Kaldi的語(yǔ)音識(shí)別引擎的后端架構(gòu)設(shè)計(jì)，在前期人力少、排期緊、流量不大的情況下，快速了完成架構(gòu)1.0的上線，滿足了當(dāng)時(shí)的業(yè)務(wù)轉(zhuǎn)寫(xiě)需求。隨著接入場(chǎng)景越來(lái)越多，流量越來(lái)越大，針對(duì)架構(gòu)1.0的不足進(jìn)行了重構(gòu)和升級(jí)，重點(diǎn)針對(duì)基于Kaldi的內(nèi)核解碼服務(wù)的不足，進(jìn)行了并發(fā)化改造優(yōu)化，針對(duì)其它后端應(yīng)用服務(wù)進(jìn)行了拆分和性能優(yōu)化，提升了GPU的利用率、以更低的資源占用處理更多的音頻數(shù)據(jù)，系統(tǒng)的整體性能也有了較大幅度的降低，系統(tǒng)可靠性得到了更好的保證。

【作者簡(jiǎn)介】

王焱，58同城后端高級(jí)架構(gòu)師，58同城TEG-AI Lab語(yǔ)音架構(gòu)部負(fù)責(zé)人，主要負(fù)責(zé)語(yǔ)音識(shí)別、語(yǔ)音合成等語(yǔ)音技術(shù)的后端架構(gòu)設(shè)計(jì)和開(kāi)發(fā)工作。

編輯：黃飛

閱讀全文

解碼器(40056) 解碼器(40056)
機(jī)器人(200958) 機(jī)器人(200958)
cpu(206166) cpu(206166)
語(yǔ)音識(shí)別(111781) 語(yǔ)音識(shí)別(111781)
深度學(xué)習(xí)(119798) 深度學(xué)習(xí)(119798)

評(píng)論

相關(guān)推薦

基于FPGA的AIX語(yǔ)音識(shí)別解決方案

AIX（artificial intelligence aXellerator）是韓國(guó)SK公司為語(yǔ)音識(shí)別提供的一個(gè)解決方案，應(yīng)用于微軟的開(kāi)源語(yǔ)音識(shí)別框架Kaldi。AIX使用了Xilinx的FPGA

2020-11-14 12:09:47

4014

純電動(dòng)汽車高壓電氣架構(gòu)設(shè)計(jì)方案

散漫說(shuō)，純電動(dòng)汽車高壓部件包括電池、電驅(qū)、電力電子及充電部件。本文通過(guò)分析純電動(dòng)汽車高壓架構(gòu)功能要求，對(duì)比目前典型純電動(dòng)汽車高壓電氣架構(gòu)，提出了一種全新高壓架構(gòu)設(shè)計(jì)方案。以下為正文。

2022-10-14 11:36:55

2152

1小時(shí)玩轉(zhuǎn)AI語(yǔ)音識(shí)別

`報(bào)名鏈接：http://t.elecfans.com/live/563.html直播主題及亮點(diǎn)本次直播講解AI語(yǔ)音識(shí)別核心技術(shù)知識(shí)以及語(yǔ)音識(shí)別系統(tǒng)架構(gòu)，現(xiàn)場(chǎng)實(shí)操寫(xiě)代碼實(shí)現(xiàn)語(yǔ)音采集、語(yǔ)音傳輸與解析

2018-09-19 13:40:42

kaldi解碼器在嵌入式平臺(tái)運(yùn)行方法

該博文屬于系列文章，其他文章參考總覽：kaldi嵌入式平臺(tái)的移植及實(shí)現(xiàn)前言前面的博文kaldi源碼的交叉編譯已經(jīng)將嵌入式平臺(tái)的解碼器編譯完成，解碼器有GMM、nnet2、nnet3等等，GMM解碼器

2021-12-14 08:37:24

語(yǔ)音識(shí)別

做了一個(gè)語(yǔ)音識(shí)別的，很不準(zhǔn)確，誰(shuí)有厲害一點(diǎn)的算法

2020-03-16 21:25:17

語(yǔ)音識(shí)別有哪些成本稍微低的解決方案,訊飛或百度的能離線嗎

語(yǔ)音識(shí)別有哪些成本稍微低的解決方案,訊飛或百度的能離線嗎如題只識(shí)別命令

2019-07-07 14:50:20

語(yǔ)音識(shí)別模塊

目前市面上語(yǔ)音識(shí)別模塊哪家識(shí)別率比較高，又帶語(yǔ)音合成功能？

2015-09-01 15:20:15

語(yǔ)音壓縮,存儲(chǔ)與回放工程設(shè)計(jì)方案

語(yǔ)音壓縮,存儲(chǔ)與回放工程設(shè)計(jì)方案一、 設(shè)計(jì)要求與目標(biāo)（1）使用DSP實(shí)現(xiàn)語(yǔ)音壓縮和解壓縮的基本算法，算法類型自定，例如可以采用G.711、G.729等語(yǔ)音壓縮算法。（2）采用A/D

2009-12-09 15:37:01

HarmonyOS開(kāi)發(fā)-語(yǔ)音識(shí)別

1. 在使用語(yǔ)音識(shí)別API時(shí)，將實(shí)現(xiàn)ASR的相關(guān)的類添加至工程。// 提供ASR引擎執(zhí)行時(shí)所需要傳入的參數(shù)類import ohos.ai.asr.AsrIntent;// 錯(cuò)誤碼的定義類import

2022-03-22 09:54:37

ISD9160單芯片非特定人語(yǔ)音識(shí)別方案資料下載

`產(chǎn)品特征：1、單芯片語(yǔ)音識(shí)別解決方案（非特定人識(shí)別）2、ISD9160自帶145kflash，可以做20條左右指令，另外可以外加SPI-FLASH擴(kuò)展指令數(shù)量。3、采用***先進(jìn)語(yǔ)音識(shí)別算法

2017-04-08 15:08:51

Labview怎么引用微軟的語(yǔ)音引擎庫(kù)？新手求助

Labview怎么引用微軟的語(yǔ)音引擎庫(kù)？

2013-11-16 12:31:38

PCB六層板層疊結(jié)構(gòu)設(shè)計(jì)方案

誰(shuí)來(lái)闡述一下PCB六層板層疊結(jié)構(gòu)的設(shè)計(jì)方案？

2020-01-10 15:53:43

STM32軟件架構(gòu)設(shè)計(jì)的意義

STM32軟件架構(gòu)1、架構(gòu)設(shè)計(jì)的意義（1）應(yīng)用代碼邏輯清晰，且避免代碼冗余；（2）代碼通用性，方便軟件高速、有效的移植；（3）各功能獨(dú)立，低耦合高內(nèi)聚；2、總體架構(gòu)圖3、結(jié)構(gòu)層說(shuō)明4、遵循規(guī)則5、優(yōu)劣評(píng)估6、STM32實(shí)例說(shuō)明

2021-08-04 07:23:12

kintex產(chǎn)品架構(gòu)設(shè)計(jì)文檔（成為架構(gòu)師也是電子人不錯(cuò)的選...

kintex產(chǎn)品架構(gòu)設(shè)計(jì)文檔（成為架構(gòu)師也是電子人不錯(cuò)的選擇） ROCE（儒仕）,用心為每一位電子人！Xilinx7系列普及講座，架構(gòu)師設(shè)計(jì)方案模板，交流學(xué)習(xí) 內(nèi)容請(qǐng)下載附件pdf，更多內(nèi)容請(qǐng)登錄ww..rocetech..com

2013-04-30 16:41:13

【語(yǔ)音識(shí)別】你知道什么是離線語(yǔ)音識(shí)別和在線語(yǔ)音識(shí)別嗎?

很多都會(huì)問(wèn)：我測(cè)X大訊飛的識(shí)別效果很好呀,為什么你們的不能達(dá)到這個(gè)效果呢？原因很簡(jiǎn)單,因?yàn)槟闼鶞y(cè)試的是X大訊飛在線的語(yǔ)音識(shí)別模塊,而我們的是離線的語(yǔ)音識(shí)別模塊。離線的語(yǔ)音識(shí)別和在線的語(yǔ)音識(shí)別是有所

2021-04-01 17:11:18

【CC3200AI實(shí)驗(yàn)教程11】瘋殼·AI語(yǔ)音人臉識(shí)別-AI語(yǔ)音系統(tǒng)架構(gòu)

CC3200AI實(shí)驗(yàn)教程——瘋殼·開(kāi)發(fā)板系列AI語(yǔ)音系統(tǒng)架構(gòu)AI語(yǔ)音識(shí)別系統(tǒng)的系統(tǒng)架構(gòu)如圖1.0.1所示。圖1.0.1 AI語(yǔ)音系統(tǒng)結(jié)構(gòu) 用戶通過(guò)語(yǔ)音采集板卡采集到在駐極體端的語(yǔ)音，通過(guò)I2S接口

2022-08-30 14:54:38

【大聯(lián)大品佳 Nuvoton ISD9160語(yǔ)音識(shí)別試用申請(qǐng)】語(yǔ)音控制智能燈光

項(xiàng)目名稱：語(yǔ)音控制智能燈光試用計(jì)劃：現(xiàn)在使用在線語(yǔ)音控制，由于網(wǎng)絡(luò)原因，導(dǎo)致出現(xiàn)有時(shí)識(shí)別慢，或識(shí)別不了的問(wèn)題，現(xiàn)市面也有離線識(shí)別的方案，但對(duì)普通話標(biāo)準(zhǔn)度比較高。所以想嘗試新的離線語(yǔ)音識(shí)別方案。

2020-08-10 17:37:37

【開(kāi)發(fā)教程11】AI語(yǔ)音人臉識(shí)別（會(huì)議記錄儀-人臉打卡機(jī)）-AI語(yǔ)音系統(tǒng)架構(gòu)

2022-05-20 15:35:19

【開(kāi)發(fā)教程11】瘋殼·AI語(yǔ)音人臉識(shí)別（會(huì)議記錄儀-人臉打卡機(jī)）-AI語(yǔ)音系統(tǒng)架構(gòu)

2022-07-30 19:06:32

【汽車電氣架構(gòu)設(shè)計(jì)軟件】

因工作需要，求整車電氣架構(gòu)設(shè)計(jì)軟件——PREEvision（盜版），價(jià)格可議，WetChat/***，非誠(chéng)勿擾

2017-04-18 14:20:20

【資料分享】STM32計(jì)方案與示例分享第三波

STM32計(jì)方案與示例分享第三波基于STM32的半導(dǎo)體激光光源驅(qū)動(dòng)器的設(shè)計(jì)方案基于STM32的多功能γ能譜儀設(shè)計(jì)基于STM32的嵌入式語(yǔ)音識(shí)別模塊設(shè)計(jì)方案基于STM32的多路電壓測(cè)量設(shè)計(jì)方案

2014-03-12 15:49:02

為何要進(jìn)行嵌入式軟件架構(gòu)設(shè)計(jì)？如何設(shè)計(jì)？

為何要進(jìn)行嵌入式軟件架構(gòu)設(shè)計(jì)？如何進(jìn)行嵌入式軟件架構(gòu)設(shè)計(jì)？

2021-11-01 06:31:26

分享一款不錯(cuò)的數(shù)碼語(yǔ)音溫度計(jì)設(shè)計(jì)方案

求大神分享一款不錯(cuò)的數(shù)碼語(yǔ)音溫度計(jì)設(shè)計(jì)方案

2021-04-15 06:51:54

基于語(yǔ)音AI芯片CI1102的PWM調(diào)光LED燈控方案分享

，基于NPU+MCU架構(gòu)設(shè)計(jì)，內(nèi)置腦神經(jīng)網(wǎng)絡(luò)處理器BNPU，可實(shí)現(xiàn)本地離線語(yǔ)音識(shí)別，識(shí)別率可達(dá)97%以上，識(shí)別距離可達(dá)10m。同時(shí)，該芯片集成多路UART、I2C、PWM、GPIO等控制接口，可開(kāi)發(fā)低成本

2020-11-10 17:11:41

基于語(yǔ)音控制的智能家居設(shè)計(jì)方案分享

基于語(yǔ)音控制的智能家居設(shè)計(jì)方案分享

2022-01-19 07:25:19

基于ATMEGAl28的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)

基于AVR單片機(jī)的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)的可行性，并給出了設(shè)計(jì)方案。通過(guò)多次測(cè)試結(jié)果表明，本系統(tǒng)具有電路運(yùn)行穩(wěn)定，語(yǔ)音識(shí)別率高，成本低等優(yōu)點(diǎn)。同時(shí)借助于LD3320的MP3播放功能，該系統(tǒng)具有一定的交互性

2014-03-17 13:31:40

基于CI130X語(yǔ)音芯片的智能語(yǔ)音馬桶解決方案，可實(shí)現(xiàn)離線語(yǔ)音控制，拓展更豐富應(yīng)用

是CI130X應(yīng)用框圖：以下為最常見(jiàn)為馬桶增加語(yǔ)音識(shí)別功能的方案框架：通訊流程：1、聲音通過(guò)麥克風(fēng)傳輸給語(yǔ)音模塊，語(yǔ)音模塊識(shí)別到詞條；2、將識(shí)別到的詞條信息輸出GPIO或PWM控制信號(hào)；3、電源控制電路

2023-03-16 16:31:10

基于KeyStone架構(gòu)的DSP電源設(shè)計(jì)方案

基于KeyStone架構(gòu)的DSP電源設(shè)計(jì)方案電源硬件電路設(shè)計(jì)與計(jì)算

2021-02-04 06:48:30

基于LM3444方案的led架構(gòu)設(shè)計(jì)

【W(wǎng)EBENCH 大賽作品】基于LM3444方案的led架構(gòu)設(shè)計(jì)

2018-08-29 17:26:09

基于labview的語(yǔ)音識(shí)別

`1系統(tǒng)概述語(yǔ)音識(shí)別技術(shù)是二十世紀(jì)信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科，語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)交互的關(guān)鍵技術(shù)，語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán)

2019-03-10 22:00:15

如何去提高語(yǔ)音引擎設(shè)計(jì)的質(zhì)量和性能？

如何去提高語(yǔ)音引擎設(shè)計(jì)的質(zhì)量和性能？

2021-05-31 06:35:46

對(duì)嵌入式系統(tǒng)中的架構(gòu)設(shè)計(jì)的理解

【閱讀這篇文章，你能了解到什么】1. 從事嵌入式開(kāi)發(fā)12年的我，對(duì)架構(gòu)設(shè)計(jì)的理解；2. 對(duì)嵌入式系統(tǒng)中的架構(gòu)設(shè)計(jì)要刻意訓(xùn)練；3. 嵌入式系統(tǒng)開(kāi)發(fā)過(guò)程中的一些小技巧；4. 一個(gè)用于智能家居項(xiàng)目

2021-11-08 08:23:33

嵌入式軟件架構(gòu)設(shè)計(jì)常見(jiàn)的誤解

1.常見(jiàn)的誤解1.1小型系統(tǒng)不需要架構(gòu)設(shè)計(jì) 架構(gòu)應(yīng)當(dāng)滿足當(dāng)前需求并適當(dāng)?shù)目紤]重用和變更1.2 敏捷開(kāi)發(fā)不需要框架極限編程，敏捷開(kāi)發(fā)的出現(xiàn)使一些人誤以為軟件開(kāi)發(fā)無(wú)需再做架構(gòu)了。這是一個(gè)很大的誤解。敏捷開(kāi)發(fā)是在傳統(tǒng)瀑布式開(kāi)發(fā)流程出現(xiàn)明顯弊端后提出的解決方案，所以它必然有一個(gè)更高的起...

2021-10-27 09:22:55

影響RF系統(tǒng)架構(gòu)設(shè)計(jì)的參數(shù)特性探討

簡(jiǎn)介今天可以使用的高集成度先進(jìn)射頻設(shè)計(jì)可讓工程師設(shè)計(jì)出性能水平超過(guò)以往的RF系統(tǒng)，阻隔、靈敏度、頻率控制和基帶處理領(lǐng)域的最新進(jìn)展正在影響RF系統(tǒng)架構(gòu)設(shè)計(jì)，本文旨在探討某些參數(shù)特性，以及它們對(duì)系統(tǒng)性能的影響。

2019-06-21 07:08:26

怎樣去搭建一個(gè)基于kaldi的在線語(yǔ)音識(shí)別系統(tǒng)

(GMM+HMM+NGRAM)概述）。一段時(shí)間后老板就布置了具體任務(wù)：在我們公司自己的ARM芯片上基于kaldi搭建一個(gè)在線語(yǔ)音識(shí)別系統(tǒng)，三個(gè)人花三個(gè)月左右的時(shí)間完成。由于我們都是語(yǔ)音識(shí)別領(lǐng)域的小白，要求...

2021-07-29 08:59:19

怎樣去搭建一個(gè)基于kaldi的嵌入式語(yǔ)音識(shí)別系統(tǒng)呢

怎樣去搭建一個(gè)基于kaldi的嵌入式語(yǔ)音識(shí)別系統(tǒng)呢？

2021-12-23 09:30:05

怎樣去搭建一個(gè)基于kaldi的嵌入式在線語(yǔ)音識(shí)別系統(tǒng)

怎樣去搭建一個(gè)基于kaldi的嵌入式在線語(yǔ)音識(shí)別系統(tǒng)？分為哪幾個(gè)階段呢？

2021-10-28 08:37:01

數(shù)字語(yǔ)音解碼器的低功耗設(shè)計(jì)方案

本帖最后由 eehome 于 2013-1-5 10:02 編輯數(shù)字語(yǔ)音解碼器的低功耗設(shè)計(jì)方案

2012-08-20 12:50:40

無(wú)線語(yǔ)音遙控智能車設(shè)計(jì)與實(shí)現(xiàn)

設(shè)計(jì)方案154.2 主控板設(shè)計(jì)方案154.3 控制板設(shè)計(jì)方案184.4 中斷方案196.聲音控制智能小車軟件設(shè)計(jì)206.1 語(yǔ)音控制實(shí)現(xiàn)流程216.2 語(yǔ)音識(shí)別主程序流程236.3 語(yǔ)音識(shí)別子程序

2012-07-31 22:12:51

智能語(yǔ)音玩具豬單片機(jī)方案-手勢(shì)識(shí)別語(yǔ)音PCBA

玩具是孩子童年重要的玩伴，在本文中艾能微將為大家介紹一款智能玩具的方案——智能語(yǔ)音玩具豬單片機(jī)方案，這款玩具豬采用的是手勢(shì)識(shí)別語(yǔ)音PCBA，具備識(shí)別人體手勢(shì)動(dòng)作的功能，可以依據(jù)小朋友們不同的動(dòng)作做出

2021-11-16 09:43:33

智能肩頸按摩儀離線語(yǔ)音識(shí)別芯片方案

目前市場(chǎng)上大部分肩頸按摩儀的使用和運(yùn)行，都需要使用者通過(guò)各種受控鍵盤(pán)、遙控器或按鍵等方式進(jìn)行操作。而傳統(tǒng)的語(yǔ)音識(shí)別加單片機(jī)來(lái)解決具有識(shí)別語(yǔ)音能力的按摩儀方案已經(jīng)必不可取，因?yàn)橐郧?b class="flag-6" style="color: red">方案是有包含單片機(jī)

2022-06-16 11:45:50

機(jī)甲大師機(jī)器人的軟件架構(gòu)設(shè)計(jì)如何實(shí)現(xiàn)？

機(jī)甲大師機(jī)器人的軟件架構(gòu)設(shè)計(jì)如何實(shí)現(xiàn)？

2021-11-22 07:55:21

求一種基于TMS320VC5402的嵌入式音樂(lè)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)方案

音樂(lè)語(yǔ)音識(shí)別系統(tǒng)的硬件電路該如何去設(shè)計(jì)？音樂(lè)語(yǔ)音識(shí)別系統(tǒng)的軟件該如何去實(shí)現(xiàn)？

2021-12-23 08:50:56

求一種多按鍵狀態(tài)識(shí)別系統(tǒng)的設(shè)計(jì)方案

一種基于FPGA技術(shù)的多按鍵狀態(tài)識(shí)別系統(tǒng)的設(shè)計(jì)方案

2021-05-06 08:44:59

求簡(jiǎn)單經(jīng)濟(jì)的語(yǔ)音識(shí)別方案

我想做個(gè)智能LED燈，只要識(shí)別簡(jiǎn)單的“開(kāi)”“關(guān)”語(yǔ)音即可，求各位大佬推薦個(gè)方案

2018-11-19 09:04:21

汽車電子電氣架構(gòu)設(shè)計(jì)及優(yōu)化措施

我國(guó)公路建設(shè)事業(yè)的蓬勃發(fā)展導(dǎo)致在汽車行業(yè)中的電子電氣架構(gòu)設(shè)計(jì)越來(lái)越體現(xiàn)消費(fèi)者對(duì)汽車人性化、舒適化與美觀性的現(xiàn)實(shí)需求。設(shè)計(jì)汽車的電子電氣架構(gòu)是一項(xiàng)工程量較大的工作，它涉及了硬件、軟件、網(wǎng)絡(luò)、線束等方面

2016-10-18 22:10:19

直播福利：1小時(shí)玩轉(zhuǎn)AI語(yǔ)音識(shí)別

2018-09-19 13:46:18

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

、什么是離線語(yǔ)音識(shí)別 　離線語(yǔ)音識(shí)別是指在設(shè)備本地進(jìn)行語(yǔ)音信號(hào)的識(shí)別和轉(zhuǎn)換，而無(wú)需依賴互聯(lián)網(wǎng)連接或云端服務(wù)。具體來(lái)說(shuō)，離線語(yǔ)音識(shí)別是借助本地的語(yǔ)音識(shí)別引擎和算法，在設(shè)備上對(duì)用戶的語(yǔ)音輸入進(jìn)行處理和解析，將語(yǔ)音

2023-11-24 17:41:39

自動(dòng)語(yǔ)音識(shí)別的原理是什么？

自動(dòng)語(yǔ)音識(shí)別的原理是什么？如何利用WaveNet實(shí)現(xiàn)自動(dòng)語(yǔ)音識(shí)別？

2021-06-15 09:14:07

請(qǐng)問(wèn)一下Sensory語(yǔ)音識(shí)別引擎的優(yōu)缺點(diǎn)分別有哪些呢

請(qǐng)問(wèn)一下Sensory語(yǔ)音識(shí)別引擎的優(yōu)缺點(diǎn)分別有哪些呢？

2021-12-23 08:48:25

請(qǐng)問(wèn)誰(shuí)能提供基于ISD9160的離線（本地）語(yǔ)音識(shí)別芯片方案？

本帖最后由一只耳朵怪于 2018-6-13 11:32 編輯提供離線（本地）語(yǔ)音識(shí)別芯片方案、提供基于ISD9160的離線（本地）語(yǔ)音識(shí)別方案ISD9160 智能硬件語(yǔ)音識(shí)別方案特點(diǎn)

2018-06-13 10:50:02

軟件架構(gòu)設(shè)計(jì)教程

軟件架構(gòu)設(shè)計(jì)教程

2016-09-26 15:27:06

采用TI OMAP平臺(tái)的個(gè)人手持設(shè)備開(kāi)發(fā)語(yǔ)音應(yīng)用

功能與RISC 處理器的通用系統(tǒng)性能融合在了一起。設(shè)計(jì)了開(kāi)放式軟件架構(gòu)，以鼓勵(lì)開(kāi)發(fā)語(yǔ)音引擎、語(yǔ)音應(yīng)用和多媒體等補(bǔ)充應(yīng)用。包括語(yǔ)音識(shí)別器和原型應(yīng)用等開(kāi)發(fā)支持，可幫助開(kāi)發(fā)商快速建立其自己的產(chǎn)品并縮短產(chǎn)品上市時(shí)間。OMAP 平臺(tái)可確保開(kāi)發(fā)商能夠通過(guò)輕松、靈活添加語(yǔ)音應(yīng)用牢牢把握個(gè)人手持設(shè)備的增長(zhǎng)機(jī)遇。

2019-07-29 07:44:51

智能燈具語(yǔ)音識(shí)別芯片方案離線語(yǔ)音ic

廣州九芯電子是國(guó)內(nèi)知名的語(yǔ)音芯片方案提供商，引領(lǐng)智能語(yǔ)音“芯”時(shí)代！公司以芯片設(shè)計(jì)和音頻編解碼算法、智能AI算法研究為基礎(chǔ)、面向音頻播放、識(shí)別方向的人工智能以及集成電路電子產(chǎn)品高新技術(shù)企業(yè)。九芯電子

2022-06-11 09:30:49

智能照明開(kāi)關(guān)語(yǔ)音識(shí)別芯片方案離線語(yǔ)音ic

2022-06-29 09:07:07

基于ARM的語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

語(yǔ)音識(shí)別技術(shù)是語(yǔ)音處理領(lǐng)域的一個(gè)關(guān)鍵技術(shù)。在研究了語(yǔ)音識(shí)別技術(shù)原理的基礎(chǔ)上，本文提出了一種基于ARM 處理器的孤立詞語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)方案，包括系統(tǒng)硬件設(shè)計(jì)、軟件

2009-09-03 10:52:49

基于USB存儲(chǔ)技術(shù)的電子語(yǔ)音記錄系統(tǒng)的設(shè)計(jì)方案

基于USB存儲(chǔ)技術(shù)的電子語(yǔ)音記錄系統(tǒng)的設(shè)計(jì)方案 語(yǔ)音識(shí)別技術(shù)與嵌入式USB主機(jī)系統(tǒng)是目前電子設(shè)計(jì)領(lǐng)域的新興技術(shù)，其應(yīng)用十分廣泛。本系統(tǒng)結(jié)合該兩項(xiàng)技術(shù)，實(shí)現(xiàn)了

2009-12-09 10:00:02

619

語(yǔ)音識(shí)別,什么是語(yǔ)音識(shí)別

語(yǔ)音識(shí)別,什么是語(yǔ)音識(shí)別 語(yǔ)音識(shí)別 　與機(jī)器進(jìn)行語(yǔ)音交流，讓機(jī)器明白你說(shuō)什么，這是人們長(zhǎng)期以來(lái)

2010-03-06 11:19:25

2537

輕量級(jí)工作流引擎架構(gòu)設(shè)計(jì)

為了克服傳統(tǒng)工作流管理系統(tǒng)的不足，設(shè)計(jì)了工作流管理型系統(tǒng)的原型體系結(jié)構(gòu)，搭建了輕量級(jí)工作流引擎的核心架構(gòu)，詳細(xì)地介紹了輕量級(jí)工作流引擎各個(gè)組件及功能，該架構(gòu)能根據(jù)

2011-04-12 16:15:09

#硬聲創(chuàng)作季 #語(yǔ)音識(shí)別語(yǔ)音識(shí)別實(shí)戰(zhàn)-03-4-加入attention的序列模型整體架構(gòu)

語(yǔ)音識(shí)別

水管工發(fā)布于 2022-12-07 18:55:43

#硬聲創(chuàng)作季 #語(yǔ)音識(shí)別語(yǔ)音識(shí)別實(shí)戰(zhàn)-14-1-論文整體思路與架構(gòu)解讀

語(yǔ)音識(shí)別

水管工發(fā)布于 2022-12-07 19:00:43

#硬聲創(chuàng)作季 #語(yǔ)音識(shí)別語(yǔ)音識(shí)別實(shí)戰(zhàn)-17-4-生成器模型架構(gòu)分析

語(yǔ)音識(shí)別

水管工發(fā)布于 2022-12-07 19:01:58

啟英泰倫離線語(yǔ)音識(shí)別+藍(lán)牙小程序控制方案 #啟英泰倫 #離線語(yǔ)音 #語(yǔ)音藍(lán)牙

語(yǔ)音識(shí)別

啟英泰倫發(fā)布于 2023-07-18 16:03:46

啟英泰倫離線語(yǔ)音&騰訊云小微在線語(yǔ)音識(shí)別方案 #啟英泰倫 #騰訊云小微 #在線語(yǔ)音識(shí)別 #離線語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

啟英泰倫發(fā)布于 2023-07-18 16:50:34

靈云遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決方案

醒、聲源定向等關(guān)鍵技術(shù)，在引起產(chǎn)業(yè)界廣泛關(guān)注的同時(shí)，16日正式宣布推出面向智能終端的完整靈云遠(yuǎn)場(chǎng)語(yǔ)音交互解決方案，該套方案完美整合了國(guó)內(nèi)最新遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、語(yǔ)音喚醒、聲源定向、降噪、回聲消除、端點(diǎn)

2017-10-13 11:54:26

大聯(lián)推出基于新唐科技的智能語(yǔ)音識(shí)別設(shè)計(jì)方案

致力于亞太地區(qū)市場(chǎng)的領(lǐng)先半導(dǎo)體元器件分銷商---大聯(lián)大控股宣布，其旗下品佳推出基于新唐科技（Nuvoton）ISD9160+Cyberon算法的語(yǔ)音識(shí)別方案，此方案可支持20條本地的語(yǔ)音命令，還可外掛SPI Flash存儲(chǔ)聲音數(shù)據(jù)，實(shí)現(xiàn)語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)音播放、MCU控制等功能。

2018-04-16 09:23:00

1675

華為云發(fā)布首款基于FPGA平臺(tái)語(yǔ)音識(shí)別加速解決方案

深鑒科技于國(guó)內(nèi)領(lǐng)先公有云服務(wù)商華為云發(fā)布語(yǔ)音識(shí)別加速引擎DDESE——DeePhi Descartes Efficient Speech Recognition Engine，即深鑒科技笛卡爾架構(gòu)

2018-06-21 14:35:00

813

深鑒科技發(fā)布DDESE自動(dòng)語(yǔ)音識(shí)別加速引擎

2018年3月6日，深鑒科技宣布在亞馬遜AWS正式上線基于深鑒Descartes稀疏神經(jīng)網(wǎng)絡(luò)處理架構(gòu)的自動(dòng)語(yǔ)音識(shí)別引擎DDESE (DeePhi Descartes Efficient

2018-06-26 08:02:00

2063

首款基于FPGA的原創(chuàng)深度學(xué)習(xí)語(yǔ)音識(shí)別加速解決方案面世，深鑒引領(lǐng)FPGA加速云市場(chǎng)

2018-07-27 14:25:00

1719

如何使用Autosar的進(jìn)行整車電子電氣架構(gòu)設(shè)計(jì)詳細(xì)方法概述

PREEvision工具完成架構(gòu)設(shè)計(jì)；并且建立架構(gòu)多維度評(píng)估模型、對(duì)架構(gòu)設(shè)計(jì)方案進(jìn)行評(píng)估選擇。最后利用仿真模擬器dSpace對(duì)架構(gòu)進(jìn)行測(cè)試，完成全新的電子電氣架構(gòu)設(shè)計(jì)。

2018-11-01 08:00:00

嵌入式設(shè)計(jì)方案之ARM非特定人語(yǔ)音識(shí)別系統(tǒng)

本文介紹了一種采用ARM處理器作為控制核心的非特定人語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)方案。

2020-04-11 11:17:37

1180

Daniel Povey：Kaldi 核心算法 K2 0.1 版本已發(fā)布

Povey博士目前擔(dān)任小米集團(tuán)語(yǔ)音首席科學(xué)家，由他開(kāi)發(fā)和維護(hù)Kaldi 集成了多種語(yǔ)音識(shí)別模型，是業(yè)界語(yǔ)音識(shí)別框架基石。加入小米一年，Daniel Povey設(shè)計(jì)并開(kāi)發(fā)出了新一代Kaldi。新一代Kaldi

2020-11-16 11:56:26

1340

采用AI語(yǔ)音識(shí)別引擎支持各種任務(wù)的類機(jī)器人

采用AI語(yǔ)音識(shí)別引擎支持各種任務(wù)的類機(jī)器人。為了促進(jìn)護(hù)理行業(yè)IT利用率的提高，Aeolus Robotics于2018年11月在護(hù)理機(jī)構(gòu)啟動(dòng)了“ Aiolus Robot”的演示實(shí)驗(yàn)。

2020-12-23 13:34:41

1540

SWE.2的軟件架構(gòu)設(shè)計(jì)

過(guò)程ID:SWE.2 過(guò)程名稱:軟件架構(gòu)設(shè)計(jì) 過(guò)程目的:軟件架構(gòu)設(shè)計(jì)過(guò)程目的是建立一個(gè)架構(gòu)設(shè)計(jì)，識(shí)別哪些軟件需求應(yīng)該分配給軟件的哪些要素，并根據(jù)已定義的標(biāo)準(zhǔn)評(píng)估軟件架構(gòu)設(shè)計(jì)。 ? 過(guò)程結(jié)果

2021-01-11 10:36:40

2401

SYS.3的系統(tǒng)架構(gòu)設(shè)計(jì)

計(jì)。過(guò)程結(jié)果:為了成功地執(zhí)行了這一過(guò)程: 1)系統(tǒng)架構(gòu)設(shè)計(jì)的定義是識(shí)別系統(tǒng)的組成部分; 2)系統(tǒng)需求被分配到系統(tǒng)的要素中; 3)定義了各系統(tǒng)要素的接口; 4)定義了系統(tǒng)要素的動(dòng)態(tài)行為; 5)在系統(tǒng)需求和系統(tǒng)架構(gòu)設(shè)計(jì)之間建立一致性和雙向可追溯性;及 6)對(duì)系統(tǒng)架構(gòu)

2021-02-13 16:02:00

2318

復(fù)雜裝備的PHM數(shù)據(jù)體系架構(gòu)設(shè)計(jì)方案

復(fù)雜裝備的PHM數(shù)據(jù)體系架構(gòu)設(shè)計(jì)方案

2021-06-25 16:02:48

基于無(wú)線寬帶的林業(yè)監(jiān)控網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方案

基于無(wú)線寬帶的林業(yè)監(jiān)控網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方案

2021-06-29 16:56:54

HarmonyOS的組件化設(shè)計(jì)方案

能力、適配多種終端形態(tài)”，HarmonyOS采用了“組件化”的設(shè)計(jì)方案，實(shí)現(xiàn)根據(jù)設(shè)備的資源能力和業(yè)務(wù)特征靈活裁剪，滿足不同形態(tài)終端設(shè)備對(duì)操作系統(tǒng)的要求。一、為什么采用“組件化”設(shè)計(jì)方案？分層架構(gòu)是最為流行、應(yīng)用最為廣泛的軟件架構(gòu)設(shè)計(jì)方式，將整

2021-10-13 09:59:22

1919

語(yǔ)音識(shí)別與智能控制

　　先進(jìn)的語(yǔ)音命令識(shí)別引擎利用 AI 深度神經(jīng)網(wǎng)絡(luò)算法，允許使用文本輸入自定義語(yǔ)音命令，無(wú)需培訓(xùn)。在此參考解決方案中，瑞薩向客戶展示了以快速且經(jīng)濟(jì)高效的方式將語(yǔ)音識(shí)別功能整合到其現(xiàn)有產(chǎn)品組合中是多么容易。

2022-04-29 15:55:54

1858

基于RA6M1的語(yǔ)音識(shí)別和智能控制

方案介紹語(yǔ)音識(shí)別正成為當(dāng)今新型數(shù)字生活方式的一個(gè)重要功能。您可以利用語(yǔ)音控制房間的照明、空調(diào)、窗簾和其他電器。出于衛(wèi)生原因，您只需與語(yǔ)音識(shí)別控制器通話，即可避免接觸酒店或辦公場(chǎng)所的表面，從而實(shí)現(xiàn)

2022-12-28 16:21:27

一種低功耗的語(yǔ)音識(shí)別解決方案

方案介紹概要：此設(shè)計(jì)提供了一種低功耗的語(yǔ)音識(shí)別解決方案。它通過(guò)實(shí)現(xiàn)波束賦形和噪聲抑制器功能來(lái)提高識(shí)別率，并且可以根據(jù)工作環(huán)境進(jìn)行調(diào)整。系統(tǒng)優(yōu)勢(shì)通過(guò)使用 RA6M1 MCU 的低功耗技術(shù)和 DSP 實(shí)現(xiàn)高性能語(yǔ)音識(shí)別語(yǔ)音識(shí)別功能的快速評(píng)估與開(kāi)發(fā)系統(tǒng)框圖

2022-12-28 16:10:46

架構(gòu)與微架構(gòu)設(shè)計(jì)

下面將從芯片的架構(gòu)設(shè)計(jì)、微架構(gòu)設(shè)計(jì)、使用設(shè)計(jì)文檔、設(shè)計(jì)分區(qū)、時(shí)鐘域和時(shí)鐘組、架構(gòu)調(diào)整與性能改進(jìn)、處理器微架構(gòu)設(shè)計(jì)策略等角度進(jìn)行說(shuō)明，并以視頻H.264編碼器設(shè)計(jì)為例。

2023-05-08 10:42:28

817

射頻電路架構(gòu)設(shè)計(jì)方案

路走多了，就見(jiàn)識(shí)到了不同的風(fēng)景，方案做多了，射頻電路架構(gòu)知識(shí)就多了

2023-07-17 17:12:46

564

SWE.2軟件架構(gòu)設(shè)計(jì)

過(guò)程ID : SWE.2 過(guò)程名稱 : 軟件架構(gòu)設(shè)計(jì) 過(guò)程目的 : 軟件架構(gòu)設(shè)計(jì)過(guò)程目的是建立一個(gè)架構(gòu)設(shè)計(jì)，識(shí)別哪些軟件需求應(yīng)該分配給軟件的哪些要素，并根據(jù)已定義的標(biāo)準(zhǔn)評(píng)估軟件架構(gòu)設(shè)計(jì)。過(guò)程結(jié)果

2023-08-24 09:43:48

447

基于python進(jìn)行語(yǔ)音識(shí)別的實(shí)現(xiàn)方案

使用PocketSphinx包, PocketSphinx是一個(gè)用于語(yǔ)音轉(zhuǎn)換文本的開(kāi)源API。它是一個(gè)輕量級(jí)的語(yǔ)音識(shí)別引擎，盡管在桌面端也能很好的工作，它還專門(mén)為手機(jī)和移動(dòng)設(shè)備做過(guò)調(diào)優(yōu)。

2023-10-11 09:31:05

209

語(yǔ)音識(shí)別技術(shù)：端到端的挑戰(zhàn)與解決方案

將探討端到端語(yǔ)音識(shí)別技術(shù)的挑戰(zhàn)與解決方案。二、端到端語(yǔ)音識(shí)別技術(shù)的挑戰(zhàn) 1.噪聲干擾和口音差異：端到端語(yǔ)音識(shí)別技術(shù)面臨著噪聲干擾和口音差異等挑戰(zhàn)。在實(shí)際應(yīng)用中，語(yǔ)音信號(hào)往往存在各種噪聲干擾，不同用戶的發(fā)音特點(diǎn)也不

2023-10-18 17:06:50

347

智能座艙主流音頻架構(gòu)設(shè)計(jì)方案

蔚來(lái)汽車NT1/NT2平臺(tái)座艙音頻系統(tǒng)的軟件架構(gòu)設(shè)計(jì)和研發(fā)工作都由我負(fù)責(zé)，涉及到Android、QNX、Hypervisor等系統(tǒng)的音頻設(shè)計(jì)。今

2023-12-28 16:54:03

274

恩智浦發(fā)布新一代智能語(yǔ)音技術(shù)組合的語(yǔ)音識(shí)別引擎

恩智浦發(fā)布新一代智能語(yǔ)音技術(shù)組合的語(yǔ)音識(shí)別引擎。本文將探討開(kāi)發(fā)人員在嵌入式語(yǔ)音控制設(shè)計(jì)中面臨的挑戰(zhàn)、恩智浦新的Speech to Intent引擎，以及您如何在應(yīng)用中使用它。

2024-01-26 09:15:35

222

已全部加載完成

搜索歷史

基于Kaldi的語(yǔ)音識(shí)別引擎的架構(gòu)設(shè)計(jì)方案

評(píng)論