国产日韩精品无码区免费专区国产,麻豆国产97在线日韩麻豆

自動語音識別（ ASR ）正在成為日常生活的一部分，從與數(shù)字助理交互到聽寫文本信息。由于以下方面的最新進(jìn)展， ASR 研究繼續(xù)取得進(jìn)展：

ASR 為多個架構(gòu)建模以滿足需求

在特定行業(yè)的行話、語言、口音和方言方面具有定制靈活性

云、預(yù)部署或混合部署選項

這篇文章首先介紹了常見的 ASR 應(yīng)用程序，然后介紹了兩個初創(chuàng)公司，他們正在探索 ASR 作為核心產(chǎn)品功能的獨特應(yīng)用。

語音識別系統(tǒng)的工作原理

自動語音識別或語音識別，是計算機(jī)系統(tǒng)從音頻中破譯口語單詞和短語并將其轉(zhuǎn)錄成書面文本的能力。開發(fā)人員也可以將 ASR 稱為語音到文本，不要與文本到語音（ TTS ）混淆。

ASR 系統(tǒng)的文本輸出可能是語音 AI 接口的最終產(chǎn)品，或會話人工智能系統(tǒng)可能會消耗文本。

常見 ASR 應(yīng)用

ASR 已經(jīng)成為新型交互式產(chǎn)品和服務(wù)的網(wǎng)關(guān)。即使現(xiàn)在，您也可以考慮使用下面詳細(xì)介紹的用例的品牌系統(tǒng)：

現(xiàn)場字幕和轉(zhuǎn)錄

實時字幕和轉(zhuǎn)錄是兄弟。兩者之間的主要區(qū)別是字幕產(chǎn)生字幕根據(jù)需要，為流媒體電影等視頻節(jié)目直播。相比之下，轉(zhuǎn)錄可以在現(xiàn)場或批處理模式下進(jìn)行，其中錄制的音頻片段的轉(zhuǎn)錄速度比實時快幾個數(shù)量級。

虛擬助理和聊天機(jī)器人

虛擬助手和聊天機(jī)器人與人們互動，既提供幫助，也提供娛樂。他們可以從用戶輸入的文本或 ASR 系統(tǒng)接收基于文本的輸入，因為 ASR 系統(tǒng)識別并輸出用戶的單詞。

助手和機(jī)器人需要足夠快地向用戶發(fā)出響應(yīng)，因此處理延遲是不可察覺的。響應(yīng)可能是純文本、合成語音或圖像。

語音命令和聽寫

語音命令和聽寫系統(tǒng)是社交媒體平臺和醫(yī)療行業(yè)使用的常見 ASR 應(yīng)用。

為了提供一個社交媒體示例，在移動設(shè)備上錄制視頻之前，用戶可能會發(fā)出語音命令以激活美容過濾器：“給我紫色頭發(fā)”。該社交網(wǎng)絡(luò)應(yīng)用程序涉及一個支持 ASR 的子系統(tǒng)，該子系統(tǒng)以命令的形式接收用戶的話語，同時應(yīng)用程序同時處理攝像機(jī)輸入并應(yīng)用過濾器進(jìn)行屏幕顯示。

聽寫系統(tǒng)存儲語音中的文本，擴(kuò)展了語音人工智能系統(tǒng) 超越命令。為了提供醫(yī)療保健行業(yè)的一個例子，醫(yī)生口述包含醫(yī)學(xué)術(shù)語和名稱的語音注釋。準(zhǔn)確的文本輸出可以添加到患者電子病歷中的就診摘要中。

獨特的 ASR 應(yīng)用

除了這些常見用例之外，研究人員和企業(yè)家正在探索各種獨特的 ASR 應(yīng)用。以下兩個初創(chuàng)公司正在開發(fā)以新穎方式使用該技術(shù)的產(chǎn)品。

互動學(xué)習(xí)： Tarteel AI

ASR 的創(chuàng)造性應(yīng)用開始出現(xiàn)在教育材料中，特別是以互動學(xué)習(xí)的形式出現(xiàn)在兒童和成人中。

挑戰(zhàn)和解決辦法

雖然應(yīng)用程序現(xiàn)在運行順利，但 Tarteel 面臨著一系列艱難的初始挑戰(zhàn)。首先，古蘭經(jīng)阿拉伯語沒有合適的 ASR 模型，最初迫使塔特爾嘗試通用 ASR 模型。

Tarteel Anas-Abou Allaban 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官說：“我們從設(shè)備上的語音人工智能框架開始，就像智能手機(jī)一樣，但它們的設(shè)計更多是為了命令和短句，而不是精確的背誦。”。“它們也不是生產(chǎn)級別的工具，甚至不接近?！?/p>

為了克服這一挑戰(zhàn)， Tarteel 構(gòu)建了一個自定義數(shù)據(jù)集來完善現(xiàn)有的 ASR 模型，以滿足應(yīng)用程序的性能目標(biāo)。然后，在他們的下一個原型中， ASR 模型確實以較低的字錯誤率（ WER ）運行，但仍不能滿足應(yīng)用程序的實際精度和延遲要求。

阿拉班指出，他在一些電話會議記錄中看到了 10-15% 的正確率，但在古蘭經(jīng)研究中看到高正確率是另一回事。他說，應(yīng)用程序中超過 300 毫秒的處理延遲“變得非常煩人”。

Tarteel 通過調(diào)整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務(wù)器上部署之前使用 TensorRT 進(jìn)一步優(yōu)化其延遲來應(yīng)對這些挑戰(zhàn)。

數(shù)字人類服務(wù)：Ex-human

創(chuàng)業(yè)公司 Ex human 正在創(chuàng)造超現(xiàn)實的數(shù)字人與模擬人（你和我）互動。他們目前的重點是為娛樂利基開發(fā) B2B 數(shù)字人類服務(wù)，使之能夠創(chuàng)建具有獨特個性、知識和現(xiàn)實說話聲音的聊天機(jī)器人或游戲角色。

在公司 Botify AI 應(yīng)用，人工智能實體包括名人，通過口頭和圖形交互與用戶互動，無論您是在智能手機(jī)聊天窗口中打字還是使用語音。 NVIDIA Riva 自動語音識別為數(shù)字人類的自然語言處理子系統(tǒng)提供文本輸入，作為大型語言模型（ LLM ）的一部分。

為了使虛擬交互可信，需要精確和快速的 ASR 。由于 LLM 是計算密集型的，并且需要大量的處理資源，因此對于交互來說，它們可能運行得太慢。

例如， Botify AI 應(yīng)用最先進(jìn)的 TTS 來產(chǎn)生語音音頻響應(yīng)，進(jìn)而使用另一種 AI 模型驅(qū)動面部動畫。該團(tuán)隊觀察到，當(dāng)響應(yīng)的周轉(zhuǎn)時間短于約三分之一秒時，機(jī)器人與用戶的可信交互處于最佳狀態(tài)。

挑戰(zhàn)和解決辦法

雖然 Botify 人工智能正在努力彌合人工智能生成的真實視頻與真實人類之間的差距，但 Ex-human 團(tuán)隊對其客戶行為數(shù)據(jù)的分析感到驚訝?！八麄冋诖蛟熳约旱男聞勇宋?，”Ex-human 的創(chuàng)始人兼首席執(zhí)行官阿泰姆·羅迪切夫（ Artem Rodichev ）說。

通過使用為 Botify AI 生態(tài)系統(tǒng)微調(diào)的 ASR 模型，用戶可以與自己喜愛的個性進(jìn)行交流或創(chuàng)建自己的個性。在上傳自定義人臉的背景下，構(gòu)建新動畫角色的令人驚訝的模式出現(xiàn)了，通過自定義角色將對話帶入生活。 Rodichev 解釋說，他的團(tuán)隊需要快速調(diào)整他們的人工智能模型，以處理例如在風(fēng)格上只是一個點或一條線的嘴。

Rodichev 和他的團(tuán)隊通過仔細(xì)選擇工具和 SDK 以及評估并行處理的機(jī)會，克服了 Ex-human 架構(gòu)中的許多挑戰(zhàn)。 Rodichev 警告說：“由于延遲非常重要，我們使用 NVIDIA TensorRT 優(yōu)化了 ASR 模型和其他模型，并依賴于 Triton 推理服務(wù)器。”

Botify AI 用戶是否準(zhǔn)備好與數(shù)字人類而不是模擬人類互動？數(shù)據(jù)顯示，用戶平均每天花 40 分鐘與 Botify 人工智能數(shù)字人在一起，在這段時間內(nèi)發(fā)送他們最喜歡的數(shù)百條信息。

開始使用 ASR

您可以開始在自己的設(shè)計和項目中包括 ASR 功能，從免提語音命令到實時轉(zhuǎn)錄。 Riva 等高級 SDK 在世界級的準(zhǔn)確性、速度、延遲和易集成性方面表現(xiàn)出高性能，所有這些都與您的新想法一致。

關(guān)于作者

David Taubenheim 是 NVIDIA Inception 項目的高級解決方案架構(gòu)師，該項目是初創(chuàng)企業(yè)的加速器。他目前的技術(shù)重點領(lǐng)域是加速計算和對話 AI 使能器。 David 擁有國立技術(shù)大學(xué)的電氣工程碩士學(xué)位和伊利諾伊大學(xué)香檳分校的電氣工程學(xué)士學(xué)位。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5082

瀏覽量
103838
語音識別

語音識別

+關(guān)注

關(guān)注
38

文章
1745

瀏覽量
112965

領(lǐng)先技術(shù)的語音識別芯片，探索NRK3502芯片的技術(shù)特點

九芯電子NRK3502芯片以卓越創(chuàng)新力和技術(shù)積累引領(lǐng)語音識別領(lǐng)域，低成本純離線，高精度識別保障隱私，支持多喚醒詞，低功耗高性能，推動智能家居、智慧辦公等領(lǐng)域發(fā)展。

發(fā)表于 12-25 13:06 ?206次閱讀

語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來越廣泛，為醫(yī)療服務(wù)帶來了諸多便利和效率提升。以下是對語音識別技術(shù)

發(fā)表于 11-26 09:35 ?515次閱讀

語音識別在智能家居中的應(yīng)用

隨著科技的飛速發(fā)展，智能家居逐漸成為人們生活中不可或缺的一部分。智能家居系統(tǒng)通過物聯(lián)網(wǎng)技術(shù)將家中的各種設(shè)備連接起來，實現(xiàn)遠(yuǎn)程控制和自動化管理。在眾多的控制方式中，語音識別

發(fā)表于 11-26 09:31 ?567次閱讀

語音識別與自然語言處理的關(guān)系

了人機(jī)交互的革命，使得機(jī)器能夠更加自然地與人類溝通。語音識別技術(shù)概述語音識別，也稱為自動

發(fā)表于 11-26 09:21 ?619次閱讀

語音識別技術(shù)的應(yīng)用與發(fā)展

語音識別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代，但直到近年來，隨著計算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步，這項技術(shù)才真正成熟并廣泛應(yīng)用于各個領(lǐng)域。

發(fā)表于 11-26 09:20 ?800次閱讀

ASR與傳統(tǒng)語音識別的區(qū)別

ASR（Automatic Speech Recognition，自動語音識別）與傳統(tǒng)語音識別在多個方面存在顯著的區(qū)別。以下是對這兩者的對比

發(fā)表于 11-18 15:22 ?666次閱讀

ASR語音識別技術(shù)應(yīng)用

語音識別技術(shù)應(yīng)用的分析：一、ASR語音識別技術(shù)原理 ASR

發(fā)表于 11-18 15:12 ?1065次閱讀

基于Arm Neoverse N2實現(xiàn)自動語音識別技術(shù)

自動語音識別 (Automatic Speech Recognition) 技術(shù)已經(jīng)深入到現(xiàn)代生活的方方面面，廣泛應(yīng)用于從語音助手、轉(zhuǎn)錄服務(wù)

發(fā)表于 11-15 11:35 ?470次閱讀

Transformer模型在語音識別和語音生成中的應(yīng)用優(yōu)勢

隨著人工智能技術(shù)的飛速發(fā)展，語音識別和語音生成作為人機(jī)交互的重要組成部分，正逐漸滲透到我們生活的各個方面。而Transformer模型，自其誕生以來，憑借其

發(fā)表于 07-03 18:24 ?1339次閱讀

人工智能的語音識別技術(shù)詳解

隨著科技的飛速發(fā)展，人工智能（AI）技術(shù)已經(jīng)滲透到我們生活的方方面面，其中語音識別技術(shù)作為AI領(lǐng)域的重要分支，更是以其獨特的魅力和廣泛的應(yīng)用

發(fā)表于 07-01 11:39 ?1658次閱讀

標(biāo)貝語音識別技術(shù)在金融領(lǐng)域中的應(yīng)用實例

隨著語音識別技術(shù)與文本挖掘、自然語言處理等技術(shù)的不斷融合，智能語音交互技術(shù)在金融領(lǐng)域中爆發(fā)了出巨

發(fā)表于 05-16 16:55 ?703次閱讀

語音識別的技術(shù)歷程及工作原理

語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別，即通過學(xué)習(xí)，系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類，進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。

發(fā)表于 03-22 16:58 ?3995次閱讀

車內(nèi)語音識別技術(shù)在智能駕駛中的應(yīng)用與前景

一、引言隨著智能駕駛技術(shù)的快速發(fā)展，車內(nèi)語音識別技術(shù)逐漸成為智能駕駛領(lǐng)域的研究熱點。語音識別

發(fā)表于 02-19 11:46 ?959次閱讀

車內(nèi)語音識別技術(shù)：智能駕駛的核心要素

一、引言隨著科技的飛速發(fā)展，智能駕駛已經(jīng)成為未來出行的趨勢。作為智能駕駛的關(guān)鍵技術(shù)之一，車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。它不僅提升了駕駛的便捷性和安全性，也為駕駛者提供了更加

發(fā)表于 02-19 11:42 ?891次閱讀

車內(nèi)語音識別技術(shù)：智能駕駛的革新之源

一、引言隨著科技的飛速發(fā)展，智能駕駛已經(jīng)成為現(xiàn)代交通領(lǐng)域的熱門話題。作為智能駕駛的關(guān)鍵技術(shù)之一，車內(nèi)語音識別技術(shù)正在改變我們對駕駛的認(rèn)知。它不僅提高了駕駛的便捷性和安全性，也為駕駛者

發(fā)表于 02-19 10:10 ?532次閱讀