麻豆国产精品久久天堂,av黄片毛片在线播放

電子發(fā)燒友網(wǎng)報道（文/李彎彎）所謂“模態(tài)”，英文是modality，用通俗的話說，就是“感官”，多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項重要創(chuàng)新。隨著語音識別技術(shù)的發(fā)展，采用多種模態(tài)（聲學(xué)、語言模型、視覺特征等）進(jìn)行聯(lián)合建模，基于深度學(xué)習(xí)的多模態(tài)語音識別取得了新進(jìn)展。

多模態(tài)交互的原理及優(yōu)勢

多模態(tài)交互技術(shù)融合了多種輸入方式，包括語音、手勢、觸摸和眼動等，使用戶可以根據(jù)自己的喜好和習(xí)慣選擇最方便的交互方式。多模態(tài)交互通過將不同輸入方式的數(shù)據(jù)進(jìn)行融合和處理，實現(xiàn)更準(zhǔn)確、智能的交互響應(yīng)，提高用戶體驗。

上周在星宸科技2023開發(fā)者大會暨產(chǎn)品發(fā)布會論壇上，科大訊飛企業(yè)數(shù)字化副總裁盧堯談到，人工智能有三個層次，1、運(yùn)算智能：能存會算；2、感知智能：能聽會說，能看會認(rèn)；3、認(rèn)知智能：能理解會思考。而感知智能典型的進(jìn)展是多模態(tài)交互。

從盧堯的介紹來看，融合了視覺和語音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢。如下圖：這套多模態(tài)免喚醒交互系統(tǒng)，同時采用視覺檢測和語音識別交互，誤喚醒率僅為0.01%，交互響應(yīng)成功率相較于僅基于語音識別交互系統(tǒng)大幅提升。

早在今年5月，科大訊飛AI研究院副院長高建清博士就在某論壇上介紹過公司在多模態(tài)語音交互技術(shù)方面的最新進(jìn)展。據(jù)高建清介紹，科大訊飛依托語音與視覺方面的多年積累，打造了一套語音、視覺多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。

通過將麥克風(fēng)提供的空間信息和音視頻提供的說話人相關(guān)信息進(jìn)行融合綁定，實現(xiàn)高準(zhǔn)確度的說話人分離；通過多模態(tài)VAD與端到端意圖技術(shù)的結(jié)合，實現(xiàn)無喚醒詞的自然人機(jī)交互，具有可靠、自然、魯棒的特點。

具體來看，基于多模態(tài)多通道的語音分離系統(tǒng)，將語音信號、麥克風(fēng)陣列提供的空間信息以及主說話人的唇形輸入分離模型，系統(tǒng)最終輸出視頻說話人的語音，抑制背景噪聲及干擾說話人語音。在多人同時講話、車載音樂情況下，語音識別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風(fēng)陣列方法無法有效區(qū)分同向干擾的問題，還可提升非同向干擾分離場景的性能。

多模態(tài)交互技術(shù)的應(yīng)用

語音識別是人工智能技術(shù)的一個重要分支，近些年來，智能語音也在多項技術(shù)難點上取得突破。業(yè)界普遍認(rèn)為，在語音識別方面，視聽融合的多模態(tài)交互技術(shù)成為技術(shù)演進(jìn)的主要方向。

科大訊飛是國內(nèi)主要的智能語音技術(shù)玩家，其多模語音增強(qiáng)技術(shù)融合語音與視覺的多模感知，讓高噪音場景下的語音交互跨過實用門檻，目前已經(jīng)在車載、會議、地鐵購票和醫(yī)療掛號等場景落地。

在車載領(lǐng)域，人機(jī)交互系統(tǒng)需要攻克兩大難題：一是環(huán)境噪音及人聲干擾，尤其是麥克風(fēng)陣列技術(shù)難以解決的同向人聲干擾問題（如：駕駛員與左后方乘客同時說話）；二是傳統(tǒng)語音交互系統(tǒng)每次啟動交互都需要說喚醒詞，難以做到像人與人交流一樣自然順暢。

此前就有消息顯示，科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車型上部署應(yīng)用。該方案能夠適應(yīng)復(fù)雜光線暗、語音嘈雜等多種工況，并支持主流SOC和DMS攝像頭。

在地鐵購票場景中，此前因為地鐵站點太多，買票難以找到目的地站點，而且這些操作對于老年人不太友好，而語音購票的功能讓這些問題迎刃而解。同時，因為地鐵站人聲嘈雜，也使得語音交互的體驗并不友好。

根據(jù)此前的報道，深圳地鐵12號線智能售票機(jī)及智慧客服終端上，率先采用了科大訊飛多模語音增強(qiáng)技術(shù)，該技術(shù)通過識別人臉唇形等信息，同時結(jié)合人聲，使得即使在人聲嘈雜的環(huán)境，語音識別的準(zhǔn)確率也大大提升。

多模態(tài)語音識別技術(shù)在智能家居場景中也非常實用。融合語音、手勢、視覺感知，用戶可以過簡單的口頭指令控制智能家居設(shè)備，實現(xiàn)智能燈光、家居安防等功能，通過攝像頭和深度學(xué)習(xí)技術(shù)，智能家居可以識別用戶的手勢動作，實現(xiàn)手勢控制家居設(shè)備的操作。同時，通過視覺感知技術(shù)，識別用戶的面部表情和情緒狀態(tài)，根據(jù)不同情況提供相應(yīng)的互動體驗。

總結(jié)

經(jīng)過多年的發(fā)展，語音識別技術(shù)已經(jīng)相當(dāng)成熟，并且在車載、智能家居等各種場景中實現(xiàn)應(yīng)用，并給人們的生活帶來便利。然而同時，一直以來語音識別也存在諸多難點，比如環(huán)境噪聲、多人同時發(fā)出聲音等情況，都會影響語音識別的準(zhǔn)確率。而視聽融合的多模態(tài)技術(shù)，將視覺和語音結(jié)合，能夠很好的解決這些問題，使得語音識別的準(zhǔn)確率大幅提升。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音識別

語音識別

+關(guān)注

關(guān)注
38

文章
1743

瀏覽量
112940

Qorvo在手機(jī)RF和Wi-Fi 7技術(shù)上的最新進(jìn)展及市場策略

供應(yīng)商保持著長期合作關(guān)系。近日，Qorvo資深產(chǎn)品行銷經(jīng)理陳慶鴻（Footmark Chen）與Qorvo亞太區(qū)無線連接事業(yè)部高級行銷經(jīng)理林健富（Jeff Lin）接受了DigiTimes的專訪，深入探討了Qorvo在手機(jī)RF和Wi-Fi 7技術(shù)上的最新進(jìn)展及市場策略，以

發(fā)表于 01-15 14:45 ?352次閱讀

FF將發(fā)布FX品牌最新進(jìn)展

"、"FF"或 "公司"）今天宣布，將于2025年1月8日盤后公布其自2024年9月19日FX品牌發(fā)布以來的最新進(jìn)展，包括最新項目進(jìn)展、重大里程碑、新產(chǎn)品品類戰(zhàn)略及下一步計劃。

發(fā)表于 01-03 15:58 ?247次閱讀

上海交大團(tuán)隊發(fā)表MEMS視觸覺融合多模態(tài)人機(jī)交互新進(jìn)展

? 近日，上海交通大學(xué)電子信息與電氣工程學(xué)院微米納米加工技術(shù)全國重點實驗室劉景全團(tuán)隊和上海交通大學(xué)人工智能學(xué)院盧策吾團(tuán)隊在人機(jī)交互領(lǐng)域取得重要進(jìn)展，相關(guān)成果以“Capturing forceful

發(fā)表于 11-28 10:50 ?1273次閱讀

上海交大團(tuán)隊發(fā)表MEMS視觸覺<b class='flag-5'>融合</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>人機(jī)<b class='flag-5'>交互</b><b class='flag-5'>新進(jìn)展</b>

揭秘超以太網(wǎng)聯(lián)盟（UEC）1.0 規(guī)范最新進(jìn)展（2024Q4）

近期，由博通、思科、Arista、微軟、Meta等國際頂級半導(dǎo)體、設(shè)備和云廠商牽頭成立的超以太網(wǎng)聯(lián)盟（UEC）在OCP Global Summit上對外公布其最新進(jìn)展——UEC規(guī)范1.0的預(yù)覽版本。讓我們一睹為快吧！

發(fā)表于 11-18 16:53 ?593次閱讀

揭秘超以太網(wǎng)聯(lián)盟（UEC）1.0 規(guī)范<b class='flag-5'>最新進(jìn)展</b>（2024Q4）

Qorvo在射頻和電源管理領(lǐng)域的最新進(jìn)展

了半導(dǎo)體行業(yè)的重大變革，還成功引領(lǐng)Qorvo成為射頻技術(shù)的領(lǐng)導(dǎo)者。在本次專訪中，Philip將為大家分享Qorvo在射頻和電源管理領(lǐng)域的最新進(jìn)展，并探討HPA事業(yè)部如何通過技術(shù)創(chuàng)新應(yīng)對

發(fā)表于 11-17 10:57 ?573次閱讀

智能優(yōu)化的自動點焊控制系統(tǒng)：電源技術(shù)新進(jìn)展與應(yīng)用實踐

優(yōu)化的自動點焊控制系統(tǒng)以其高效、精確的優(yōu)勢，成為了提升焊接質(zhì)量及生產(chǎn)效率的關(guān)鍵所在，尤其在電源技術(shù)上的新進(jìn)展為其發(fā)展提供了強(qiáng)大動力。首先，智能優(yōu)化的自動點焊控制系?

發(fā)表于 11-16 09:10 ?364次閱讀

芯片和封裝級互連技術(shù)的最新進(jìn)展

近年來，計算領(lǐng)域發(fā)生了巨大變化，通信已成為系統(tǒng)性能的主要瓶頸，而非計算本身。這一轉(zhuǎn)變使互連技術(shù) - 即實現(xiàn)計算系統(tǒng)各組件之間數(shù)據(jù)交換的通道 - 成為計算機(jī)架構(gòu)創(chuàng)新的焦點。本文探討了通用

發(fā)表于 10-28 09:50 ?538次閱讀

AI大模型的最新研究進(jìn)展

AI大模型的最新研究進(jìn)展體現(xiàn)在多個方面，以下是對其最新進(jìn)展的介紹：一、技術(shù)創(chuàng)新與突破生成式AI技術(shù)的爆發(fā) ：生成式AI技術(shù)正在迅速發(fā)展

發(fā)表于 10-23 15:19 ?656次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多

發(fā)表于 10-18 09:39 ?562次閱讀

高燃回顧｜第三屆OpenHarmony技術(shù)大會精彩瞬間

第三屆OpenHarmony技術(shù)大會圓滿落幕全球開源精英齊聚共同展示OpenHarmony技術(shù)、生態(tài)、人才的最新進(jìn)展 見證OpenHarmony南北向生態(tài)繁榮共繪開源生態(tài)發(fā)展藍(lán)圖星光璀璨致謝

發(fā)表于 10-16 18:47

5G新通話技術(shù)取得新進(jìn)展

在探討5G新通話這一話題時，我們需首先明確其背景與重要性。自2022年4月國內(nèi)運(yùn)營商正式推出以來，5G新通話作為傳統(tǒng)語音通話的升級版，迅速吸引了公眾的目光，并引起了社會的廣泛關(guān)注。它基于5G網(wǎng)絡(luò)，代表了通信技術(shù)的新進(jìn)展。

發(fā)表于 10-12 16:02 ?717次閱讀

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

豐富外設(shè)配件配套多模態(tài)應(yīng)用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應(yīng)用板載 DAPLINK 調(diào)試器，外接一條USB 線即可實現(xiàn)燒錄、調(diào)試、串口日志查看板載網(wǎng)絡(luò)模組

發(fā)表于 06-18 17:33

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然

發(fā)表于 04-18 17:01 ?667次閱讀

百度首席技術(shù)官王海峰解讀文心大模型的關(guān)鍵技術(shù)和最新進(jìn)展

4月16日，以“創(chuàng)造未來”為主題的Create 2024百度AI開發(fā)者大會在深圳國際會展中心成功舉辦。百度首席技術(shù)官王海峰以“技術(shù)筑基，星河璀璨”為題，發(fā)表演講，解讀了智能體、代碼、多

發(fā)表于 04-18 09:20 ?763次閱讀

清華大學(xué)在電子鼻傳感器仿生嗅聞方向取得新進(jìn)展

近日，清華大學(xué)機(jī)械系在電子鼻仿生嗅聞研究中取得新進(jìn)展，相關(guān)研究成果以“Sniffing Like a Wine Taster: Multiple Overlapping Sniffs (MOSS

發(fā)表于 02-20 10:57 ?1144次閱讀