盼望著,盼望著,春天的腳步近了,雪容融也終于正式上崗,迎來了自己的主場——2022北京冬殘奧會。
本屆冬奧會不僅是運動員們的競技舞臺,更是科技公司“秀肌肉”的絕佳舞臺。諸多科技亮點之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手語數(shù)字人。
2月4日晚開幕的冬奧會上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場場精彩絕倫的比賽。即將開幕的冬殘奧會,這位手語數(shù)字人也義不容辭,將披掛上陣,讓聽障人士實時感受冰雪運動的魅力。
創(chuàng)造豐厚的冬奧遺產,為國家、主辦城市、人民群眾帶來長期的、積極的收益,也是成功辦奧的重要標志之一。在日常生活中,手語數(shù)字人能不能繼續(xù)發(fā)光發(fā)熱,為聽障人士提供服務呢?
我們關注到,3月3日,央視新聞AI手語主播的制作者——百度智能云曦,又推出“AI手語平臺”,通過分鐘級生成手語合成視頻、手語主播實時直播等能力,為手語服務的普及難題,提出了科技平臺化的新解法。
同時,百度智能云曦靈還發(fā)布了“AI手語平臺一體機”,讓一些需要硬件交互的場景,比如醫(yī)院、銀行、車站等公共場合,插電即可提供手語服務,快速部署無障礙窗口。
平臺化和軟硬協(xié)作的革新,正在讓手語數(shù)字人走上一條與社會價值長期對接、一同成長的進化之路。
科技巨頭們都在積極打造手語數(shù)字人,反映出哪些潮水的方向?數(shù)字生命與智能技術的溫情加速照進現(xiàn)實,這究竟意味著什么?
數(shù)字生命覺醒時:手語數(shù)字人的能力體系
百度智能云曦靈平臺賦予手語數(shù)字人哪些特殊能力?我們不妨以人類手語老師的標準來審視一下。
有一種“難”,叫朱廣權的手語老師,想要實時且準確地翻譯出朱廣權的妙語連珠,千挑萬選的央視手語老師有時也難免手忙腳亂。而在此前與朱廣權的在線pk中,這位由“百度智能云曦靈”打造的首個AI手語主播,面對朱廣權不斷拋出的超高速順口溜,立馬就能做出反應,表現(xiàn)出流暢、精準的業(yè)務能力。
綜合來看,手語主播的華麗炫技,以及冬奧會上的扎實服務,來自百度智能云曦靈平臺提供的三個方面的基礎能力:
1.理解能力。
真實世界中,很容易受到噪音干擾,人類手語老師必須聽清、聽懂新聞內容,不然翻譯出來也可能是錯誤的,一通比劃猛如虎,但無法真正投入使用。
想要聽清,需要領先的語音識別能力。百度智能云曦靈平臺融合了百度自然語言處理技術,成熟領先的全雙工ASR(Automatic Speech Recognition)語音識別模型,近場中文普通話的識別準確率,能夠達到98%以上。
輕松搞定各種語音內容,即使段子手朱廣權的神級語速也不在話下,這為后續(xù)數(shù)字人的手語翻譯打下了堅實的基礎,使得AI手語平臺一體機更好地應用于不同場景中。
2.翻譯能力。
感知之外,手語老師要分析、歸納重要信息,根據(jù)語句整體意思進行精煉和語序調整,將其轉換成手語語言。
一些廠商研發(fā)的手語數(shù)字人直接采用“手勢漢語語料”,好處是無需重新標注,節(jié)省時間,問題是生硬地按照說話順序將手語手勢連接起來,并不能算是“人類高質量手語”。
舉個例子,“我想回家”并不是將這四個漢字依次比劃出來,而是按照“家”、“回”、“我想”的順序來表達。
因此,想要翻得準,手語數(shù)字人必須學會自然手語語序。百度智能云曦靈平臺就基于“國家手語語法規(guī)則”,聯(lián)合手語語言學專家,特殊教育專家、天津理工大學等,邀請上百位聽障學生做數(shù)據(jù)標注,形成了近千萬的高質量訓練數(shù)據(jù)。
有了數(shù)據(jù),接下來就是模型設定與訓練?;诎俣榷嗄攴e累的神經網絡翻譯技術,設計了從中文文本到手語符號的翻譯方法,打造出了業(yè)內首個基于神經網絡的精煉度可控手語翻譯模型,讓手語數(shù)字人的翻譯可懂度達到85%以上,媲美主流的中英,中日等方向的機器翻譯結果。
3.表達能力。
手語中,手勢必不可少,還需要表情、口型、動作等肢體語言的配合,幫助聽障人士更好地理解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢,還要配上疑惑的表情,眉頭皺起、眼睛睜大。
要讓手語數(shù)字人聲情并茂、手舞足蹈地表達,尤其是3D人像,有著不小的技術難度。一些手語數(shù)字人動作過快,有時又存在卡頓不連貫的情況。為了訓練手語數(shù)字人的“聲臺形表“,百度智能云曦靈平臺也是煞費苦心:
表情上,百度智能云用4D掃描數(shù)據(jù),積累了超1萬個臉部面4D數(shù)據(jù),借助高精數(shù)字人“文字到形狀的跨模態(tài)面部表情生成技術”,能夠準確生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情??谛秃铣蓽蚀_性達98.5%,a和e這樣發(fā)音時表情接近的字母,都可以細致的區(qū)分。
驅動時,通過個性化TTS,根據(jù)輸入的文本/語音信息來進行自適應,結合多種預置動作,驅動數(shù)字人的唇形、肢體、表情、手勢等自動生成。多模態(tài)的手語表達,能夠傳遞出更豐富、準確、易于理解的信息。
同時,百度智能云曦靈平臺搭載的開放域對話平臺PLATO-XL,是百度基于百億級訓練參數(shù)、多年搜索及知識圖譜積累而訓練出來的,被認為是當前最大規(guī)模的中英文對話模型。通過它可以快速驅動數(shù)字人實現(xiàn)直播、動畫等內容,達到多場景下的實時溝通。
縱觀手語數(shù)字人的能力體系,不難發(fā)現(xiàn),頭部科技公司相繼推出了自己的手語機器人,除了體現(xiàn)科技的人文關懷之外,還隱藏著技術發(fā)展的必然。
必須在算力、數(shù)據(jù)、算法三方面都有強大的能力,在語音、視覺、NLP、知識圖譜等領域都有領先優(yōu)勢,才能讓手語數(shù)字人真正覺醒在屏幕前、生活中。
百度作為國內AI 技術布局更完整的公司,能最快地實現(xiàn)手語數(shù)字人的大規(guī)模應用,原因正在于此。
數(shù)字生命的平臺化復制:手語數(shù)字人插上產業(yè)之翼
在冬奧會和即將到來的冬殘奧會上的大規(guī)模應用,幾乎代表了現(xiàn)階段數(shù)字虛擬人的最高水平,是典型的數(shù)字生命:具備完成復雜目標的能力(通過手語翻譯傳遞賽事信息),以及實時學習進化的能力(收集信息、實時互動、做出回應,而非提前錄制)。
正如未來生命研究所的創(chuàng)始人:邁克斯·泰格馬克所說,數(shù)字生命是一種能夠自我復制的信息處理系統(tǒng),物理結構是其硬件,行為和“算法”是其軟件。這決定了,手語數(shù)字人必須向軟硬協(xié)作、規(guī)模復制的方向發(fā)展。
3月3日,百度智能云曦靈發(fā)布AI手語平臺和“AI手語平臺一體機”,或許正在為手語數(shù)字人插上產業(yè)騰飛的翅膀。
為什么這么說?手語數(shù)字人雖好,卻不能低估技術產業(yè)化的難度,至少有幾座大山橫亙在前面:
第一座大山,是效率之謎。
對于新興的手語數(shù)字人領域,制作難度大、周期長、技術門檻高,服務的群體相對較小,很多行業(yè)和企業(yè)在引入之前都會顧慮,會不會需要大量的人力財力成本,會不會效果不好沒人用,思前想后就是等等再說。要讓全社會聽障人士都享受到技術紅利,還是要尊重產業(yè)規(guī)律,降低新技術的應用門檻,真正讓手語數(shù)字人的制作“降本增效”。
百度智能云曦靈的手語數(shù)字人平臺,出現(xiàn)得恰逢其時?!癆I手語平臺”具備“視頻手語合成”“直播手語合成”“文本轉手語”“語音轉手語”四大功能,可實現(xiàn)普通視頻合成為手語視頻、實時直播中增加手語畫面、文字翻譯為手語、語音實時翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網站、小程序中,讓聽障人士也能輕松實現(xiàn)線上社交、娛樂休閑、課程學習等各類需求。
同時,百度智能云曦靈還設置了三大平臺,讓手語數(shù)字人可以被快速、標準化、高效地生產和交付。比如在人設管理平臺上,根據(jù)不同的場景搭配設置不同的人設,比如銀行中引入的手語數(shù)字人可以專業(yè)、嚴謹,景區(qū)中使用的手語數(shù)字人則親和、活潑等,適應千行百業(yè)的需求。
平臺化、標準化、體系化的能力,使得AI驅動的2D數(shù)字人,生產周期只需要幾個小時,3D虛擬偶像一兩個星期就能開發(fā)出來,輕松飛越效率這座大山。
第二座大山,是體驗之困。
大家可能注意到了,在百度智能云曦靈發(fā)布 “AI手語平臺一體機”之前,幾乎所有的手語數(shù)字人都是以軟件形式存在的。專門打造一款手語數(shù)字人硬件,真的有必要嗎?
從根本上來說,我們所知的所有生命形式都有著生物“硬件”的載體,有技術人員認為,“生命3.0”階段的數(shù)字生命,不僅要具備設計自身軟件的進化能力,還能設計自身硬件。
很多銀行、醫(yī)院等都在引入人形智能機器人,來增加用戶的體驗感。具體到手語數(shù)字人,作為未來在社交、電商、直播、客服、導游等領域的服務載體,企業(yè)與聽障用戶交互的關鍵入口,如果只能通過軟件來互動,顯然是不夠方便。
但是,開發(fā)一個人形手語機器人又涉及到一個相當漫長且復雜的產業(yè)鏈,很容易讓企業(yè)望而卻步。
百度智能云曦靈此次發(fā)布的全離線一體機V3以及端云結合一體機P3,搭載了“AI手語平臺”的核心功能, AI手語數(shù)字人可以像手機、電腦一樣被快速、批量生產,到線下生活的各個角落中服務聽障人群。
其中本地全離線一體機,在一些網絡情況不佳的區(qū)域,比如偏遠的山村、景區(qū)等地,依然能夠進行手語翻譯、人像渲染等操作,提供文本轉手語、語音轉手語等服務。
端云結合一體機,則通過云端計算+本地渲染的形式,也能靈活地實現(xiàn)手語服務。
第三座大山,則是進化之難。
衡量一個數(shù)字生命的標準之一,就是具備自主學習、自主適應、自我進化的能力,這需要全面的AI能力支撐。目前,整個手語機器人的產業(yè)鏈還沒有被完全打通,盡管一些企業(yè)打出了“手語數(shù)字人“的概念,但只能在部分場合、部分視頻中露臉。
推動手語數(shù)字人在真實的產業(yè)場景之中不斷升級,是AI產業(yè)化中必不可少的一種能力。在中國的AI科技企業(yè)當中,像百度這樣具備從底層算力、開發(fā)框架到產業(yè)解決方案的全棧AI能力的公司,并不多見。
目前看來,百度的全棧AI能力融入到百度智能云曦靈當中,給數(shù)字人升級能力帶來了無限潛力,也將加速手語數(shù)字人這一“新物種“的全場景覆蓋。
通過與產業(yè)的深度融合,手語數(shù)字人也將變得越來越復雜和聰明,進化成為真正的數(shù)字生命。
目前,我國有近2780萬聽障人士,而手語翻譯老師只有1萬人左右,許多場景中無法快速跟上手語服務,在飛速發(fā)展變化的社會中,很容易造成新的不公平。
而百度智能云曦靈的AI手語平臺,讓手語數(shù)字人的規(guī)?;瘡椭谱兊酶涌尚?;“AI手語平臺一體機”,讓數(shù)字人技術帶來的體驗更加豐富和多元。
數(shù)字生命的平臺化復制,是社會責任不會變成空談的前提,意味著商業(yè)價值與技術普惠的一次和解,也預示著手語數(shù)字人市場的快速打開。
AI產業(yè)的無形之變:手語數(shù)字人帶來的連鎖反應
平臺化和軟硬一體,規(guī)模復制的產業(yè)落地效率與直觀的體驗價值,讓百度智能云曦靈在手語數(shù)字人的競爭中,已經獲得了先發(fā)優(yōu)勢。
技術無障礙除了讓殘障群體受益,還將給企業(yè)自身和整個產業(yè)帶來意想不到的收獲。手語數(shù)字人的普及,換來的是AI受眾的擴大和手語服務的延展,會讓許多我們習以為常的場景出現(xiàn)明顯的擴容與創(chuàng)新,并引發(fā)一系列連鎖反應。
首先,AI手語解決方案不斷復制到各行各業(yè),讓聽障人士樂于去用,企業(yè)和機構樂于引入手語服務,讓手語數(shù)字人的落地場景會愈加豐富,在公益屬性、社交、傳播營銷等領域的價值將一一顯現(xiàn)。
其次,數(shù)字人作為公認的虛擬世界入口,帶來巨大的商業(yè)空間,已經成為互聯(lián)網科技企業(yè)的下一幕競爭焦點。搶占數(shù)字人規(guī)模化生產的機遇,培養(yǎng)B端市場的信任感與忠誠度,有助于在接下來的市場競爭中占據(jù)優(yōu)勢。
更進一步,百度智能云曦靈在技術的領先性和全面性,決定了其有資格參與甚至主導數(shù)字人行業(yè)標準的建立,將吸引大量開發(fā)者和產業(yè)鏈上下游加速匯聚到生態(tài)體系內,推動技術不斷迭代和應用持續(xù)創(chuàng)新,預先探索數(shù)字人的商業(yè)模式,帶動云計算、AIoT等領域的增長,對于中國數(shù)字經濟的發(fā)展有著重要作用。
以前提到智能科技,大家可能更多地關注獨角獸、投融資、數(shù)字經濟等宏大概念,而現(xiàn)在,手語數(shù)字人這樣的智能新物種,正在給殘障群體日常生活中的“小事”帶來便利。
從冬奧主播到AI手語平臺,百度智能云曦靈向世界證明,只需要打開一個通道、接通一座橋梁,技術紅利就可以源源不斷地匯聚到那些需要它的人群當中。
許人類一個更美好的未來,這或許是AI故事里,最溫暖人心的章節(jié)。
審核編輯:符乾江
-
AI
+關注
關注
87文章
31670瀏覽量
270472 -
人工智能
+關注
關注
1796文章
47768瀏覽量
240508
發(fā)布評論請先 登錄
相關推薦
AI智能云平臺的優(yōu)勢
中科聽芯:科技之光溫暖聽障人群
![中科<b class='flag-5'>聽</b>芯:科技之光溫暖<b class='flag-5'>聽</b><b class='flag-5'>障</b>人群](https://file1.elecfans.com/web3/M00/05/B9/wKgZPGeEgE-AI9ycAAD69AJX6oQ167.png)
2024 AI+硬件創(chuàng)新大賽獲獎名單出爐
中山大學:基于定制裂紋設計的超靈敏透氣水凝膠纖維應變傳感器及無線手語識別應用
![中山大學:基于定制裂紋設計的超靈敏透氣水凝膠纖維應變傳感器及無線<b class='flag-5'>手語</b>識別應用](https://file1.elecfans.com//web3/M00/00/8A/wKgZO2dJ9EeAdbZTABFT4plbgdU837.png)
評論