Google 的使命是匯集全球資訊,并且讓所有人都能使用這些資訊,不過要能理解各式資訊,最困難的就是語言隔閡,因此在東京舉辦#MadeWithAI 亞太區(qū)媒體活動請來了Google 語言研究計畫總經(jīng)理Linne Ha 來談?wù)勗趺磳I 應(yīng)用到語言翻譯上,進而彌平語言不通的問題。
受惠于智慧型手機的普及,網(wǎng)路人口在最近這幾年高速成長,不過網(wǎng)路上有接近50% 的內(nèi)容仍是以英文為主,對于非以英文為母語的人來說,想要獲得資料就多了一道門檻,能讓每個人自在的用自己的原生語言在網(wǎng)路上搜集或提供資料是Google 的目標,因此在推動語言翻譯或發(fā)展上Google 做了非常多的努力。
▲Google語言研究計畫總經(jīng)理Linne Ha。
推動各種語言上網(wǎng),統(tǒng)一碼(Unicode)是重點
不同語言要能在網(wǎng)路上流動,最重要的就是該語言要能被閱讀,若是出現(xiàn)亂碼或空白文字就容易成為閱讀或理解的障礙,因此Google 長期和統(tǒng)一碼(Unicode)聯(lián)盟合作,鼓勵更多國家利用統(tǒng)一碼的編碼系統(tǒng)上網(wǎng),例如Google 大力鼓勵緬甸不要再使用非統(tǒng)一碼的字型。
有了統(tǒng)一碼這項文字系統(tǒng)后,電腦文字編碼就有了一套標準,下一個挑戰(zhàn)就是要確保自行能正確地被轉(zhuǎn)為網(wǎng)路或手機上的文字,去年Google 推出開放的Noto 字型,可以支援800 種語言、11 億個文字,可呈現(xiàn)各式各樣的文字。
但這樣還不夠,雖然文字能呈現(xiàn),但卻不是每個人都知道如何輸入文字,因此除了Gboard 提供300 多種鍵盤、 97 種手寫系統(tǒng)、語音輸入等方法讓使用者可以依照自己方便的方式來輸入文字。
在開發(fā)手寫系統(tǒng)上,Google 也花了一番心力,由于每個人的字跡都不同,因此Google 導(dǎo)入人工智慧技術(shù),搜集很多自愿者的手寫范本,讓機器學(xué)習來辨認文字和書寫風格,進而達到更精確的手寫辨識。語音輸入方面則是透過GOOG-411 的服務(wù)來搜集語音資料,類似我們的查號臺,當有人打電話進去問問題查電話,GOOG-411 就會幫忙轉(zhuǎn)接,在這樣的過程中Google 建立了大量的語音資料庫范本,英文語音搜集還算滿順利的。不過其他語言就沒這么容易了,雖然說Google 有和專門經(jīng)營文字和語音資料庫的業(yè)者合作,但有些語言本身的資料庫就較少,例如廣東話,因此Google 又開啟了下一階段的任務(wù)。
語音搜尋實驗,搜集準確的語音資料
既然缺乏語音資料,Google 就開始想方法來搜集各種語言的語音訊息,比方說2010 年Google 推出了荷蘭語的Word of Mouth 計畫,提供參與實驗的使用者手機來搜集他們和親友間的對話樣本,進而得到準確的語音資料。
有了語音資料之后下個問題則是口音和俗語,關(guān)于這方面的資料目前Google 仍正在努力發(fā)展中,不過經(jīng)過過去這么長一段時間的努力,到2012 年之后,語音搜尋已可支援到50 種語言,Google 也導(dǎo)入了深度神經(jīng)網(wǎng)路提升語音辨識的準確性,今年則再新增30 多種的語音輸入,甚至包含了非洲兩種主要語言,斯瓦希里語(Swahili)和阿姆哈拉語(Amharic),對于彌平語言隔閡來說,這是一個重要的里程碑。
怎么將機器學(xué)習應(yīng)用在語音服務(wù)上
既然有了機器學(xué)習這項技術(shù),也就意味著Google 能透過演算以及建構(gòu)更有效的模型來解決語音辨識問題。
Google 這回用了一個超級低成本的預(yù)算(2000 美金)來增加孟加拉語的文字轉(zhuǎn)語音服務(wù),首先先準備一套麥克風、USB 轉(zhuǎn)接器和前置聲音放大器,并建立一組便攜式的錄音工作室「ChitChat」讓實驗者可以錄音。
工具有了,下一步就是找來15 名孟加拉的Googler,錄制了2000 多個從維基百科擷取出來的孟加拉語和英語,實驗者每隔30 分鐘至60 分鐘就錄制250 多個句子,平衡的混音成幾個不同的聲音后,再交給Google 社群投票看看大家最偏好哪一個聲音,最終產(chǎn)出的聲學(xué)模型剛好就可以代表平均型的人聲,成功推出了孟加拉語的文字轉(zhuǎn)語音服務(wù)。
除了把更多語言放到網(wǎng)路上,Google 也著手發(fā)展方言領(lǐng)域,像是英文就分成美式英文、英式英文、澳洲英文等等,最近Google 正著手處理新加坡式英語,另外,西班牙語、阿拉伯語也是Google 努力的方向。
Google 的中文語音什么時候會有更多突破?
至于***人最常用的中文呢?Google 語言研究計畫總經(jīng)理Linne Ha 不諱言,中文真的是很有挑戰(zhàn)的語言,比方說中國人說著中文、寫著簡體中文,***人說也說著中文、但寫的是繁體中文,香港人寫的也是繁體中文、不過說的是廣東話,繁體中文、簡體中文、廣東話間各有連結(jié)但又不盡相似。
過去Google 是使用「單一語言模式」來處理,比方說***人說的中文就套用繁體中文資料庫,香港人說廣東話則套用另外一個繁體中文資料庫,但這樣的語音辨識效果發(fā)展有限,近期Google 嘗試著將相近的語言加進同一個模型中,目前的實驗結(jié)果還不錯。
-
Google
+關(guān)注
關(guān)注
5文章
1772瀏覽量
57822 -
AI
+關(guān)注
關(guān)注
87文章
31615瀏覽量
270430 -
語言
+關(guān)注
關(guān)注
1文章
97瀏覽量
24292
原文標題:【Google 談人工智慧】有了機器學(xué)習后,語言還會是隔閡嗎
文章出處:【微信號:lianggezhizi,微信公眾號:兩個質(zhì)子】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
Meta與UNESCO合作推動多語言AI發(fā)展
AI助力實時翻譯耳機
![<b class='flag-5'>AI</b>助力實時<b class='flag-5'>翻譯</b>耳機](https://file1.elecfans.com/web3/M00/07/0F/wKgZPGeTBkSAKN_4AAAG9-FEI2g792.png)
Auracast廣播音頻創(chuàng)新實時語言翻譯解決方案
AI大語言模型開發(fā)步驟
大語言模型開發(fā)語言是什么
一文理解多模態(tài)大語言模型——上
![一文理解多模態(tài)大<b class='flag-5'>語言</b>模型——<b class='flag-5'>上</b>](https://file1.elecfans.com//web1/M00/F5/CB/wKgaoWdD-e-ATu-MAAG9WSDq_VU336.png)
IMAX攜手Camb.AI實現(xiàn)影院實時語言翻譯
在設(shè)備上利用AI Edge Torch生成式API部署自定義大語言模型
![在設(shè)備<b class='flag-5'>上</b>利用<b class='flag-5'>AI</b> Edge Torch生成式API部署自定義大<b class='flag-5'>語言</b>模型](https://file1.elecfans.com/web2/M00/0C/75/wKgaomc1X5aAKjRYAAAX98PFg94000.png)
DeepL推出新一代翻譯編輯大型語言模型
nlp自然語言處理的應(yīng)用有哪些
自然語言處理技術(shù)的原理的應(yīng)用
大語言模型(LLM)快速理解
![大<b class='flag-5'>語言</b>模型(LLM)快速理解](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)
【從0開始創(chuàng)建AWTK應(yīng)用程序】編譯應(yīng)用到RTOS平臺
![【從0開始創(chuàng)建AWTK應(yīng)用程序】編譯<b class='flag-5'>應(yīng)用到</b>RTOS平臺](https://file.elecfans.com/web2/M00/50/DA/pYYBAGLH6TyAB71EAAAPQ7KgtYA038.png)
評論