作為AI和芯片兩大領(lǐng)域的交差點(diǎn),AI芯片已經(jīng)成了最熱門的投資領(lǐng)域,各種AI芯片如雨后春筍冒出來(lái),但是AI芯片領(lǐng)域生存環(huán)境惡劣,能活下來(lái)的企業(yè)將是鳳毛麟角。
谷歌在I/O大會(huì)發(fā)布了其第三代TPU,并宣稱其性能比去年的TUP 2.0 提升8倍之多,達(dá)到每秒1000萬(wàn)億次浮點(diǎn)計(jì)算,同時(shí)谷歌展示了其一系列基于TPU的AI應(yīng)用。
可以說(shuō),AI已經(jīng)成為科技行業(yè)除了區(qū)塊鏈之外最熱門的話題。AI芯片作為AI時(shí)代的基礎(chǔ)設(shè)施,也成為目前行業(yè)最熱門的領(lǐng)域。
可以看到,AI芯片已經(jīng)成為資本追逐的最熱門領(lǐng)域,資本對(duì)半導(dǎo)體芯片的熱情被AI技術(shù)徹底點(diǎn)燃。在創(chuàng)業(yè)公司未真正打開市場(chǎng)的情況下,AI芯片初創(chuàng)企業(yè)已經(jīng)誕生了不少的獨(dú)角獸,多筆融資已經(jīng)超過(guò)億元。
AI技術(shù)的革新,其從計(jì)算構(gòu)架到應(yīng)用,都和傳統(tǒng)處理器與算法有巨大的差異,這給創(chuàng)業(yè)者和資本市場(chǎng)無(wú)限的遐想空間,這也是為什么資本和人才對(duì)其趨之若鶩的原因。
首先我們來(lái)分析下目前對(duì)AI芯片的需求主要集中在哪些方面。
先來(lái)講講AI目前芯片大致的分類:從應(yīng)用場(chǎng)景角度看,AI芯片主要有兩個(gè)方向,一個(gè)是在數(shù)據(jù)中心部署的云端,一個(gè)是在消費(fèi)者終端部署的終端。從功能角度看,AI芯片主要做兩個(gè)事情,一是Training(訓(xùn)練),二是Inference(推理)。
目前AI芯片的大規(guī)模應(yīng)用分別在云端和終端。云端的AI芯片同時(shí)做兩個(gè)事情:Training和Inference。Training即用大量標(biāo)記過(guò)的數(shù)據(jù)來(lái)“訓(xùn)練”相應(yīng)的系統(tǒng),使之可以適應(yīng)特定的功能,比如給系統(tǒng)海量的“貓”的圖片,并告訴系統(tǒng)這個(gè)就是“貓”,之后系統(tǒng)就“知道”什么是貓了;Inference即用訓(xùn)練好的系統(tǒng)來(lái)完成任務(wù),接上面的例子,就是你將一張圖給之前訓(xùn)練過(guò)的系統(tǒng),讓他得出這張圖是不是貓這樣的結(jié)論。
Training 和 Inference 在目前大多數(shù)的AI系統(tǒng)中,是相對(duì)獨(dú)立的過(guò)程,其對(duì)計(jì)算能力的要求也不盡相同。
Training需要極高的計(jì)算性能,需要較高的精度,需要能處理海量的數(shù)據(jù),需要有一定的通用性,以便完成各種各樣的學(xué)習(xí)任務(wù)。
對(duì)于芯片廠家來(lái)說(shuō),誰(shuí)有數(shù)據(jù),誰(shuí)贏!
Inference相對(duì)來(lái)說(shuō)對(duì)性能的要求并不高,對(duì)精度要求也要更低,在特定的場(chǎng)景下,對(duì)通用性要求也低,能完成特定任務(wù)即可,但因?yàn)镮nference的結(jié)果直接提供給終端用戶,所以更關(guān)注用戶體驗(yàn)的方面的優(yōu)化。
谷歌TensorFlow團(tuán)隊(duì):深度學(xué)習(xí)的未來(lái),在單片機(jī)的身上
Pete Warden,是谷歌TensorFlow團(tuán)隊(duì)成員,也是TensorFLow Mobile的負(fù)責(zé)人。
Pete 堅(jiān)定地相信,未來(lái)的深度學(xué)習(xí)能夠在微型的、低功耗的芯片上自由地奔跑。
單片機(jī) (MCU) ,有一天會(huì)成為深度學(xué)習(xí)最肥沃的土壤。
為什么是單片機(jī)?單片機(jī)遍地都是
今年一年全球會(huì)有大約400億枚單片機(jī) (MCU) 售出。MCU里面有個(gè)小CPU,RAM只有幾kb的那種,但醫(yī)療設(shè)備、汽車設(shè)備、工業(yè)設(shè)備,還有消費(fèi)級(jí)電子產(chǎn)品里,都用得到。
這樣的計(jì)算機(jī),需要的電量很小,價(jià)格也很便宜,大概不到50美分。
之所以得不到重視,是因?yàn)橐话闱闆r下,MCU都是用來(lái)取代 (如洗衣機(jī)里、遙控器里的) 那些老式的機(jī)電系統(tǒng)——控制機(jī)器用的邏輯沒有發(fā)生什么變化。
CPU和傳感器不太耗電,傳輸耗錢、耗電!CPU和傳感器的功耗,基本可以降到微瓦級(jí),比如高通的Glance視覺芯片。
相比之下,顯示器和無(wú)線電,就尤其耗電了。即便是WiFi和藍(lán)牙也至少要幾十毫瓦。
因?yàn)椋瑪?shù)據(jù)傳輸需要的能量,似乎與傳輸距離成正比。CPU和傳感器只傳幾毫米,如果每個(gè)數(shù)據(jù)都需要端管云這樣傳輸,每個(gè)算法都需要輸送到云端進(jìn)行處理,自然代價(jià)就要貴得多。
傳感器的數(shù)據(jù)很多,傳輸起來(lái)很費(fèi)勁!傳感器能獲取的數(shù)據(jù),比人們能用到的數(shù)據(jù),多得多。例如:衛(wèi)星的圖片數(shù)據(jù)很多,但是傳到地球很困難。
衛(wèi)星或者宇宙飛船上的宇航員可以用高清相機(jī)來(lái)拍高清視頻。但問(wèn)題是,衛(wèi)星的數(shù)據(jù)存儲(chǔ)量很小,傳輸帶寬也很有限,從地球上每小時(shí)只能下載到一點(diǎn)點(diǎn)數(shù)據(jù)。
地球上的很多傳感器也一樣,本地獲得很容易,但是傳輸?shù)竭h(yuǎn)端的數(shù)據(jù)中心就需要很多的代價(jià)。
跟深度學(xué)習(xí)有什么關(guān)系
如果傳感器的數(shù)據(jù)可以在本地運(yùn)算,又不需要很多的代價(jià)和電力。
我們需要的是,能夠在單片機(jī)上運(yùn)轉(zhuǎn)的,不需要很多電量的,依賴計(jì)算不依賴無(wú)線電,并且可以把那些本來(lái)要浪費(fèi)掉的傳感器數(shù)據(jù)利用起來(lái)的。
這也是機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí),需要跨越的鴻溝。
相比之下,神經(jīng)網(wǎng)絡(luò)大部分的時(shí)間,都是用來(lái)把那些很大很大的矩陣乘到一起,翻來(lái)覆去用相同的數(shù)字,只是組合方式不同了。
這樣的運(yùn)算,當(dāng)然比從DRAM里讀取大量的數(shù)值,要低碳得多。
需要的數(shù)據(jù)沒那么多的話,就可以用SRAM這樣低功耗的設(shè)備來(lái)存儲(chǔ)。
如此說(shuō)來(lái),深度學(xué)習(xí)最適合MCU了,尤其是在8位元計(jì)算可以代替浮點(diǎn)運(yùn)算的時(shí)候。
1、深度學(xué)習(xí)很低碳
那么AI的計(jì)算,每次運(yùn)算需要多少皮焦耳?
比如,MobileNetV2的圖像分類網(wǎng)絡(luò)最簡(jiǎn)單的結(jié)構(gòu),大約要用2,200萬(wàn)次運(yùn)算。
如果,每次運(yùn)算要5皮焦,每秒鐘一幀的話,這個(gè)網(wǎng)絡(luò)的功率就是110微瓦,用紐扣電池也能堅(jiān)持近一年。
2、對(duì)傳感器也友好
最近幾年,人們用神經(jīng)網(wǎng)絡(luò)來(lái)處理噪音信號(hào),比如圖像、音頻、加速度計(jì)的數(shù)據(jù)等等。
如果可以在MCU上運(yùn)行神經(jīng)網(wǎng)絡(luò),那么更大量的傳感器數(shù)據(jù)就可以得到處理,而不是浪費(fèi)。
那時(shí),不管是語(yǔ)音交互,還是圖像識(shí)別功能,都會(huì)變得更加輕便。
Training將在很長(zhǎng)一段時(shí)間里集中在云端,Inference的完成目前也主要集中在云端,但隨著越來(lái)越多廠商的努力,很多的應(yīng)用將逐漸轉(zhuǎn)移到終端。
目前的市場(chǎng)情況:云端AI芯片市場(chǎng)已被巨頭瓜分殆盡,創(chuàng)業(yè)公司生存空間幾乎消失。
云端AI芯片無(wú)論是從硬件還是軟件,已經(jīng)被傳統(tǒng)巨頭控制,給新公司預(yù)留的空間極小。不客氣的說(shuō),大多數(shù)AI芯片公司、希望在云端AI做文章的初創(chuàng)公司幾乎最后都得死。
數(shù)據(jù)越多,對(duì)應(yīng)用場(chǎng)景越理解的公司,對(duì)算法、硬件的需求越清楚、越理解深入。
我們可以看到,芯片巨頭Nvidia(英偉達(dá))已經(jīng)牢牢占據(jù)AI芯片榜首,由于CUDA開發(fā)平臺(tái)的普及,英偉達(dá)的GPU是目前應(yīng)用最廣的通用AI硬件計(jì)算平臺(tái)。除了有實(shí)力自研芯片的企業(yè)(全世界也沒幾家),如果需要做AI相關(guān)的工作,必定需要用到Nvidia的芯片。Nvidia的芯片應(yīng)用普遍,現(xiàn)在所有的AI軟件庫(kù)都支持使用CUDA加速,包括谷歌的Tensorflow,F(xiàn)acebook的Caffe,亞馬遜的MXNet等。
除了一騎絕塵的英偉達(dá),其他老牌的芯片巨頭都沒閑著,特別是Intel通過(guò)買、買、買奮力的將自己擠到了頭部玩家的位置。微軟在最新的Build大會(huì)上公布了基于英特爾FPGA的 AI 方案,而英特爾的 FPGA 業(yè)務(wù)正是通過(guò)收購(gòu)Altera獲得的。
除此之外,我們可以看到像Google這樣的互聯(lián)網(wǎng)廠商也亂入了前五。這當(dāng)然要?dú)w功于上面提到的TPU,雖然谷歌不直接售賣芯片,但是谷歌通過(guò)云服務(wù)提供TPU的調(diào)用服務(wù)。谷歌很早就開源了Tensorflow軟件平臺(tái),這使得Tensorflow成為最主流的機(jī)器學(xué)習(xí)軟件平臺(tái),已經(jīng)成了事實(shí)上行業(yè)的軟件平臺(tái)標(biāo)準(zhǔn)。而Tensorflow最佳的計(jì)算環(huán)境必定就是谷歌自己的云服務(wù)了,通過(guò)軟件、硬件(或者說(shuō)云)環(huán)境的打通,谷歌妥妥的成為AI芯片領(lǐng)域的一方霸主。
現(xiàn)在業(yè)界爭(zhēng)論的焦點(diǎn)是AI芯片的處理器架構(gòu)用哪種是最好的,有前面提及的有GPU、FPGA、DSP和ASIC,甚至還有更前沿的腦神經(jīng)形態(tài)芯片。現(xiàn)在GPU可以認(rèn)為是處于優(yōu)勢(shì)地位,但其他幾種的處理器架構(gòu)也各有優(yōu)勢(shì)。Intel則是多方下注,不錯(cuò)過(guò)任何一種處理器架構(gòu)。谷歌在TPU(其實(shí)就是一種ASIC)方面的巨大投入帶來(lái)了硬件效能的極大提高,目前看來(lái)對(duì)GPU的沖擊將是最大的,原因不單單是因?yàn)閷S眉軜?gòu)帶來(lái)的效率優(yōu)勢(shì),還有商業(yè)模式方面帶來(lái)的成本優(yōu)勢(shì)。在半導(dǎo)體行業(yè)內(nèi)的普遍觀點(diǎn)是,一旦AI的算法相對(duì)穩(wěn)定,ASIC肯定是最主流的芯片形態(tài)。看看挖礦芯片的進(jìn)化歷程,這個(gè)觀點(diǎn)非常有說(shuō)服力。
在云端,互聯(lián)網(wǎng)巨頭已經(jīng)成為了事實(shí)上的生態(tài)主導(dǎo)者,因?yàn)?a target="_blank">云計(jì)算本來(lái)就是巨頭的戰(zhàn)場(chǎng),現(xiàn)在所有開源AI框架也都是這些巨頭發(fā)布的。在這樣一個(gè)生態(tài)已經(jīng)固化的環(huán)境中,留給創(chuàng)業(yè)公司的空間實(shí)際已經(jīng)消失。
-
芯片
+關(guān)注
關(guān)注
457文章
51307瀏覽量
427933 -
人工智能
+關(guān)注
關(guān)注
1796文章
47826瀏覽量
240630 -
AI芯片
+關(guān)注
關(guān)注
17文章
1911瀏覽量
35252
原文標(biāo)題:央視報(bào)道《人工智能芯片與傳統(tǒng)芯片的區(qū)別》
文章出處:【微信號(hào):melux_net,微信公眾號(hào):人工智能大趨勢(shì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論