在過(guò)去五年中,英偉達(dá)將其數(shù)據(jù)中心業(yè)務(wù)發(fā)展成為一個(gè)價(jià)值數(shù)十億美元的巨頭,卻從未遇到過(guò)一個(gè)像樣的競(jìng)爭(zhēng)對(duì)手。這是一個(gè)驚人的事實(shí),在我的記憶中,這在當(dāng)今的科技世界是無(wú)與倫比的。這種快速增長(zhǎng)的動(dòng)力主要來(lái)自對(duì)人工智能(AI)和高性能計(jì)算(HPC)的快速GPU芯片的需求。英偉達(dá)首席執(zhí)行官Jensen Huang喜歡談?wù)撋疃葘W(xué)習(xí)領(lǐng)域的“寒武紀(jì)大爆發(fā)”,特別指的是神經(jīng)網(wǎng)絡(luò)算法創(chuàng)新的快速步伐。我們將在第3部分中討論這對(duì)英偉達(dá)的意義,但我選擇借用這個(gè)概念作為本系列的標(biāo)題。我們正處于全球許多大型和小型公司的專業(yè)AI芯片爆發(fā)的門口。三年前,芯片初創(chuàng)企業(yè)幾乎不可能獲得風(fēng)險(xiǎn)投資。而現(xiàn)在,有數(shù)十家資金充足的挑戰(zhàn)者在為人工智能構(gòu)建芯片。
圖1:英偉達(dá)將新型神經(jīng)網(wǎng)絡(luò)的爆炸式發(fā)展比作生命首次出現(xiàn)寒武紀(jì)時(shí)代。
去年,英偉達(dá)和IBM 達(dá)到了計(jì)算的頂峰,他們宣布為世界上最快的超級(jí)計(jì)算機(jī)——美國(guó)能源部橡樹嶺國(guó)家實(shí)驗(yàn)室(ORNL)的Summit超級(jí)計(jì)算機(jī)(約95%的性能歸功于英偉達(dá)的Volta GPU)提供動(dòng)力。盡管這是一項(xiàng)令人難以置信的成就,但許多人開始懷疑,對(duì)于英偉達(dá)來(lái)說(shuō),整個(gè)童話故事能否持續(xù)下去。
圖2:美國(guó)能源部橡樹嶺國(guó)家實(shí)驗(yàn)室的Summit超級(jí)計(jì)算機(jī)是當(dāng)今世界上最快的計(jì)算機(jī)
根據(jù)最新的季度報(bào)告,英偉達(dá)數(shù)據(jù)中心收入同比增長(zhǎng)58%至7.92億美元,占公司總收入的近25%。在過(guò)去4個(gè)季度中,這一數(shù)字總計(jì)為28.6億美元。如果該公司能保持這種增長(zhǎng),到2019年,數(shù)據(jù)中心的收入將達(dá)到45億美元。這聽起來(lái)像天堂,或者至少是地球上的天堂,對(duì)吧?
毫無(wú)疑問(wèn),英偉達(dá)在其強(qiáng)大的可擴(kuò)展架構(gòu)愿景的推動(dòng)下,打造出了卓越的產(chǎn)品。英偉達(dá)現(xiàn)在擁有一個(gè)由軟件、大學(xué)、初創(chuàng)企業(yè)和合作伙伴組成的強(qiáng)大和自我維持的生態(tài)系統(tǒng),這些伙伴使它成為自己創(chuàng)建的新世界的主人。雖然有些人會(huì)認(rèn)為,這一生態(tài)系統(tǒng)創(chuàng)造了一條不可逾越的護(hù)城河,但烏云現(xiàn)在正出現(xiàn)在地平線上。潛在的威脅來(lái)自英特爾、谷歌、AMD以及數(shù)十家美國(guó)和中國(guó)的初創(chuàng)企業(yè),它們都被炙手可熱的人工智能所吸引。
到目前為止,在我看來(lái),競(jìng)爭(zhēng)主要是小打小鬧。競(jìng)爭(zhēng)對(duì)手已經(jīng)發(fā)布了幾十項(xiàng)聲明,但我非常確信,除了谷歌之外,沒有一家公司實(shí)際上從英偉達(dá)的金庫(kù)中獲得了任何收入。讓我們看看目前的競(jìng)爭(zhēng)格局,看看2019年將會(huì)是什么樣子。
大型挑戰(zhàn)者
盡管《***》統(tǒng)計(jì)有40多家初創(chuàng)公司進(jìn)入了這一領(lǐng)域,但讓我們現(xiàn)實(shí)一點(diǎn):只有少數(shù)公司才能真正在這個(gè)市場(chǎng)上取得成功(比如收入超過(guò)10億美元)。在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方面,考慮到英偉達(dá)的產(chǎn)品、安裝基礎(chǔ)和無(wú)處不在的生態(tài)系統(tǒng)的強(qiáng)大,英偉達(dá)很難被擊敗。然而,目前規(guī)模相當(dāng)小的推理市場(chǎng)最終將超過(guò)訓(xùn)練市場(chǎng)的總收入。與訓(xùn)練不同,推理不是單一的市場(chǎng)。它由云端和邊緣的大量數(shù)據(jù)類型和相關(guān)的優(yōu)化深度學(xué)習(xí)算法組成,每種算法都具有特定的性能、功耗和延遲要求。此外,在推理市場(chǎng)中沒有巨無(wú)霸,即使在英偉達(dá)聲稱擁有領(lǐng)導(dǎo)地位的汽車市場(chǎng)也是如此。由于這些原因,推理是大多數(shù)新進(jìn)入者主要或最先關(guān)注的領(lǐng)域。讓我們看看那些正在爭(zhēng)奪席位的大公司。
谷歌
最早證明專用芯片(稱為ASIC,或特定于應(yīng)用的集成電路)可以對(duì)抗更可編程、更通用的用于深度學(xué)習(xí)的GPU的公司之一是谷歌。巧合的是,谷歌可能是英偉達(dá)最大的客戶之一。正如我之前所述,谷歌現(xiàn)在已經(jīng)發(fā)布了四款“Tensor Processing Units”(TPU),這些芯片和電路板可以加速云中的深度學(xué)習(xí)訓(xùn)練和推理處理,最近還用于邊緣云。谷歌的TPU用于訓(xùn)練和處理深度神經(jīng)網(wǎng)絡(luò)的性能相當(dāng)可靠,每塊芯片每秒可提供多達(dá)45萬(wàn)億次操作(TOPS)。相比之下,英偉達(dá)的Volta最高可達(dá)125 TOPS。谷歌最初的兩個(gè)TPU實(shí)際上是供內(nèi)部使用和吹噓的,但Google現(xiàn)在將它們作為一種服務(wù)提供給其在Google Compute Cloud上的云客戶。
盡管TPU無(wú)疑對(duì)谷歌的人工智能舉措起到了推動(dòng)作用,但它們服務(wù)于谷歌內(nèi)部使用案例(當(dāng)然,這是一個(gè)相當(dāng)大的市場(chǎng))之外的市場(chǎng)卻是有意受到限制的。TPU只能用于訓(xùn)練和運(yùn)行谷歌TensorFlow AI框架; 你不能用它來(lái)訓(xùn)練或運(yùn)行用Apache MxNet或PyTorch構(gòu)建的AI(這兩個(gè)是Facebook和微軟支持的快速增長(zhǎng)的AI框架)。它們也不能用于GPU占主導(dǎo)地位的非AI HPC應(yīng)用。此外,你不能購(gòu)買TPU用于企業(yè)或政府?dāng)?shù)據(jù)中心和服務(wù)器中的內(nèi)部計(jì)算。但谷歌并不介意這一切,因?yàn)樗J(rèn)為TPU和TensorFlow對(duì)其人工智能的整體領(lǐng)導(dǎo)地位具有戰(zhàn)略意義。針對(duì)硬件進(jìn)行優(yōu)化的軟件和針對(duì)軟件進(jìn)行優(yōu)化的硬件可以構(gòu)建強(qiáng)大而持久的平臺(tái)。
TPU的更直接的影響可能是驗(yàn)證ASIC概念可以作為GPU的替代方案,至少對(duì)潛在的投資者來(lái)說(shuō)是這樣。一家深度學(xué)習(xí)芯片初創(chuàng)公司的首席執(zhí)行官和我分享了這樣的經(jīng)歷:在谷歌宣布其TPU之后,風(fēng)險(xiǎn)資本開始自由流動(dòng)。他隨后籌集到了數(shù)億美元。
谷歌一直善于從英偉達(dá)在GPU技術(shù)大會(huì)(通常是在3月份)上發(fā)布的可預(yù)測(cè)的聲明中搶得一些風(fēng)頭,我不會(huì)驚訝于看到谷歌今年再次亮相,或許會(huì)帶來(lái)一款性能數(shù)據(jù)引人注目的7納米TPU產(chǎn)品。
亞馬遜網(wǎng)絡(luò)服務(wù)公司(Amazon Web Services)也不甘落后,公司去年秋天宣布,它也正在構(gòu)建一個(gè)用于推理處理的定制ASIC。然而,該芯片仍在開發(fā)中,公司沒有分享任何有關(guān)設(shè)計(jì)或可用性的細(xì)節(jié)。
英特爾
圖3:前Nervana首席執(zhí)行官Naveen Rao領(lǐng)導(dǎo)著英特爾的AI產(chǎn)品開發(fā),并且對(duì)公司的戰(zhàn)略透明化
這變得有點(diǎn)復(fù)雜了,因?yàn)橛⑻貭柺谴蠊?,同時(shí)在做很多工作,雖然英特爾打算在“2019年末”與Nervana芯片競(jìng)爭(zhēng)人工智能訓(xùn)練和推理,但它意識(shí)到,推理將成為一個(gè)更大的市場(chǎng),并有非常強(qiáng)大的影響力。除了Xeon CPU(最近更新后,推理性能得到顯著提升)之外,英特爾還收購(gòu)了MobileEye和Movidius,分別用于汽車和嵌入式推理處理。我看過(guò)這兩種設(shè)備的演示,它們確實(shí)令人印象深刻。英特爾還投資了一個(gè)名為DB2OpenVino的Run-Anywhere軟件棧,它允許開發(fā)人員在任何地方進(jìn)行訓(xùn)練,然后在一切英特爾處理器上進(jìn)行優(yōu)化和運(yùn)行,非常令人驚艷。
在拉斯維加斯舉行的CES會(huì)議上,英特爾透露,它正在與Facebook就Nervana神經(jīng)網(wǎng)絡(luò)處理器(NNP-I)的推理版本密切合作,這令人驚訝,因?yàn)樵S多人預(yù)測(cè)Facebook正在開發(fā)自己的推理加速器。
與此同時(shí),英特爾副總裁兼人工智能產(chǎn)品總經(jīng)理Naveen Rao在Twitter上分享說(shuō),NNP-I將是一個(gè)SOC(片上系統(tǒng)),在英特爾10納米晶圓廠制造,并將包括IceLake x86核心。Rao表示,這將是英特爾未來(lái)的一個(gè)共同主題,可能是指未來(lái)用于臺(tái)式機(jī)和筆記本電腦的X86/GPU芯片,類似于AMD的APU。
在訓(xùn)練方面,英特爾最初的計(jì)劃是在收購(gòu)Nervana一年后的2017年發(fā)布一款名為“Lake Crest”Nervana NNP的產(chǎn)品。然后它拖到了2018年……最終,公司決定重新開始。這不太可能是因?yàn)镹ervana完成的第一部分不好,相反,英特爾意識(shí)到,該器件的性能不足以大幅超過(guò)英偉達(dá)和它添加到Volta和后續(xù)GPU中的TensorCores。我想,當(dāng)英偉達(dá)公布它在7nm工藝上制造的任何令人驚艷的新產(chǎn)品時(shí),我們將再次看到相同劇本的上演,但這有些想太遠(yuǎn)了。
高通和蘋果
為了完整起見,我將這兩家公司包括在內(nèi),因?yàn)樗鼈兌紝W⒂谠?a href="http://www.delux-kingway.cn/v/tag/107/" target="_blank">手機(jī)(以及高通的物聯(lián)網(wǎng)設(shè)備和自動(dòng)駕駛汽車)上提供令人印象深刻的人工智能能力。當(dāng)然,蘋果專注于iPhone的A系列CPU和支持手機(jī)AI的IOS操作系統(tǒng)。隨著手機(jī)成為語(yǔ)音和圖像處理領(lǐng)域的人工智能推理的主導(dǎo)平臺(tái),這兩家公司擁有大量可以用來(lái)確立領(lǐng)導(dǎo)地位的IP(盡管華為也在大力推動(dòng)人工智能,我們將在第2部分介紹)。
AMD
在過(guò)去的三年里,AMD一直在努力讓它的AI的軟件工作室正常運(yùn)轉(zhuǎn)。我2015年在那里工作時(shí),如果不啟動(dòng)Windows,你甚至不能在Linux服務(wù)器上運(yùn)行它的GPU。從那時(shí)起,公司已經(jīng)取得了長(zhǎng)足的進(jìn)步,ROCm軟件和編譯器簡(jiǎn)化了從CUDA的遷移,MlOpen(不要與OpenML混淆)加速了芯片上的數(shù)學(xué)庫(kù)。然而,目前AMD的GPU仍然至少比英偉達(dá)V100的AI版本落后一代,而且V100已經(jīng)接近兩年的歷史了。AMD如何在7 nm上與英偉達(dá) TensorCores競(jìng)爭(zhēng)仍有待觀察。
毫無(wú)疑問(wèn),可編程邏輯器件(FPGA)的領(lǐng)先供應(yīng)商賽靈思在2018年的表現(xiàn)非常出色。除了宣布7nm的下一代架構(gòu)外,它還在微軟、百度、亞馬遜、阿里巴巴、戴姆勒奔馳等公司的設(shè)計(jì)中取得了重大勝利。在人工智能推理處理中,F(xiàn)PGA比ASIC有明顯的優(yōu)勢(shì),因?yàn)樗鼈兛梢詾槭诸^的特定工作動(dòng)態(tài)地重新配置。當(dāng)?shù)讓蛹夹g(shù)正在快速變化時(shí),這一點(diǎn)非常重要,就像人工智能的情況一樣。例如,微軟展示了它的FPGA(現(xiàn)在來(lái)自賽靈思和英特爾)如何在深度神經(jīng)網(wǎng)絡(luò)中對(duì)特定層使用1位、3位或幾乎任何精度的數(shù)學(xué)計(jì)算。這可能就像呆子一樣,但這可以***加快處理速度并減少延遲,同時(shí)使用更少的功率。此外,即將推出的賽靈思7nm芯片稱為Versal,它具有AI和DSP引擎,可加速特定應(yīng)用程序的處理,同時(shí)具有可適配的邏輯陣列。Versal將在今年的某個(gè)時(shí)候開始發(fā)貨,我認(rèn)為它可能會(huì)改變推理處理的游戲規(guī)則。
初創(chuàng)公司
這是關(guān)于人工智能芯片市場(chǎng)狀況,以及2019年將會(huì)發(fā)生什么的三篇文章中的第二篇。今年將是新芯片和基準(zhǔn)之戰(zhàn)的盛宴,領(lǐng)頭的是我在第一篇博客中提到的大公司(英特爾、谷歌、AMD、賽靈思、蘋果、高通),此外,還有數(shù)十家硅谷初創(chuàng)公司和中國(guó)獨(dú)角獸的估值超過(guò)10億美元。在這一節(jié)中,我將介紹西方和中國(guó)最著名的初創(chuàng)公司,或者至少是呼聲最高的初創(chuàng)公司,中國(guó)政府正致力于打造本土的人工智能芯片產(chǎn)業(yè)。我們將從Wave開始,它似乎是第一個(gè)將芯片用于訓(xùn)練的公司。
Wave Computing
Wave Computing經(jīng)歷了一個(gè)多事的2018年,它推出了第一個(gè)數(shù)據(jù)流處理單元,收購(gòu)了MIPS,創(chuàng)建了MIPS Open,并將它的第一個(gè)早期系統(tǒng)交付給了一些幸運(yùn)的客戶。雖然Wave架構(gòu)有一些非常有趣的特性,我將在這里深入探討,但是我們正在等待大規(guī)模實(shí)際工作負(fù)載的客戶體驗(yàn)信息。
Wave不是連接到服務(wù)器的加速器;它是用于圖形計(jì)算的獨(dú)立處理器。這種方法有優(yōu)點(diǎn)也有缺點(diǎn)。從好的方面來(lái)說(shuō),Wave不會(huì)受到GPU等加速器中存在的內(nèi)存瓶頸的影響。從消極的方面來(lái)看,安裝Wave設(shè)備將是一次叉車式升級(jí),需要完全替換傳統(tǒng)的X86服務(wù)器,并且會(huì)成為所有服務(wù)器制造商的競(jìng)爭(zhēng)對(duì)手。
我不期待Wave在單個(gè)節(jié)點(diǎn)上提供優(yōu)于英偉達(dá)的結(jié)果,但是它的架構(gòu)設(shè)計(jì)得很好,而且公司已經(jīng)表示,它應(yīng)該很快就能得到客戶的結(jié)果。
圖1:Wave出貨的系統(tǒng)是根據(jù)從上圖展示的4節(jié)點(diǎn)“DPU”板構(gòu)建的
Graphcore
Graphcore是一家資金雄厚(投資3.1億美元,目前估值為17億美元)的英國(guó)獨(dú)角獸創(chuàng)業(yè)公司,擁有世界一流的團(tuán)隊(duì)。它正在構(gòu)建一種新穎的圖形處理器架構(gòu),其內(nèi)存與其邏輯位于同一芯片上,這將使實(shí)際應(yīng)用具有更高的性能。這個(gè)團(tuán)隊(duì)在很長(zhǎng)一段時(shí)間里一直在挑逗它將要發(fā)布的新產(chǎn)品。去年4月,它“幾乎準(zhǔn)備好上市”,而該公司去年12月的最新信息表明,它將很快開始生產(chǎn)。它的投資者名單頗為引人注目,其中包括紅杉資本、寶馬、微軟、博世和戴爾科技。
我已經(jīng)了解了Graphcore的架構(gòu),它看起來(lái)相當(dāng)引人注目,從邊緣器件擴(kuò)展到用于數(shù)據(jù)中心的訓(xùn)練和推理的“Colossus”雙芯片封裝。在最近的NeurIPS活動(dòng)上,Graphcore展示了它的RackScale IPU Pod,它在一個(gè)有32個(gè)服務(wù)器的機(jī)架上提供了超過(guò)16 petaflp的性能。雖然Graphcore經(jīng)常聲稱它的性能將是同類最佳GPU的100倍以上,但我的計(jì)算結(jié)果與此不同。
Graphcore表示,一個(gè)4“Colossus”GC2(8芯片)服務(wù)器提供500 TFlops(每秒萬(wàn)億次運(yùn)算)的混合精度性能。單個(gè)英偉達(dá)V100可提供125 TFlops,因此從理論上講,4個(gè)V100應(yīng)提供相同的性能。與往常一樣,問(wèn)題在于細(xì)節(jié),只有對(duì)代碼進(jìn)行重構(gòu)以執(zhí)行TensorCore執(zhí)行的4x4矩陣乘法時(shí),V100峰值性能才可用,Graphcore架構(gòu)巧妙地避免了這一限制。更不用說(shuō)V100價(jià)格昂貴,且耗電量高達(dá)300瓦。此外,Graphcore支持片上互連和“處理器內(nèi)存”(片上存儲(chǔ)器)方法,這可能會(huì)帶來(lái)超出TFlops基準(zhǔn)測(cè)試所暗示的優(yōu)秀應(yīng)用性能。在一些神經(jīng)網(wǎng)絡(luò)中,如生成性對(duì)抗網(wǎng)絡(luò)(GAN),內(nèi)存是瓶頸。
再次強(qiáng)調(diào),我們將不得不等待真實(shí)的用戶用實(shí)際應(yīng)用結(jié)果來(lái)評(píng)估此架構(gòu)。盡管如此,Graphcore的投資者名單、專家名冊(cè)和超高的估值告訴我,這可能是一個(gè)好東西。
圖2:GraphCore展示了處理ImageNet數(shù)據(jù)集的這張非??岬膱D片。這種可視化可以幫助開發(fā)人員了解他們的訓(xùn)練處理消耗了處理周期中的哪些部分
Habana Labs
去年9月,以色列初創(chuàng)公司Habana Labs在第一屆人工智能硬件峰會(huì)上宣布,它已準(zhǔn)備好推出第一款用于推理的芯片,并以創(chuàng)紀(jì)錄的性能運(yùn)行卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理,這令許多人感到意外。結(jié)果顯示,在Resnet50圖像分類數(shù)據(jù)庫(kù)中,該處理器每秒分類15,000張圖像,比英偉達(dá)的T4高出約50%,功耗僅為100瓦。2018年12月,Habana Labs的最新一輪融資由英特爾風(fēng)險(xiǎn)投資(Intel Venture Capital)領(lǐng)投,WRV Capital、Bessemer Venture Partners和Battery Ventures跟投,該公司的融資也由此前的4500萬(wàn)美元增加了7500萬(wàn)美元。最近的資金將部分用于其名為“Gaudi”的第二款芯片的流片,該芯片將專注于訓(xùn)練市場(chǎng),據(jù)稱可擴(kuò)展到1000多個(gè)處理器。在這個(gè)競(jìng)爭(zhēng)激烈的領(lǐng)域,Habana Labs表現(xiàn)出很多希望。
其他初創(chuàng)公司
我知道世界上有40多家公司在制造用于人工智能訓(xùn)練和推理的芯片。 我發(fā)現(xiàn)大多數(shù)公司都在做簡(jiǎn)單的FMA(浮點(diǎn)乘法累加)和混合精度數(shù)學(xué)(8位整數(shù),16位和32位浮點(diǎn)數(shù)),我對(duì)此并不驚訝。這種方法相對(duì)容易構(gòu)建,也會(huì)得到一些容易摘到的果實(shí),但與英偉達(dá)、英特爾等大公司以及少數(shù)幾家開發(fā)酷炫架構(gòu)的初創(chuàng)公司(如Wave和GraphCore)相比,這無(wú)法提供持久的架構(gòu)優(yōu)勢(shì)。以下是幾家引起我注意的公司:
Groq:由從事TPU工作的前Google員工創(chuàng)立,有統(tǒng)治世界的雄心。Tenstorrent:加拿大前AMD員工創(chuàng)立,目前仍處于保密階段。我只能說(shuō)其CEO的愿景和架構(gòu)給我留下了深刻的印象。
ThinCi:印度公司,專注于邊緣器件和自動(dòng)駕駛汽車,與三星和Denso建立了合作伙伴關(guān)系。
Cerebras:由包括Andrew Feldman在內(nèi)的前SeaMicro(AMD子公司)員工領(lǐng)導(dǎo),目前仍處于深度“隱身”模式。
Mythic:一家采用獨(dú)特方法進(jìn)行邊緣推理處理的創(chuàng)業(yè)公司,類似于非易失性存儲(chǔ)器上的模擬處理;應(yīng)該在2019年推出芯片。
中國(guó)公司
中國(guó)一直在努力尋找一條擺脫對(duì)美國(guó)半導(dǎo)體依賴的道路,而人工智能加速器可能提供它一直尋求的出口。中國(guó)中央政府制定了2030年建設(shè)萬(wàn)億美元人工智能產(chǎn)業(yè)的目標(biāo),自2012年以來(lái),投資者已經(jīng)向初創(chuàng)公司投入了超過(guò)40億美元。美國(guó)國(guó)會(huì)稱這是一場(chǎng)人工智能軍備競(jìng)賽,由于中國(guó)企業(yè)和研究機(jī)構(gòu)在推動(dòng)創(chuàng)新方面較少考慮阻礙西方進(jìn)步的隱私和倫理問(wèn)題,美國(guó)科技行業(yè)可能會(huì)落后。
Cambricon(寒武紀(jì)科技)和SenseTime(商湯科技)可能是最值得關(guān)注的中國(guó)人工智能公司,但邊緣AI領(lǐng)域Horizon Robotics這樣的公司值得關(guān)注。此外,請(qǐng)密切關(guān)注像百度、華為、騰訊和阿里巴巴這樣的大型互聯(lián)網(wǎng)公司,它們都在人工智能軟件和硬件方面進(jìn)行了大量投資。
寒武紀(jì)科技是一家估值25億美元的中國(guó)獨(dú)角獸公司,已經(jīng)發(fā)布了第三代人工智能芯片。該公司聲稱,在低功耗條件下,它可以比英偉達(dá)V100提供大約30%的性能優(yōu)勢(shì)。寒武紀(jì)科技還向客戶銷售IP,并為華為麒麟970移動(dòng)芯片組提供人工智能硬件。
商湯科技或許是估值最高的人工智能初創(chuàng)公司,它最出名的是在中國(guó)各地推廣智能監(jiān)控?cái)z像頭。這些攝像頭的數(shù)量超過(guò)1.75億臺(tái),其中包括其他公司生產(chǎn)的攝像頭。商湯科技在***成立,最近一輪融資數(shù)額達(dá)6億美元,由阿里巴巴領(lǐng)投。據(jù)多家媒體報(bào)道,這家初創(chuàng)公司目前的估值為45億美元。商湯科技與阿里巴巴、高通、本田、甚至英偉達(dá)等大公司建立了戰(zhàn)略合作伙伴關(guān)系。該公司現(xiàn)在擁有一臺(tái)超級(jí)計(jì)算機(jī),運(yùn)行大約8000個(gè)(可能是英偉達(dá)提供的)GPU,并計(jì)劃再建造5臺(tái)超級(jí)計(jì)算機(jī)來(lái)處理數(shù)百萬(wàn)個(gè)攝像頭采集的面部識(shí)別數(shù)據(jù)。
英偉達(dá)
既然我已經(jīng)震驚了所有持有英偉達(dá)股票的人,并把希望帶給了那些花很多錢購(gòu)買英偉達(dá)GPU的人,那么讓我們現(xiàn)實(shí)地看看英偉達(dá)如何在一個(gè)競(jìng)爭(zhēng)激烈得多的市場(chǎng)中保持其領(lǐng)導(dǎo)地位。我們需要分別研究訓(xùn)練和推理市場(chǎng)。
來(lái)自Nervana的歷史課
首先,讓我們看看英特爾在Nervana方面的經(jīng)驗(yàn)。在被英特爾收購(gòu)之前,Nervana聲稱它的表現(xiàn)將比GPU至少高出10倍。然后,在通往勝利的路上發(fā)生了一件有趣的事情:英偉達(dá)的TensorCores讓每個(gè)人都感到驚訝,它強(qiáng)于Pascal不是2倍,而是5倍。接著,英偉達(dá)又在NVSwitch上加倍努力,構(gòu)建出了性能驚人的8 GPU DGX-2服務(wù)器(售價(jià)40萬(wàn)美元,相當(dāng)昂貴),擊敗了大部分(或許全部)競(jìng)爭(zhēng)對(duì)手。與此同時(shí),英偉達(dá)的CuDNN庫(kù)和驅(qū)動(dòng)程序的性能幾乎翻了一番。它還構(gòu)建了GPU云,使得使用GPU就像單擊和下載優(yōu)化的軟件堆棧容器一樣簡(jiǎn)單,可以用于大約30個(gè)深度學(xué)習(xí)和科學(xué)工作負(fù)載。因此,正如我在之前的文章中所分享的那樣,英特爾承諾的10倍性能優(yōu)勢(shì)消失了,而承諾在2019年末推出一款Nervana新芯片現(xiàn)在不得不回到設(shè)計(jì)階段?;旧希ミ_(dá)證明了,在一個(gè)虛擬車庫(kù)中,有著堅(jiān)實(shí)履歷和技術(shù)儲(chǔ)備的1萬(wàn)多名工程師可以勝過(guò)50名聰明的工程師。任何人都不應(yīng)該感到驚訝,對(duì)吧?
給一萬(wàn)名工程師一個(gè)大沙盒
現(xiàn)在,快到三年到2019年。再一次,競(jìng)爭(zhēng)對(duì)手聲稱他們的芯片有10倍甚至100倍的性能優(yōu)勢(shì),而這一切都還在開發(fā)中。英偉達(dá)仍擁有一萬(wàn)名工程師隊(duì)伍,并與全球頂尖的研究人員和終端用戶保持著技術(shù)合作關(guān)系?,F(xiàn)在,他們都在為英偉達(dá)的下一代7nm芯片獻(xiàn)技,在我看來(lái),這基本上將使該公司的產(chǎn)品從“帶AI的GPU芯片”轉(zhuǎn)變?yōu)椤皫PU的AI芯片”。
圖1:英偉達(dá)的DGX-2超級(jí)計(jì)算機(jī)用連接在NVSwitch上的16 V100 GPU提供了2 peta-ops的AI性能
英偉達(dá)工程師需要為公司的下一代產(chǎn)品添加多少額外的邏輯區(qū)域?雖然下面的分析很簡(jiǎn)單,但它可以有效地構(gòu)建對(duì)這個(gè)關(guān)鍵問(wèn)題的答案。
讓我們從第一款貌似具有出色性能的ASIC開始,即谷歌TPU。我看到分析說(shuō)每個(gè)谷歌TPU芯片大約是2-2.5B個(gè)晶體管。Volta V100在12nm制造工藝中擁有大約21B晶體管。它是臺(tái)積電可以制造的最大芯片。隨著英偉達(dá)從12nm遷移到7nm,芯片可以包含大約1.96(1.4x1.4)倍的晶體管。因此,從理論上講,如果英偉達(dá)不添加任何圖形邏輯(當(dāng)然不太可能),它將會(huì)有另外200億個(gè)晶體管可以使用,大約是整個(gè)Google TPU邏輯量的十倍。假設(shè)我的邏輯部分占去2倍。在這種情況下,英偉達(dá)工程師仍然有5倍的邏輯可用于新AI功能?,F(xiàn)在,所有這一切都假設(shè)英偉達(dá)將全力追求性能,而不去降低成本或電力。不過(guò),在訓(xùn)練市場(chǎng)上,這正是用戶所需要的:縮短訓(xùn)練時(shí)間。關(guān)于英偉達(dá)可能提供什么,有很多想法,包括處理器內(nèi)存和更多版本的tensorcore。
我的觀點(diǎn)是,英偉達(dá)毫無(wú)疑問(wèn)擁有足夠的專業(yè)知識(shí)和可用的芯片空間來(lái)進(jìn)行創(chuàng)新,就像它在tensorcore上所做的那樣。我和許多有趣的AI芯片初創(chuàng)公司談過(guò),但我最尊敬的那些公司告訴我,他們沒有低估英偉達(dá),也不認(rèn)為他們被困在GPU的思維模式中。英偉達(dá)DLA和Xavier,一個(gè)ASIC和一個(gè)SOC,分別證明了英偉達(dá)可以創(chuàng)建各種各樣的加速器,而不僅僅是GPU。因此,這些初創(chuàng)公司的CEO中有許多人決定不采用英偉達(dá)的方式,而是首先關(guān)注推理。
我認(rèn)為英偉達(dá)在訓(xùn)練方面不會(huì)長(zhǎng)期處于劣勢(shì)。它的問(wèn)題可能是芯片成本高,但在訓(xùn)練方面,客戶會(huì)買單。此外,在推理方面,英偉達(dá)的Xavier是一款令人印象深刻的芯片。
寒武紀(jì)大爆發(fā)有益于可編程性
讓我們回到寒武紀(jì)大爆發(fā)的觀點(diǎn)。英偉達(dá)正確地指出,我們正處于算法研究和實(shí)驗(yàn)的早期階段。一個(gè)在處理方面做得很好的ASIC(比如用于圖像處理的卷積神經(jīng)網(wǎng)絡(luò))可能(而且?guī)缀蹩隙〞?huì))在處理方面做得很糟糕(例如,GAN、RNN或尚待發(fā)明的神經(jīng)網(wǎng)絡(luò))。這里是GPU可編程性與英偉達(dá)的研究人員生態(tài)系統(tǒng)相結(jié)合的地方,如果英偉達(dá)能夠解決即將出現(xiàn)的內(nèi)存問(wèn)題,那么GPU可以相當(dāng)快地適應(yīng)一種新的神經(jīng)網(wǎng)絡(luò)處理方式。通過(guò)使用NVLink創(chuàng)建一個(gè)由8個(gè)GPU和256 GB高帶寬(HBM)內(nèi)存組成的網(wǎng)狀結(jié)構(gòu),英偉達(dá)已經(jīng)以高昂的代價(jià)顯著降低了內(nèi)存容量問(wèn)題。我們將不得不等待它的下一代GPU來(lái)了解它是否以及如何解決延遲和帶寬問(wèn)題,這些問(wèn)題需要的內(nèi)存大約是HBM的10倍。
推理戰(zhàn)爭(zhēng)
正如我在本系列的第1部分中所寫的那樣,對(duì)于推理領(lǐng)域,現(xiàn)在不存在巨無(wú)霸,邊緣和數(shù)據(jù)中心推理市場(chǎng)是多樣化的,并準(zhǔn)備快速增長(zhǎng),但我不得不懷疑,從利潤(rùn)率的角度來(lái)看,大規(guī)模推理市場(chǎng)是否會(huì)是一個(gè)特別有吸引力的市場(chǎng)。畢竟,在未來(lái)的大宗商品市場(chǎng)上,由于許多公司都在爭(zhēng)奪注意力和銷量,利潤(rùn)率可能相當(dāng)微薄。有些推理很簡(jiǎn)單,有些則非常困難。后一個(gè)市場(chǎng)將保持較高的利潤(rùn)率,因?yàn)橹挥信鋫淞薈PU、Nervana、GPU、DSP和ASIC等并行處理引擎的復(fù)雜SOC才能提供自動(dòng)駕駛所需的性能。英特爾的Naveen Rao最近在twitter上發(fā)布消息稱,Nervana推理處理器實(shí)際上將是一個(gè)采用Ice Lake CPU內(nèi)核的10nm SOC。英偉達(dá)已經(jīng)率先將Xavier SOC用于自動(dòng)駕駛,而賽靈思也將在今年晚些時(shí)候采用類似的方法把Versal芯片用于自動(dòng)駕駛。任何走在這條道路上的創(chuàng)業(yè)公司都需要有以下兩點(diǎn):a)非常好的“性能/瓦特”值,b)創(chuàng)新路線圖,使他們保持領(lǐng)先于大宗商品。
結(jié)論
總之,我要重申以下幾點(diǎn):
AI的未來(lái)是由專用芯片實(shí)現(xiàn)的,專用芯片的市場(chǎng)將變得巨大。全球最大的幾家芯片公司打算在未來(lái)的人工智能芯片戰(zhàn)爭(zhēng)中獲勝。雖然英特爾正在追趕,但不要低估它的能力。有許多資金充足的初創(chuàng)企業(yè),其中一些將會(huì)成功。如果你想投資一家風(fēng)投支持的公司,請(qǐng)確保他們不會(huì)輕視英偉達(dá)的實(shí)力。
未來(lái)5年,中國(guó)將在很大程度上擺脫對(duì)美國(guó)人工智能技術(shù)的依賴。英偉達(dá)擁有超過(guò)1萬(wàn)名工程師,其下一代用于人工智能的高端GPU可能會(huì)讓我們所有人大吃一驚。推理市場(chǎng)將迅速增長(zhǎng),并將有許多特定于應(yīng)用的器件的空間。FPGA可能在這里發(fā)揮重要作用,特別是賽靈思的下一代FPGA。
顯然,關(guān)于這個(gè)主題有很多內(nèi)容要介紹,而我只是觸及了皮毛!感謝您花時(shí)間閱讀本系列文章,我希望它具有啟發(fā)性和知識(shí)性。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3854瀏覽量
92080 -
AI芯片
+關(guān)注
關(guān)注
17文章
1911瀏覽量
35245
原文標(biāo)題:AI芯片混戰(zhàn),誰(shuí)能挑戰(zhàn)英偉達(dá)?
文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
聚焦AI芯片,角逐芯未來(lái)
transformer專用ASIC芯片Sohu說(shuō)明
![transformer<b class='flag-5'>專用</b>ASIC<b class='flag-5'>芯片</b>Sohu說(shuō)明](https://file1.elecfans.com/web3/M00/04/E6/wKgZPGd7LqeAKsI-AAAqrKQ6Zh4978.png)
恒玄科技研發(fā)AI眼鏡專用芯片
ZDP14x0系列圖像顯示專用驅(qū)動(dòng)芯片的應(yīng)用示例
![ZDP14x0系列圖像顯示<b class='flag-5'>專用</b>驅(qū)動(dòng)<b class='flag-5'>芯片</b>的應(yīng)用示例](https://file1.elecfans.com/web2/M00/01/B5/wKgaomax2X-AFtisAAFifKbj4YE153.png)
AI初創(chuàng)公司Etched獲1.2億美元A輪融資,加速專用AI芯片研發(fā)
![](https://file1.elecfans.com/web2/M00/EB/91/wKgaomZZjwCAN_uBAAymuuihSJQ815.png)
全球AI芯片市場(chǎng)收入預(yù)計(jì)持續(xù)增長(zhǎng)
聯(lián)發(fā)科5G芯片市場(chǎng)領(lǐng)先,AI及車用芯片展現(xiàn)未來(lái)潛力
risc-v多核芯片在AI方面的應(yīng)用
專用集成電路芯片類型是什么
專用集成電路包括驅(qū)動(dòng)芯片嗎為什么
FPGA芯片你了解多少?
專用集成電路技術(shù)應(yīng)用有哪些
![](https://file1.elecfans.com/web2/M00/C5/FA/wKgZomYD8NKAa5cEAAhYhvdFLsw797.png)
評(píng)論