當(dāng)谷歌宣布其第二代專用集成電路來加速公司的機器學(xué)習(xí)處理時,筆者的電話開始響個不停,問這對半導(dǎo)體行業(yè)的潛在影響。世界上最大的數(shù)據(jù)中心“Super7”的其它成員是否都急于為AI制造自己的芯片?這對AI芯片和平臺的領(lǐng)先供應(yīng)商NVIDIA、AMD、Intel等其它公司以及許多希望進入這個利潤豐厚市場的初創(chuàng)公司有何影響?當(dāng)GPU和FPGA開始看起來如此有前途的時候,它們的游戲結(jié)束了嗎?為了回答這些問題,讓我們進入這些互聯(lián)網(wǎng)巨頭的頭腦,看看他們可能在計劃什么。
AI的硅景觀
正如筆者在今年早些時候的一篇文章中所探討的,有四種主要類型的技術(shù)可用于加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和使用:CPU、GPU、FPGA和ASIC。老式備用CPU具有無限可編程的優(yōu)勢,性能不錯,但不是很出色。它主要用于推理工作負載,其中訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)引導(dǎo)計算對輸入數(shù)據(jù)項做出準確的預(yù)測。另一方面,Intel和Xilinx的FPGA在極低功耗下提供出色的性能,但也提供了更大的靈活性,允許設(shè)計人員更改底層硬件以最好地支持不斷變化的軟件。FPGA主要用于機器學(xué)習(xí)推理,視頻算法和成千上萬的小批量專用應(yīng)用。然而,編程FPGA硬件所需的技能很難獲得,并且FPGA的性能在某些工作負載下無法接近高端GPU的性能。
如今,機器學(xué)習(xí)、訓(xùn)練和推理、云和邊緣都使用了許多類型的硬件加速器。從技術(shù)上講,GPU是一種用于處理圖形算法的ASIC。不同之處在于,ASIC提供指令集和庫,允許對GPU進行編程,以對本地存儲的數(shù)據(jù)進行操作,作為許多并行算法的加速器。GPU擅長執(zhí)行矩陣運算(主要是矩陣乘法),這是圖形、AI和許多科學(xué)算法的基礎(chǔ)?;旧?,GPU是非常快速和相對靈活的。
另一種選擇是設(shè)計一個專用于執(zhí)行固定操作的定制ASIC,因為整個芯片的邏輯區(qū)域可以專用于一組特定功能。在谷歌TPU的情況下,它們可以很好地實現(xiàn)高度并行,而處理神經(jīng)網(wǎng)絡(luò)是一種“令人尷尬的并行”工作負載。把ASIC想象成一輛飆車;它可以跑得很快,但它只能載一個人直線行駛四分之一英里。你不能開著它繞著街區(qū)轉(zhuǎn),也不能開著它在橢圓形跑道上跑。
這里有一個問題:設(shè)計ASIC可能是一項昂貴的工作,耗資數(shù)千萬甚至數(shù)億美元,需要一個相當(dāng)昂貴的工程師團隊。支付所有這些開發(fā)費用意味著需要成千上萬的芯片在設(shè)計的使用壽命(通常是2-3年)內(nèi)攤銷這些費用。此外,芯片需要經(jīng)常更新,以跟上新技術(shù)和制造工藝的步伐。最后,由于設(shè)計師在開發(fā)過程的早期就凍結(jié)了邏輯,當(dāng)新想法出現(xiàn)在快速發(fā)展的領(lǐng)域(如AI)時,他們將無法快速做出反應(yīng)。另一方面,F(xiàn)PGA(在一定程度上甚至是GPU)可以重新編程以實現(xiàn)新功能。
谷歌為什么要制造TPU?
如果仔細想想谷歌的業(yè)務(wù),就會發(fā)現(xiàn)它有三個特點,很可能促使它投資于AI定制芯片。檢查這些因素可能有助于評估其它公司進行類似投資的潛在可能性。
戰(zhàn)略意圖
谷歌曾多次表示要成為一家“AI First”的公司。換句話說,AI技術(shù)在整個業(yè)務(wù)中發(fā)揮著戰(zhàn)略作用:搜索、自動駕駛汽車、谷歌云、谷歌家庭,以及許多其它新的和現(xiàn)有的產(chǎn)品及服務(wù)。因此,谷歌想要控制自己的硬件(TPU)加速器和自己的軟件框架(TensorFlow)是有道理的,他們將在這些框架上構(gòu)建自己的產(chǎn)品和服務(wù)。該公司愿意投資,以使自己比其它擁有類似抱負的公司更有優(yōu)勢。
所需規(guī)模
谷歌的計算基礎(chǔ)設(shè)施是世界上最大的,這種規(guī)模意味著它可能擁有所需的容量,以證明開發(fā)和維護自己的AI加速硬件平臺的巨大成本是合理的。事實上,谷歌聲稱TPU使公司不必再建造12個數(shù)據(jù)中心來處理AI負載。
讓我們做一些敏感性分析,以了解單個ASIC周期所需的可能規(guī)模。為了便于討論,假設(shè)谷歌花費了1億美元,包括掩模生產(chǎn),每個芯片將為他們節(jié)省大約1K美元。作為參考,一個45 TFLOPS的單個Cloud TPU芯片可能比NVIDIA Volta GPU在峰值120 TFLOPS時的性能略高1/3,所以需要3個TPU芯片來取代一個高端GPU。這意味著谷歌部署100K的TPU,大概可以實現(xiàn)收支平衡(不考慮資金的時間價值)。
這對大多數(shù)公司來說都是很大的籌碼,即使對谷歌來說也是如此。另一方面,如果開發(fā)芯片和TPU板只需要6000萬美元,每個芯片節(jié)省2K美元,那么他們只需要30K芯片就可以實現(xiàn)收支平衡。因此,大型數(shù)據(jù)中心可能需要30-100K的芯片,才能在2-3年的時間內(nèi)實現(xiàn)收支平衡。
谷歌云計算的重要性
谷歌的高管們不能滿足于在全球云計算市場上落后于亞馬遜和微軟。在Diane Greene的領(lǐng)導(dǎo)下,他們在谷歌云上投入了大量資金,現(xiàn)在正在享受行業(yè)中最快的增長。谷歌可以利用谷歌云TPU的定價權(quán)和性能,以及TensorFlow的普及,在云計算機器學(xué)習(xí)發(fā)展中占據(jù)市場份額時發(fā)揮潛在顯著優(yōu)勢。然而,谷歌表示,使用他們的云TPU的價格將與高端GPU的云訪問價格相當(dāng)。谷歌并不打算直接出售TPU。
還有誰像谷歌?
坦率地說,雖然所有其它Super 7成員(亞馬遜、阿里巴巴、百度、Facebook、微軟和騰訊)都有能力建立自己的加速器,但沒有人能像百度那樣在這三個方面都表現(xiàn)得如此出色。此外,在實際接近的公司中,有幾家似乎正在朝著不同的方向發(fā)展:
百度最近公開表示,它正在與英偉達合作,在云、家庭和汽車領(lǐng)域開展AI計劃。這并不意味著百度有朝一日不能也不會制造自己的芯片,但就目前而言,該公司似乎滿足于專注于自己的軟件和服務(wù)。此外,百度的云業(yè)務(wù)仍然是其業(yè)務(wù)中相對較小的一部分。
微軟是第二大云服務(wù)提供商,擁有大量(5000名)穩(wěn)定的AI工程師,并致力于通過其面向企業(yè)客戶的工具和API使AI“民主化”。然而,該公司已經(jīng)決定(至少目前)在Azure和Bing基礎(chǔ)設(shè)施中使用英特爾的Altera FPGA,相信在快速變化的世界中,它可以從更靈活的硬件平臺中受益。此外,微軟使用NVIDIA的GPU來訓(xùn)練其神經(jīng)網(wǎng)絡(luò)。
亞馬遜可能是最接近上述谷歌模式的。AWS規(guī)模龐大,該公司正在大力投資AI。雖然亞馬遜可能傾向于使用Apache MXNet框架進行AI開發(fā),但它的AWSAI云服務(wù)支持所有主要框架,使其成為AI開發(fā)領(lǐng)域的開放軟件。此外,以英偉達為基礎(chǔ)的Ying和以TPU為中心的Yang可能是一個有效的策略。亞馬遜以前也走過ASIC的道路;為了削減AWS基礎(chǔ)設(shè)施的成本和延遲,它在2012年收購了Ana Purna Labs。目前,該公司已經(jīng)在以色列有了一個芯片團隊。最后,像百度一樣,亞馬遜似乎熱衷于使用FPGA,因為它們具有可編程的特性。
結(jié)論
筆者并不是在預(yù)測其它的Super 7公司都不會跳出GPU這條船,跳上自己的ASIC,但在筆者看來,很多公司都不太可能這么做——至少不會很快。
他們似乎都在用大量的數(shù)據(jù)開發(fā)機器學(xué)習(xí)模型,并忙于將這些模型應(yīng)用于各種產(chǎn)品和服務(wù)中。構(gòu)建ASIC和支持它的軟件是一個持續(xù)且昂貴的提議,可能會分散注意力?;蛘撸瑢⒂糜谟?xùn)練的GPU的性能與用于推理的FPGA的靈活性和效率相結(jié)合,也有很大的希望。所以筆者個人并不認為GPU的天要塌下來了,至少在不久的將來不會。AMD當(dāng)然相信對GPU有很大的需求,并將他們的Vega技術(shù)瞄準了這一點。
原文鏈接:
https://moorinsightsstrategy.com/will-asic-chips-become-the-next-big-thing-in-ai/
-
asic
+關(guān)注
關(guān)注
34文章
1206瀏覽量
120831 -
AI
+關(guān)注
關(guān)注
87文章
31770瀏覽量
270552
原文標題:ASIC芯片會成為AI的下一件大事嗎?
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論