? 從廣義上講,能運行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執(zhí)行AI算法,但在執(zhí)行效率層面上有巨大的差異。CPU可以快速執(zhí)行復(fù)雜的數(shù)學計算,但同時執(zhí)行多項任務(wù)時,CPU性能開始下降,目前行業(yè)內(nèi)基本確認CPU不適用于AI計算。
CPU+xPU的異構(gòu)方案成為大算力場景標配,GPU為應(yīng)用最廣泛的AI芯片。目前業(yè)內(nèi)廣泛認同的AI芯片類型包括GPU、FPGA、NPU等。由于CPU負責對計算機的硬件資源進行控制調(diào)配,也要負責操作系統(tǒng)的運行,在現(xiàn)代計算系統(tǒng)中仍是不可或缺的。GPU、FPGA等芯片都是作為CPU的加速器而存在,因此目前主流的AI計算系統(tǒng)均為CPU+xPU的異構(gòu)并行。CPU+GPU是目前最流行的異構(gòu)計算系統(tǒng),在HPC、圖形圖像處理以及AI訓練/推理等場景為主流選擇。IDC數(shù)據(jù)顯示,2021年中國AI芯片市場中,GPU市占率為89%。
NPU 在人工智能算法上具有較高的運行效率。為了適應(yīng)某個特定領(lǐng)域中的常見的應(yīng)用和算法而設(shè)計,通常稱之為“特定域架構(gòu)(Domain Specific Architecture,DSA)”芯片,NPU(神經(jīng)網(wǎng)絡(luò)處理器)屬于其中一種,常被設(shè)計用于神經(jīng)網(wǎng)絡(luò)運算的加速。以華為手機 SoC 麒麟 970 為例,NPU 對圖像識別神經(jīng)網(wǎng)絡(luò)的運算起到了顯著加速效果,使其圖像識別速度明顯優(yōu)于同代競品的表現(xiàn)。
目前已量產(chǎn)的 NPU 或搭載 NPU 模塊的芯片眾多,其他知名的芯片包括谷歌 TPU、華為昇騰、特斯拉 FSD、特斯拉 Dojo 等。各家廠商在計算核心的設(shè)計上有其差異,例如谷歌 TPU 的脈動陣列,華為昇騰的達芬奇架構(gòu)。
以谷歌 TPU 及計算核心結(jié)構(gòu)脈動陣列為例,對比其相較于 CPU、GPU 的區(qū)別:
CPU 和 GPU 均具有通用性,但以頻繁的內(nèi)存訪問導(dǎo)致資源消耗為代價。CPU 和 GPU 都是通用處理器,可以支持數(shù)百萬種不同的應(yīng)用程序和軟件。對于 ALU 中的每一次計算,CPU、GPU 都需要訪問寄存器或緩存來讀取和存儲中間計算結(jié)果。由于數(shù)據(jù)存取的速度往往大大低于數(shù)據(jù)處理的速度,頻繁的內(nèi)存訪問,限制了總吞吐量并消耗大量能源。
谷歌 TPU 并非通用處理器,而是將其設(shè)計為專門用于神經(jīng)網(wǎng)絡(luò)工作負載的矩陣處理器。TPU 不能運行文字處理器、控制火箭引擎或執(zhí)行銀行交易,但它們可以處理神經(jīng)網(wǎng)絡(luò)的大量乘法和加法,速度極快,同時消耗更少的能量,占用更小的物理空間。TPU 內(nèi)部設(shè)計了由乘法器和加法器構(gòu)成的脈動陣列。在計算時,TPU 將內(nèi)存中的參數(shù)加載到乘法器和加法器矩陣中,每次乘法執(zhí)行時,結(jié)果將傳遞給下一個乘法器,同時進行求和。所以輸出將是數(shù)據(jù)和參數(shù)之間所有乘法結(jié)果的總和。在整個海量計算和數(shù)據(jù)傳遞過程中,完全不需要訪問內(nèi)存。這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)計算上以低得多的功耗和更小的占用空間實現(xiàn)高計算吞吐量。
脈動陣列本質(zhì)上是在硬件層面多次重用輸入數(shù)據(jù),在消耗較小的內(nèi)存帶寬的情況下實現(xiàn)較高的運算吞吐率。
脈動陣列結(jié)構(gòu)簡單,實現(xiàn)成本低,但它靈活性較差,只適合特定運算。然而,AI 神經(jīng)網(wǎng)絡(luò)需要大量卷積運算,卷積運算又通過矩陣乘加實現(xiàn),正是脈動陣列所適合的特定運算類型。脈動陣列理論最早在 1982 年提出,自谷歌 2017 年首次將其應(yīng)用于 AI 芯片 TPU 中,這項沉寂多年的技術(shù)重回大眾視野,多家公司也加入了脈動陣列行列,在自家加速硬件中集成了脈動陣列單元。
NPU 已經(jīng)在 AI 運算加速領(lǐng)域獲得了廣泛應(yīng)用。在數(shù)據(jù)中心獲得大規(guī)模應(yīng)用的 NPU 案例即 TPU,已被谷歌用于構(gòu)建數(shù)據(jù)中心的超級計算機,執(zhí)行特定神經(jīng)網(wǎng)絡(luò)的訓練任務(wù)。在用戶端,手機、汽車、智能安防攝像頭等設(shè)備開始搭載 AI 計算功能,通常是利用訓練好的神經(jīng)網(wǎng)絡(luò)模型執(zhí)行圖像處理等工作,此時 NPU 通用性差的劣勢被縮小,高算力、高能耗比的優(yōu)勢被放大,因而得到了廣泛的應(yīng)用。在終端設(shè)備中,NPU 常以模塊的形式包含在 SoC 內(nèi)部,對 AI 運算進行加速,例如特斯拉自動駕駛芯片 FSD 均包含 NPU。
模型訓練需要規(guī)?;乃懔π酒渴鹩谥悄芊?wù)器,CPU 不可或缺,但性能提升遭遇瓶頸,CPU+xPU 異構(gòu)方案成為大算力場景標配。其中 GPU 并行計算優(yōu)勢明顯,CPU+GPU 成為目前最流行的異構(gòu)計算系統(tǒng),而NPU 在特定場景下的性能、效率優(yōu)勢明顯,推理端應(yīng)用潛力巨大,隨著大模型多模態(tài)發(fā)展,硬件需求有望從GPU 擴展至周邊編解碼硬件。AI 加速芯片市場上,英偉達憑借其硬件產(chǎn)品性能的先進性和生態(tài)構(gòu)建的完善性處于市場領(lǐng)導(dǎo)地位,在訓練、推理端均占據(jù)領(lǐng)先地位。根據(jù) Liftr Insights 數(shù)據(jù),2022 年數(shù)據(jù)中心AI 加速市場中,英偉達份額達82%。
編輯:黃飛
-
cpu
+關(guān)注
關(guān)注
68文章
10908瀏覽量
213087 -
gpu
+關(guān)注
關(guān)注
28文章
4783瀏覽量
129382 -
AI芯片
+關(guān)注
關(guān)注
17文章
1908瀏覽量
35229 -
xpu
+關(guān)注
關(guān)注
0文章
10瀏覽量
8002
原文標題:AI芯片第二極:xPU性能、技術(shù)全方位分析
文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
AI芯片 CPU+xPU的異構(gòu)方案全面解析
![AI芯片 <b class='flag-5'>CPU+xPU</b>的<b class='flag-5'>異構(gòu)</b><b class='flag-5'>方案</b>全面<b class='flag-5'>解析</b>](https://file1.elecfans.com/web2/M00/94/3B/wKgaomTkGh-AI8MCAAAY1QGavNE500.png)
評論