欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文理清CPU、GPU和TPU的關(guān)系

羅欣 ? 來源:Google Cloud ? 作者:Kaz Sato ? 2018-09-04 11:12 ? 次閱讀

很多讀者可能分不清楚 CPU、GPU 和 TPU 之間的區(qū)別,因此 Google Cloud 將在這篇博客中簡要介紹它們之間的區(qū)別,并討論為什么 TPU 能加速深度學(xué)習(xí)。

張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計,并專門用于機器學(xué)習(xí)工作負載。TPU 為谷歌的主要產(chǎn)品提供了計算支持,包括翻譯、照片、搜索助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴展的云計算資源,并為所有在 Google Cloud 上運行尖端 ML 模型的開發(fā)者與數(shù)據(jù)科學(xué)家提供計算資源。在 Google Next’18 中,我們宣布 TPU v2 現(xiàn)在已經(jīng)得到用戶的廣泛使用,包括那些免費試用用戶,而 TPU v3 目前已經(jīng)發(fā)布了內(nèi)部測試版。

第三代 Cloud TPU

如上為 tpudemo.com 截圖,該網(wǎng)站 PPT 解釋了 TPU 的特性與定義。在本文中,我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運算

在我們對比 CPU、GPU 和 TPU 之前,我們可以先了解到底機器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)需要什么樣的計算。如下所示,假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖,那么它可以轉(zhuǎn)化為包含 784 個元素的向量。神經(jīng)元會接收所有 784 個值,并將它們與參數(shù)值(上圖紅線)相乘,因此才能識別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征,因而能計算輸入圖像與「8」之間的相似性:

這是對神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋,即將數(shù)據(jù)與對應(yīng)的參數(shù)相乘(上圖兩種顏色的點),并將它們加在一起(上圖右側(cè)收集計算結(jié)果)。如果我們能得到最高的預(yù)測值,那么我們會發(fā)現(xiàn)輸入數(shù)據(jù)與對應(yīng)參數(shù)非常匹配,這也就最可能是正確的答案。

簡單而言,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運算,這在我們大學(xué)的線性代數(shù)中會提到。所以關(guān)鍵點是我們該如何快速執(zhí)行大型矩陣運算,同時還需要更小的能耗。

CPU 如何運行

因此 CPU 如何來執(zhí)行這樣的大型矩陣運算任務(wù)呢?一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器,這意味著 CPU 與軟件和內(nèi)存的運行方式如下:

CPU 如何運行:該動圖僅展示了概念性原理,并不反映 CPU 的實際運算行為。

CPU 最大的優(yōu)勢是靈活性。通過馮諾依曼架構(gòu),我們可以為數(shù)百萬的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是,由于 CPU 非常靈活,硬件無法一直了解下一個計算是什么,直到它讀取了軟件的下一個指令。CPU 必須在內(nèi)部將每次計算的結(jié)果保存到內(nèi)存中(也被稱為寄存器或 L1 緩存)。內(nèi)存訪問成為 CPU 架構(gòu)的不足,被稱為馮諾依曼瓶頸。雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運算中的每一步都是完全可預(yù)測的,每一個 CPU 的算術(shù)邏輯單元(ALU,控制乘法器和加法器的組件)都只能一個接一個地執(zhí)行它們,每一次都需要訪問內(nèi)存,限制了總體吞吐量,并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量,GPU 使用一種簡單的策略:在單個處理器中使用成千上萬個 ALU?,F(xiàn)代 GPU 通常在單個處理器中擁有 2500-5000 個 ALU,意味著你可以同時執(zhí)行數(shù)千次乘法和加法運算。

GPU 如何工作:這個動畫僅用于概念展示。并不反映真實處理器的實際工作方式。

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好,例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實際上,相比 CPU,GPU 在深度學(xué)習(xí)的典型訓(xùn)練工作負載中能實現(xiàn)高幾個數(shù)量級的吞吐量。這正是為什么 GPU 是深度學(xué)習(xí)中最受歡迎的處理器架構(gòu)。

但是,GPU 仍然是一種通用的處理器,必須支持幾百萬種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問題,馮諾依曼瓶頸。在每次幾千個 ALU 的計算中,GPU 都需要訪問寄存器或共享內(nèi)存來讀取和保存中間計算結(jié)果。因為 GPU 在其 ALU 上執(zhí)行更多的并行計算,它也會成比例地耗費更多的能量來訪問內(nèi)存,同時也因為復(fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當(dāng)谷歌設(shè)計 TPU 的時候,我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著,我們沒有設(shè)計一種通用的處理器,而是專用于神經(jīng)網(wǎng)絡(luò)工作負載的矩陣處理器。TPU 不能運行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù),但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運算,同時 TPU 的速度非??臁⒛芎姆浅P∏椅锢砜臻g占用也更小。

其主要助因是對馮諾依曼瓶頸的大幅度簡化。因為該處理器的主要任務(wù)是矩陣處理,TPU 的硬件設(shè)計者知道該運算過程的每個步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來,以構(gòu)建那些運算符的物理矩陣。這被稱作脈動陣列(Systolic Array)架構(gòu)。在 Cloud TPU v2 的例子中,有兩個 128X128 的脈動陣列,在單個處理器中集成了 32768 個 ALU 的 16 位浮點值。

我們來看看一個脈動陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計算。首先,TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

然后,TPU 從內(nèi)存加載數(shù)據(jù)。當(dāng)每個乘法被執(zhí)行后,其結(jié)果將被傳遞到下一個乘法器,同時執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計算和數(shù)據(jù)傳遞的整個過程中,不需要執(zhí)行任何的內(nèi)存訪問。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運算上達到高計算吞吐量,同時能耗和物理空間都很小。

好處:成本降低至 1/5

因此使用 TPU 架構(gòu)的好處就是:降低成本。以下是截至 2018 年 8 月(寫這篇文章的時候)Cloud TPU v2 的使用價格。

Cloud TPU v2 的價格,截至 2018 年 8 月。

斯坦福大學(xué)發(fā)布了深度學(xué)習(xí)和推理的基準套裝 DAWNBench。你可以在上面找到不同的任務(wù)、模型、計算平臺以及各自的基準結(jié)果的組合。

DAWNBench:https://dawn.cs.stanford.edu/benchmark/

在 DAWNBench 比賽于 2018 年 4 月結(jié)束的時候,非 TPU 處理器的最低訓(xùn)練成本是 72.40 美元(使用現(xiàn)場實例訓(xùn)練 ResNet-50 達到 93% 準確率)。而使用 Cloud TPU v2 搶占式計價,你可以在 12.87 美元的價格完成相同的訓(xùn)練結(jié)果。這僅相當(dāng)于非 TPU 的不到 1/5 的成本。這正是神經(jīng)網(wǎng)絡(luò)領(lǐng)域特定架構(gòu)的威力之所在。

本文來源:Google Cloud Kaz Sato

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10908

    瀏覽量

    213088
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4783

    瀏覽量

    129382
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    20788
收藏 人收藏

    評論

    相關(guān)推薦

    GPU渲染才是大勢所趨?CPU渲染與GPU渲染的現(xiàn)狀與未來

    在3D建模和渲染領(lǐng)域,隨著技術(shù)的發(fā)展,CPU渲染和GPU渲染這兩種方法逐漸呈現(xiàn)出各自獨特的優(yōu)勢,并且在不同的應(yīng)用場景中各有側(cè)重。盡管當(dāng)前我們處在CPU渲染和
    的頭像 發(fā)表于 02-06 11:04 ?72次閱讀
    <b class='flag-5'>GPU</b>渲染才是大勢所趨?<b class='flag-5'>CPU</b>渲染與<b class='flag-5'>GPU</b>渲染的現(xiàn)狀與未來

    文理解多模態(tài)大語言模型——下

    /understanding-multimodal-llms ? 《文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型,以及構(gòu)建多模態(tài) LLM 有兩種主要方式之:統(tǒng)嵌入
    的頭像 發(fā)表于 12-03 15:18 ?216次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文理</b>解多模態(tài)大語言模型——下

    看懂】大白話解釋“GPUGPU算力”

    隨著大模型的興起,“GPU算力”這個詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計等工作場景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是GPU算力?本篇文章主要從以下5個角度,讓您
    的頭像 發(fā)表于 10-29 08:05 ?1005次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 第、二章學(xué)習(xí)感受

    常用的機器學(xué)習(xí)算法,重點剖析了元線性回歸算法,由此引出機器學(xué)習(xí)算法的運算特征,此后分別描述了使用CPU、GPUTPU和NPU運行機器學(xué)習(xí)算法的特點,比如
    發(fā)表于 10-10 10:36

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    ,在訓(xùn)練尖端人工智能方面,大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學(xué)習(xí)算法,特別是深度學(xué)習(xí)算法在各個領(lǐng)域的廣泛應(yīng)用,對于高效、低功耗的AI計算硬件需求日益增長。傳統(tǒng)的CPUGPU
    的頭像 發(fā)表于 07-31 01:08 ?3447次閱讀

    Arm發(fā)布針對旗艦智能手機的新CPUGPU IP

    全球領(lǐng)先的芯片設(shè)計公司Arm宣布了針對旗艦智能手機市場的全新CPUGPU IP設(shè)計方案——Cortex-X925 CPU和Immortalis G925 GPU。這兩款產(chǎn)品均基于Ar
    的頭像 發(fā)表于 05-31 09:44 ?656次閱讀

    CPU渲染和GPU渲染優(yōu)劣分析

    使用計算機進行渲染時,有兩種流行的系統(tǒng):基于中央處理單元(CPU)或基于圖形處理單元(GPU)。CPU渲染利用計算機的CPU來執(zhí)行場景并將其渲染到接近完美。這也是執(zhí)行渲染的更傳統(tǒng)方式。
    的頭像 發(fā)表于 05-23 08:27 ?713次閱讀
    <b class='flag-5'>CPU</b>渲染和<b class='flag-5'>GPU</b>渲染優(yōu)劣分析

    看懂DPU與CPU、GPU關(guān)系

    獨立供電的智能網(wǎng)卡,需要考慮網(wǎng)卡狀態(tài)與計算服務(wù)之間低層信號識 別,在計算系統(tǒng)啟動的過程中或者啟動之后,智能網(wǎng)卡是否已經(jīng)是進入服務(wù)狀 態(tài),這些都需要探索和解決。
    發(fā)表于 04-26 10:35 ?1.7w次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>看懂DPU與<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>的<b class='flag-5'>關(guān)系</b>

    X-Silicon發(fā)布RISC-V新架構(gòu) 實現(xiàn)CPU/GPU體化

    X-Silicon 的芯片與其他架構(gòu)不同,其設(shè)計將 CPUGPU 的功能整合到單核架構(gòu)中。這與英特爾和 AMD 的典型設(shè)計不同,前者有獨立的 CPU 內(nèi)核和 GPU 內(nèi)核。
    發(fā)表于 04-08 11:34 ?648次閱讀
    X-Silicon發(fā)布RISC-V新架構(gòu) 實現(xiàn)<b class='flag-5'>CPU</b>/<b class='flag-5'>GPU</b><b class='flag-5'>一</b>體化

    RISC-V芯片新突破:CPUGPU體化核心設(shè)計

    X-Silicon 的芯片與其他架構(gòu)不同,其設(shè)計將 CPUGPU 的功能結(jié)合到單核架構(gòu)中。這與 Intel 和 AMD 的典型設(shè)計不同,后者有獨立的 CPU 核心和 GPU 核心
    發(fā)表于 04-07 10:41 ?791次閱讀
    RISC-V芯片新突破:<b class='flag-5'>CPU</b>與<b class='flag-5'>GPU</b><b class='flag-5'>一</b>體化核心設(shè)計

    掌握AI大模型算力的核心要素

    GPU和顯卡的關(guān)系,就像是CPU和主板的關(guān)系。前者是顯卡的心臟,后者是主板的心臟。有些小伙伴會把GPU和顯卡當(dāng)成
    發(fā)表于 03-29 11:44 ?1322次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>掌握AI大模型算力的核心要素

    交換機cpu和交換芯片的關(guān)系

    交換機CPU和交換芯片在網(wǎng)絡(luò)設(shè)備中共同工作,它們之間的關(guān)系可以類比為大腦與肌肉的關(guān)系CPU負責(zé)決策和控制,而交換芯片負責(zé)執(zhí)行這些決策的物理操作。
    的頭像 發(fā)表于 03-22 16:34 ?1299次閱讀

    詳解GPU硬件與CUDA開發(fā)工具

    CPUGPU 的顯著區(qū)別是:個典型的 CPU 擁有少數(shù)幾個快速的計算核心,而個典型的 GPU
    的頭像 發(fā)表于 03-21 10:15 ?1376次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>詳解<b class='flag-5'>GPU</b>硬件與CUDA開發(fā)工具

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?1231次閱讀
    Groq推出大模型推理芯片 超越了傳統(tǒng)<b class='flag-5'>GPU</b>和谷歌<b class='flag-5'>TPU</b>

    gpu是什么和cpu的區(qū)別

    GPUCPU是兩種常見的計算機處理器,它們在結(jié)構(gòu)和功能上有很大的區(qū)別。在這篇文章中,我們將探討GPUCPU的區(qū)別,并詳細介紹它們的原理、應(yīng)用領(lǐng)域和性能特點。
    的頭像 發(fā)表于 02-20 11:24 ?1.9w次閱讀