亚洲av男人的另类天堂,国产超高清麻豆精品传媒麻豆精品

張量處理單元（TPU）是一種定制化的 ASIC 芯片，它由谷歌從頭設(shè)計(jì)，并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。TPU 為谷歌的主要產(chǎn)品提供了計(jì)算支持，包括翻譯、照片、搜索助理和 Gmail 等。

在本文中，我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運(yùn)算

在我們對(duì)比 CPU、GPU 和 TPU 之前，我們可以先了解到底機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)需要什么樣的計(jì)算。如下所示，假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識(shí)別手寫數(shù)字。

如果圖像為 28×28 像素的灰度圖，那么它可以轉(zhuǎn)化為包含 784 個(gè)元素的向量。神經(jīng)元會(huì)接收所有 784 個(gè)值，并將它們與參數(shù)值（上圖紅線）相乘，因此才能識(shí)別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征，因而能計(jì)算輸入圖像與「8」之間的相似性：

這是對(duì)神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋，即將數(shù)據(jù)與對(duì)應(yīng)的參數(shù)相乘（上圖兩種顏色的點(diǎn)），并將它們加在一起（上圖右側(cè)收集計(jì)算結(jié)果）。如果我們能得到最高的預(yù)測(cè)值，那么我們會(huì)發(fā)現(xiàn)輸入數(shù)據(jù)與對(duì)應(yīng)參數(shù)非常匹配，這也就最可能是正確的答案。

簡(jiǎn)單而言，神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會(huì)將這些乘法與加法組合為矩陣運(yùn)算，這在我們大學(xué)的線性代數(shù)中會(huì)提到。所以關(guān)鍵點(diǎn)是我們?cè)撊绾慰焖賵?zhí)行大型矩陣運(yùn)算，同時(shí)還需要更小的能耗。

CPU 如何運(yùn)行

因此 CPU 如何來執(zhí)行這樣的大型矩陣運(yùn)算任務(wù)呢？一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器，這意味著 CPU 與軟件和內(nèi)存的運(yùn)行方式如下：

圖：CPU 如何運(yùn)行

CPU 最大的優(yōu)勢(shì)是靈活性。通過馮諾依曼架構(gòu)，我們可以為數(shù)百萬的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是，由于 CPU 非常靈活，硬件無法一直了解下一個(gè)計(jì)算是什么，直到它讀取了軟件的下一個(gè)指令。CPU 必須在內(nèi)部將每次計(jì)算的結(jié)果保存到內(nèi)存中（也被稱為寄存器或 L1 緩存）。內(nèi)存訪問成為 CPU 架構(gòu)的不足，被稱為馮諾依曼瓶頸。

雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運(yùn)算中的每一步都是完全可預(yù)測(cè)的，每一個(gè) CPU 的算術(shù)邏輯單元（ALU，控制乘法器和加法器的組件）都只能一個(gè)接一個(gè)地執(zhí)行它們，每一次都需要訪問內(nèi)存，限制了總體吞吐量，并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量，GPU 使用一種簡(jiǎn)單的策略：在單個(gè)處理器中使用成千上萬個(gè) ALU。現(xiàn)代 GPU 通常在單個(gè)處理器中擁有 2500-5000 個(gè) ALU，意味著你可以同時(shí)執(zhí)行數(shù)千次乘法和加法運(yùn)算。

圖：GPU 如何工作

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好，例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實(shí)際上，相比 CPU，GPU 在深度學(xué)習(xí)的典型訓(xùn)練工作負(fù)載中能實(shí)現(xiàn)高幾個(gè)數(shù)量級(jí)的吞吐量。這正是為什么 GPU 是深度學(xué)習(xí)中最受歡迎的處理器架構(gòu)。

但是，GPU 仍然是一種通用的處理器，必須支持幾百萬種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問題，馮諾依曼瓶頸。在每次幾千個(gè) ALU 的計(jì)算中，GPU 都需要訪問寄存器或共享內(nèi)存來讀取和保存中間計(jì)算結(jié)果。

因?yàn)?GPU 在其 ALU 上執(zhí)行更多的并行計(jì)算，它也會(huì)成比例地耗費(fèi)更多的能量來訪問內(nèi)存，同時(shí)也因?yàn)閺?fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當(dāng)谷歌設(shè)計(jì) TPU 的時(shí)候，我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著，我們沒有設(shè)計(jì)一種通用的處理器，而是專用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。

TPU 不能運(yùn)行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù)，但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運(yùn)算，同時(shí) TPU 的速度非?？臁⒛芎姆浅Ｐ∏椅锢砜臻g占用也更小。

其主要助因是對(duì)馮諾依曼瓶頸的大幅度簡(jiǎn)化。因?yàn)樵撎幚砥鞯闹饕蝿?wù)是矩陣處理，TPU 的硬件設(shè)計(jì)者知道該運(yùn)算過程的每個(gè)步驟。因此他們放置了成千上萬的乘法器和加法器并將它們直接連接起來，以構(gòu)建那些運(yùn)算符的物理矩陣。

這被稱作脈動(dòng)陣列（Systolic Array）架構(gòu)。在 Cloud TPU v2 的例子中，有兩個(gè) 128X128 的脈動(dòng)陣列，在單個(gè)處理器中集成了 32768 個(gè) ALU 的 16 位浮點(diǎn)值。

我們來看看一個(gè)脈動(dòng)陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算。首先，TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

圖：TPU 如何工作

然后，TPU 從內(nèi)存加載數(shù)據(jù)。當(dāng)每個(gè)乘法被執(zhí)行后，其結(jié)果將被傳遞到下一個(gè)乘法器，同時(shí)執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計(jì)算和數(shù)據(jù)傳遞的整個(gè)過程中，不需要執(zhí)行任何的內(nèi)存訪問。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運(yùn)算上達(dá)到高計(jì)算吞吐量，同時(shí)能耗和物理空間都很小。

因此使用 TPU 架構(gòu)的好處就是：成本降低至 1/5。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
456

文章
51243

瀏覽量
427619
cpu

cpu

+關(guān)注

關(guān)注
68

文章
10908

瀏覽量
213110
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6202

瀏覽量
106061

原文標(biāo)題：一文搞懂 CPU、GPU 和 TPU

文章出處：【微信號(hào)：FPGAer_Club，微信公眾號(hào)：FPGAer俱樂部】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

CPU\GPU引領(lǐng)，國(guó)產(chǎn)AI PC進(jìn)階

電子發(fā)燒友網(wǎng)報(bào)道（文/黃晶晶）當(dāng)前AI PC已經(jīng)成為PC產(chǎn)業(yè)的下一個(gè)浪潮，國(guó)產(chǎn)CPU、GPU廠商在PC市場(chǎng)一直處于追趕態(tài)勢(shì)，AI PC給了大

發(fā)表于 09-01 02:15 ?5218次閱讀

$<b class='flag-5'>CPU</b>\<b class='flag-5'>GPU</b>引領(lǐng)，國(guó)產(chǎn)AI PC進(jìn)階$

GPU渲染才是大勢(shì)所趨？CPU渲染與GPU渲染的現(xiàn)狀與未來

在3D建模和渲染領(lǐng)域，隨著技術(shù)的發(fā)展，CPU渲染和GPU渲染這兩種方法逐漸呈現(xiàn)出各自獨(dú)特的優(yōu)勢(shì)，并且在不同的應(yīng)用場(chǎng)景中各有側(cè)重。盡管當(dāng)前我們處在一個(gè)CPU渲染和

發(fā)表于 02-06 11:04 ?73次閱讀

<b class='flag-5'>GPU</b>渲染才是大勢(shì)所趨？<b class='flag-5'>CPU</b>渲染與<b class='flag-5'>GPU</b>渲染的現(xiàn)狀與未來

2024年GPU出貨量增長(zhǎng)顯著，超越CPU

6%的同比增長(zhǎng)，總量超過2.51億顆，這一數(shù)據(jù)不僅彰顯了GPU市場(chǎng)的繁榮，也反映了當(dāng)前市場(chǎng)對(duì)于圖形處理能力的巨大需求。尤為值得一提的是，與同樣作為計(jì)算機(jī)核心部件的CPU相比，

發(fā)表于 01-17 14:12 ?163次閱讀

【一文看懂】大白話解釋“GPU與GPU算力”

隨著大模型的興起，“GPU算力”這個(gè)詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計(jì)等工作場(chǎng)景中，什么是GPU，它與CPU的區(qū)別是什么？以及到底什么是GPU算力？本篇文章主要從以下5個(gè)角度，讓您

發(fā)表于 10-29 08:05 ?1013次閱讀

【<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 第一、二章學(xué)習(xí)感受

常用的機(jī)器學(xué)習(xí)算法，重點(diǎn)剖析了一元線性回歸算法，由此引出機(jī)器學(xué)習(xí)算法的運(yùn)算特征，此后分別描述了使用CPU、GPU、TPU和NPU運(yùn)行機(jī)器學(xué)習(xí)算法的特點(diǎn)，比如

發(fā)表于 10-10 10:36

動(dòng)畫渲染用GPU還是CPU的選擇思路

對(duì)話Imagination中國(guó)區(qū)董事長(zhǎng)：以GPU為支點(diǎn)加強(qiáng)軟硬件協(xié)同，助力數(shù)【白皮書下載】分布式功能安全的創(chuàng)新與突破本文來源：渲染101動(dòng)畫渲染動(dòng)畫渲染是一個(gè)計(jì)算密集型的過程，需要強(qiáng)大的硬件支持

發(fā)表于 09-28 08:05 ?345次閱讀

動(dòng)畫渲染用<b class='flag-5'>GPU</b>還是<b class='flag-5'>CPU</b>的選擇思路

從TPU v1到Trillium TPU，蘋果等科技公司使用谷歌TPU進(jìn)行AI計(jì)算

，在訓(xùn)練尖端人工智能方面，大型科技公司正在尋找英偉達(dá)以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機(jī)器學(xué)習(xí)算法，特別是深度學(xué)習(xí)算法在各個(gè)領(lǐng)域的廣泛應(yīng)用，對(duì)于高效、低功耗的AI計(jì)算硬件需求日益增長(zhǎng)。傳統(tǒng)的CPU和GPU在

發(fā)表于 07-31 01:08 ?3449次閱讀

Arm發(fā)布針對(duì)旗艦智能手機(jī)的新一代CPU和GPU IP

全球領(lǐng)先的芯片設(shè)計(jì)公司Arm宣布了針對(duì)旗艦智能手機(jī)市場(chǎng)的全新CPU和GPU IP設(shè)計(jì)方案——Cortex-X925 CPU和Immortalis G925 GPU。這兩款產(chǎn)品均基于Ar

發(fā)表于 05-31 09:44 ?656次閱讀

CPU渲染和GPU渲染優(yōu)劣分析

使用計(jì)算機(jī)進(jìn)行渲染時(shí)，有兩種流行的系統(tǒng)：基于中央處理單元(CPU)或基于圖形處理單元(GPU)。CPU渲染利用計(jì)算機(jī)的CPU來執(zhí)行場(chǎng)景并將其渲染到接近完美。這也是執(zhí)行渲染的更傳統(tǒng)方式。

發(fā)表于 05-23 08:27 ?717次閱讀

<b class='flag-5'>CPU</b>渲染和<b class='flag-5'>GPU</b>渲染優(yōu)劣分析

GPU/TPU集群網(wǎng)絡(luò)組網(wǎng)間的連接方式

用于連接 GPU 服務(wù)器中的 8 個(gè) GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2022 年的 Hot Chips 大會(huì)上展示了使用 NVswitch 架構(gòu)連接 32 個(gè)

發(fā)表于 04-16 11:43 ?903次閱讀

<b class='flag-5'>GPU</b>/<b class='flag-5'>TPU</b>集群網(wǎng)絡(luò)組網(wǎng)間的連接方式

X-Silicon發(fā)布RISC-V新架構(gòu) 實(shí)現(xiàn)CPU/GPU一體化

X-Silicon 的芯片與其他架構(gòu)不同，其設(shè)計(jì)將 CPU 和 GPU 的功能整合到單核架構(gòu)中。這與英特爾和 AMD 的典型設(shè)計(jì)不同，前者有獨(dú)立的 CPU 內(nèi)核和 GPU 內(nèi)核。

發(fā)表于 04-08 11:34 ?653次閱讀

X-Silicon發(fā)布RISC-V新架構(gòu) 實(shí)現(xiàn)<b class='flag-5'>CPU</b>/<b class='flag-5'>GPU</b><b class='flag-5'>一</b>體化

RISC-V芯片新突破：CPU與GPU一體化核心設(shè)計(jì)

X-Silicon 的芯片與其他架構(gòu)不同，其設(shè)計(jì)將 CPU 和 GPU 的功能結(jié)合到單核架構(gòu)中。這與 Intel 和 AMD 的典型設(shè)計(jì)不同，后者有獨(dú)立的 CPU 核心和 GPU 核心

發(fā)表于 04-07 10:41 ?791次閱讀

RISC-V芯片新突破：<b class='flag-5'>CPU</b>與<b class='flag-5'>GPU</b><b class='flag-5'>一</b>體化核心設(shè)計(jì)

一文詳解GPU硬件與CUDA開發(fā)工具

CPU 和 GPU 的顯著區(qū)別是：一個(gè)典型的 CPU 擁有少數(shù)幾個(gè)快速的計(jì)算核心，而一個(gè)典型的 GPU

發(fā)表于 03-21 10:15 ?1380次閱讀

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動(dòng)，超越了傳統(tǒng)GPU和谷歌TPU。

發(fā)表于 02-26 10:24 ?1234次閱讀

gpu是什么和cpu的區(qū)別

GPU和CPU是兩種常見的計(jì)算機(jī)處理器，它們?cè)诮Y(jié)構(gòu)和功能上有很大的區(qū)別。在這篇文章中，我們將探討GPU和CPU的區(qū)別，并詳細(xì)介紹它們的原理、應(yīng)用領(lǐng)域和性能特點(diǎn)。

發(fā)表于 02-20 11:24 ?1.9w次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

一文搞懂 CPU、GPU 和 TPU