欧美一区二区三区在线极品,久久久久久精品成人免费

隨著 AI 的爆炸式增長，人們開始高度關(guān)注能夠提供 AI 所需性能的新型專用推理引擎。因此，在過去的六個(gè)月里，我們看到了一系列神經(jīng)推理硬件的發(fā)布，所有這些都有望提供比市場上任何其他產(chǎn)品更好的加速。然而，挑戰(zhàn)在于沒有人真正知道如何從另一個(gè)衡量一個(gè)。這是一項(xiàng)新技術(shù)，像任何新技術(shù)一樣，我們需要指標(biāo)，我們需要真正重要的指標(biāo)。

一切都與吞吐量有關(guān)

當(dāng)推理引擎的性能出現(xiàn)時(shí)，供應(yīng)商會拋出基準(zhǔn)測試，引用TOPS（Tera-Operations/second）性能和TOPS/Watt等內(nèi)容。研究這些數(shù)字的系統(tǒng)/芯片設(shè)計(jì)人員很快意識到這些數(shù)字通常毫無意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過程以及 PVT（過程/電壓/溫度）條件提供多少吞吐量。這是衡量其性能的第一標(biāo)準(zhǔn)，但令人驚訝的是，很少有供應(yīng)商提供它。

TOPS最大的問題是，當(dāng)一家公司說他們的發(fā)動(dòng)機(jī)做X TOPS時(shí)，他們通常會引用這個(gè)而不說明條件是什么。在不知道這些信息的情況下，他們錯(cuò)誤地認(rèn)為X TOPS意味著它可以執(zhí)行X萬億次操作。實(shí)際上，報(bào)價(jià) 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個(gè)正在使用但不太常見的基準(zhǔn)測試是ResNet-50。這個(gè)基準(zhǔn)的問題在于，大多數(shù)引用它的公司都沒有給出批量大小。當(dāng)他們不提供這一點(diǎn)時(shí)，芯片設(shè)計(jì)人員可以假設(shè)這將是一個(gè)大批量大小，以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準(zhǔn)測試不是很有幫助。相比之下，例如，YOLOv3 需要 100 倍以上的操作來處理 200 萬像素的圖像。硬件利用率在“現(xiàn)實(shí)世界”模型上將面臨更大的挑戰(zhàn)。

如何正確測量神經(jīng)推理引擎

在評估神經(jīng)推理引擎時(shí)，有幾個(gè)關(guān)鍵事項(xiàng)需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作：一些供應(yīng)商將乘法（通常為 INT 8 乘以 INT 8）計(jì)為一個(gè)運(yùn)算，將累加（加法，通常為 INT 32）計(jì)為一個(gè)運(yùn)算。因此，單個(gè)乘法累加等于 2 個(gè)運(yùn)算。但是，一些供應(yīng)商在其TOPS規(guī)范中包含其他類型的操作，因此必須在開始時(shí)進(jìn)行澄清。

詢問操作條件是什么：如果供應(yīng)商在沒有提供條件的情況下給出 TOPS，他們通常使用室溫、標(biāo)稱電壓和典型工藝。通常他們會提到他們指的是哪個(gè)工藝節(jié)點(diǎn)，但不同供應(yīng)商的運(yùn)行速度不同，大多數(shù)工藝都提供 2、3 或更高的標(biāo)稱電壓。由于性能是頻率的函數(shù)，而頻率是電壓的函數(shù)，因此芯片設(shè)計(jì)人員在0.9V下可以獲得比0.6V時(shí)兩倍以上的性能。頻率因條件/假設(shè)而異。有關(guān)此方面的更多信息，請參閱本應(yīng)用筆記。

查看批量大?。杭词构?yīng)商提供了最壞情況的TOPS，芯片設(shè)計(jì)人員也需要弄清楚所有這些操作是否真的有助于計(jì)算他們的神經(jīng)網(wǎng)絡(luò)模型。實(shí)際上，實(shí)際利用率可能非常低，因?yàn)闆]有推理引擎始終對所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權(quán)重并同時(shí)處理多個(gè)數(shù)據(jù)集。這樣做的原因是提高吞吐量，但放棄的是更長的延遲。ResNet-50 有超過 2000 萬個(gè)權(quán)重;YOLOv3 有超過 6000 萬個(gè)權(quán)重;并且必須獲取每個(gè)權(quán)重并將其加載到每個(gè)圖像的MAC結(jié)構(gòu)中。有太多的權(quán)重，無法將它們?nèi)狂v留在 MAC 結(jié)構(gòu)中。

查找您的 MAC 利用率：并非所有神經(jīng)網(wǎng)絡(luò)的行為都相同。您需要以所需的批大小找出要部署的神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)推理引擎的實(shí)際 MAC 利用率。

深入了解 TOPS

如果你是一個(gè)正在研究神經(jīng)推理引擎的設(shè)計(jì)師，希望這篇文章能闡明要尋找什么。請記住，吞吐量才是最重要的。重要的是不要陷入無意義的基準(zhǔn)測試，如TOPS和ResNet-50，除非你知道要問的事情。首先提出以下問題：在批量大小= A和XYZ PVT條件下，特定模型（例如YOLOv3）可以處理多少圖像/秒。一旦你開始指定條件和假設(shè)，你就會開始了解任何神經(jīng)推理在現(xiàn)實(shí)世界中的表現(xiàn)。歸根結(jié)底，這才是最重要的。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
457

文章
51285

瀏覽量
427849
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4783

瀏覽量
101240
AI

AI

+關(guān)注

關(guān)注
87

文章
31734

瀏覽量
270524