DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算分析 - 全文

賽靈思 INT8 優(yōu)化為深度學(xué)習(xí)推斷提供了性能最佳、能效最高的計算技術(shù)。賽靈思的集成式 DSP 架構(gòu)與其他 FPGA DSP 架構(gòu)相比，在INT8 深度學(xué)習(xí)運算上能實現(xiàn) 1.75 倍的解決方案級性能。

概要

本白皮書旨在探索實現(xiàn)在賽靈思 DSP48E2 Slice 上的 INT8 深度學(xué)習(xí)運算，以及與其他 FPGA 的對比情況。在相同資源數(shù)量情況下，賽靈思的 DSP 架構(gòu)憑借 INT8在 INT8 深度學(xué)習(xí)每秒運算次數(shù) (OPS) 上相比其它 FPGA，能實現(xiàn) 1.75 倍的峰值解決方案級性能。由于深度學(xué)習(xí)推斷可以在不犧牲準(zhǔn)確性的情況下使用較低位精度，因此需要高效的 INT8 實現(xiàn)方案。

賽靈思的 DSP 架構(gòu)和庫專門針對 INT8 深度學(xué)習(xí)推斷進行了優(yōu)化。本白皮書介紹如何使用賽靈思 UltraScale 和 UltraScale+ FPGA 中的DSP48E2，在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 乘法累加 (MACC) 運算。本白皮書還闡述了要運用賽靈思這一獨特技術(shù)，為何輸入的最小位寬為 24 位。本白皮書還以 INT8優(yōu)化技術(shù)為例，展示了該技術(shù)與神經(jīng)網(wǎng)絡(luò)基本運算的相關(guān)性。

用于深度學(xué)習(xí)的 INT8

深度神經(jīng)網(wǎng)絡(luò)（DNN）已掀起機器學(xué)習(xí)領(lǐng)域的變革, 同時運用新的達到人類水平的 AI 功能重新定義眾多現(xiàn)有的應(yīng)用。

隨著更精確的深度學(xué)習(xí)模型被開發(fā)出來，它們的復(fù)雜性也帶來了高計算強度和高內(nèi)存帶寬方面的難題。能效正在推動著深度學(xué)習(xí)推斷新模式開發(fā)方面的創(chuàng)新，這些模式需要的計算強度和內(nèi)存帶寬較低，但絕不能以犧牲準(zhǔn)確性和吞吐量為代價。降低這一開銷將最終提升能效，降低所需的總功耗。

除了節(jié)省計算過程中的功耗，較低位寬的計算還能降低內(nèi)存帶寬所需的功耗，因為在內(nèi)存事務(wù)數(shù)量不變的情況下傳輸?shù)奈粩?shù)減少了。

研究顯示要保持同樣的準(zhǔn)確性，深度學(xué)習(xí)推斷中無需浮點計算[ 參考資料 1][ 參考資料 2][ 參考資料 3]，而且圖像分類等許多應(yīng)用只需要 INT8 或更低定點計算精度來保持可接受的推斷準(zhǔn)確性[ 參考資料 2][ 參考資料 3]。表 1 列出了精調(diào)網(wǎng)絡(luò)以及卷積層和完全相連層的動態(tài)定點參數(shù)及輸出。括號內(nèi)的數(shù)字代表未精調(diào)的準(zhǔn)確性。

表 1 ：帶定點精度的 CNN 模型

DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算分析

賽靈思 DSP Slice 片上的 INT8 深度學(xué)習(xí)

賽靈思的 DSP48E2 設(shè)計用于在一個時鐘周期內(nèi)高效地完成一個乘法累加算法, 多達 18x27 位的乘法和多達 48 位的累加，如圖 1 所示。除了采用回送或鏈接多個 DSP Slice，乘法累加 (MACC) 也能使用賽靈思器件高效完成。

圖 1 ：使用 MACC 模式的 DSP Slice

在運行 INT8 計算時，較寬的 27 位寬自然占有優(yōu)勢。在傳統(tǒng)應(yīng)用中，預(yù)加法器一般用于高效實現(xiàn) (A+B) x C計算，但這類計算在深度學(xué)習(xí)應(yīng)用中很少見。將 (A+B) x C 的結(jié)果拆分為 A x C 和 B x C，然后在獨立的數(shù)據(jù)流中進行累加，使之適用于典型深度學(xué)習(xí)計算的要求。

對 INT8 深度學(xué)習(xí)運算來說，擁有 18x27 位乘法器很占優(yōu)勢。乘法器的輸入中至少有一個必須為最小 24位，同時進位累加器必須為 32 位寬，才能在一個 DSP Slice 上同時進行兩個 INT8 MACC 運算。27 位輸入能與 48 位累加器結(jié)合，從而將深度學(xué)習(xí)求解性能提升 1.75 倍（1.75:1 即為 DSP 乘法器與 INT8 深度學(xué)習(xí) MACC 的比率）。其他廠商提供的 FPGA 在單個 DSP 模塊中只提供 18x19 乘法器，DSP 乘法器與INT8 MACC 之比僅為 1:1。

可擴展的 INT8 優(yōu)化

目標(biāo)是找到一種能夠?qū)斎?a、b 和 c 進行高效編碼的方法，這樣 a、b 和 c 之間的相乘結(jié)果可以容易地分解為 a x c 和 b x c。

在更低精度計算中，例如 INT8 乘法中，高位 10 位或 19 位輸入用 0 或 1 填充，僅攜帶 1 位信息。對最終的 45 位乘積的高位 29 位來說，情況一樣。因此可以使用高位 19 位開展另一計算，不會影響低位 8 位或16 位輸入結(jié)果。

總的來說，要把未使用的高位用于另一計算必須遵循兩條規(guī)則：
1. 高位不應(yīng)影響低位的計算。
2. 低位計算對高位的任何影響必須可檢測、可能恢復(fù)。

為滿足上述規(guī)則，高位乘積結(jié)果的最低有效位不得進入低位 16 位。因此高位的輸入應(yīng)至少從第 17 位開始。對一個 8 位的高位輸入，總輸入位寬至少為 16+8=24 位。這樣的最小 24 位輸入寬度只能保證同時用一個乘法器完成兩次相乘，但仍足以實現(xiàn) 1.75 倍的 MACC 的總吞吐量。

接下來的步驟是在一個 DSP48E2 Slice 中并行計算 ac 和 bc 。DSP48E2 Slice 被用作一個帶有一個 27 位預(yù)加法器（輸入和輸出均為 27 位寬）和一個 27 x 18 乘法器的算術(shù)單元。見圖 2。

1. 通過預(yù)加法器在 DSP48E2 乘法器的 27 位端口 p 打包 8 位輸入 a 和 b ，這樣 2 位向量能盡量分隔開。輸入 a 左移位僅 18 位，這樣從第一項得到的 27 位結(jié)果中的兩個符號位 a 以避免在 b <0 和 a =–128 時預(yù)加法器中發(fā)生溢值。a 的移位量為 18，恰好與 DSP48E2 乘法器端口 B 的寬度一樣。

圖2 ：8 位優(yōu)化

2. DSP48E2 27x18 乘法器用于計算打包的 27 位端口 p 和以二進制補碼格式表達在 18 位 c 中的 8 位系數(shù)的積?，F(xiàn)在該 45 位乘積是二進制補碼格式的兩個 44 位項的和：左移位 18 位的 ac 和 bc 。

后加法器可用于累加上述包含單獨的高位乘積項和低位乘積項的 45 位乘積。在累加單個 45 位積時，對高位項和低位項進行了校正累加。最終的累加結(jié)果如果沒有溢值，可以用簡單運算分開。

這種方法的局限在于每個 DSP Slice 能累加的乘積項的數(shù)量。由于高位項和低位項間始終保持兩位（圖 3），可以保證在低位不溢值的情況下累加多達 7 個項。在 7 個乘積項之后，需要使用額外的 DSP Slice 來克服這一局限。因此這里 8 個 DSP Slice 執(zhí)行 7 x 2 INT8 乘法- 加法運算，與擁有相同數(shù)量乘法器的競爭型器件相比 INT8 深度學(xué)習(xí)運算的效率提升 1.75 倍。

根據(jù)實際用例的要求，這種方法有多種變化形式。帶有校正線性單元 (ReLU) 的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 產(chǎn)生非負激活，同時無符號 INT8 格式將精度增加一位以上且峰值吞吐量提升 1.78 倍。

圖 3 ：用單個 DSP48E2 Slice 打包兩個 INT8 乘運算

CNN 的計算要求

現(xiàn)代神經(jīng)網(wǎng)絡(luò)大部分是從這個原始概念模型 [ 參考資料 4] 衍生而來。見圖 4。

圖 4 ：概念和深度神經(jīng)網(wǎng)絡(luò)

雖然從標(biāo)準(zhǔn)感知器結(jié)構(gòu)開始已有相當(dāng)程度的演進，現(xiàn)代深度學(xué)習(xí)（也稱為深度神經(jīng)網(wǎng)絡(luò) (DNN)）的基本運算仍然是類感知器的運算，只是有更廣大的總體和更深入的堆疊感知器結(jié)構(gòu)。圖 4 所示的是一個感知器的基本運算。在每個典型的深度學(xué)習(xí)推斷中它穿過多個層，最終重復(fù)數(shù)百萬至數(shù)十億次。如圖 5 所示，在一層神經(jīng)網(wǎng)絡(luò)中計算 m 個感知器/ 神經(jīng)元輸出中的每一個的主要計算運算為：

DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算分析

圖 5 ：深度學(xué)習(xí)中的感知器

DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算分析

圖 6 ：使用共享輸入并行得到兩個乘積項和

使用 INT8 優(yōu)化方法將值向左移位 18 位，每個 DSP Slice 就得出最終輸出值的部分且獨立的一部分。用于每個 DSP Slice 的累加器有 48 位寬并鏈接到下一個 Slice。為避免移位飽和影響到計算，鏈接的模塊數(shù)量被限制為 7 個，即對總共 n 個輸入樣本使用 2n 個 MACC 和 n 個 DSP Slice。

典型的 DNN 每層有數(shù)百到數(shù)千個輸入樣本。但是在完成 7 個項的累加后，48 位累加器的低位項可能飽和，因此每 7 個項之和就需要一個額外的 DSP48E2 Slice。這相當(dāng)于每 7 個 DSP Slice 和 14 個 MACC，另加一個 DSP Slice 用于防止過飽和，從而帶來 7/4 或 1.75 倍的吞吐量提升。

在卷積神經(jīng)網(wǎng)絡(luò)（CNN）中，卷積層一般主要使用同一組權(quán)重，從而形成 a x w 和 b x w 類型的并行MACC 運算。因此除輸入共享外，還可以使用權(quán)重共享（見圖 7）。

圖 7 ：權(quán)重共享和輸入共享比較

創(chuàng)建 INT8 鏈接 MACC 的其他方法
INT8 MACC 還能用 FPGA 架構(gòu)內(nèi)與 DSP Slice 頻率近似的 LUT 來構(gòu)建。根據(jù) FPGA 的使用情況，這可以顯著提升深度學(xué)習(xí)性能，在某些情況下性能可提升三倍之多。許多情況下相對于其他非 FPGA 架構(gòu)而言，在計算可用深度學(xué)習(xí)運算時這些可用的計算資源并未考慮在內(nèi)。

賽靈思 FPGA 中的編程架構(gòu)是獨有的，因為它能并行且高效地處理多樣化工作負載。例如賽靈思 FPGA能并行執(zhí)行 CNN 圖像分類、網(wǎng)絡(luò)加密和數(shù)據(jù)壓縮。我們的深度學(xué)習(xí)性能競爭分析并未將 MACC LUT 考慮在內(nèi)，因為一般 LUT 用于執(zhí)行 MACC 功能比用于執(zhí)行其他并行功能時更有價值。

競爭分析

在本競爭分析中，將英特爾（前 Altera）的 Arria 10 和即將推出的 Stratix 10 器件與賽靈思的 Kintex UltraScale 和 Virtex UltraScale+ 進行了對比。對這種高計算強度的比較，選擇的器件均為每個產(chǎn)品系列中 DSP 密度最高的器件：Arria 10 (AT115)、Stratix 10 (SX280)、Kintex UltraScale (KU115)、Virtex UltraScale+ (VU9P) 和 Virtex UltraScale+ (VU13P) 器件。比較的重點是能用于包括深度學(xué)習(xí)在內(nèi)的眾多應(yīng)用的通用 MACC 性能。

英特爾的 MACC 性能基于運用預(yù)加法器的算子。但是這種實現(xiàn)方案產(chǎn)生的是乘積項和非唯一單獨乘積項之和，因此英特爾的預(yù)加法器不適用于深度學(xué)習(xí)運算。

英特爾器件的功耗使用英特爾的 EPE 功耗估算工具估算，并假設(shè)在以下最壞情況下：
1. 在最大頻率 (FMAX) 下 DSP 利用率為 90%
2. 時鐘速率為 DSP FMAX 時邏輯利用率為 50%
3. 時鐘速率為 DSP FMAX 的一半時,block RAM 利用率為 90%
4. 4 個 DDR4 和 1 個 PCIe Gen3 x 8
5. DSP 觸發(fā)率為 12.5%
6. 80°TJ

圖 8 所示為深度學(xué)習(xí)運算的能效比較。憑借 INT8 優(yōu)化，賽靈思 UltraScale 和 UltraScale+ 器件在 INT8精度上相比 INT16 運算（KU115 INT16/KU115 INT8）能效提升 1.75 倍。與英特爾的 Arria 10 和 Stratix 10器件相比，賽靈思器件在深度學(xué)習(xí)推斷運算上能效高出 2-6 倍。

圖 8 ：INT8 深度學(xué)習(xí)能效對比：賽靈思對比英特爾

結(jié)論
本白皮書探討了如何在賽靈思 DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算，從而實現(xiàn) 1.75 倍的性能提升。賽靈思 DSP48E2 Slice 可用于在共享相同內(nèi)核權(quán)重的同時實現(xiàn)并行 INT8 MACC。為高效地實現(xiàn) INT, 需要采用 24 位輸入寬度，這項優(yōu)勢只有賽靈思 UltraScale 和 UltraScale+ FPGA DSP Slice 能夠提供支持。賽靈思非常適合用于深度學(xué)習(xí)應(yīng)用中的 INT8 工作負載（例如圖像分類）。賽靈思不斷創(chuàng)新新的基于軟/硬件的方法，以加快深度學(xué)習(xí)應(yīng)用的發(fā)展。

如需了解有關(guān)數(shù)據(jù)中心深度學(xué)習(xí)的更多信息，敬請訪問： https://china.xilinx.com/accelerationstack

參考資料
1. 1.Dettmers, 8-Bit Approximations for Parallelism in Deep Learning, ICLR 2016
https://arxiv.org/pdf/1511.04561.pdf
2. Gysel et al, Hardware-oriented Approximation of Convolutional Neural Networks, ICLR 2016
https://arxiv.org/pdf/1604.03168v3.pdf
3. Han et al, Deep Compression:Compressing Deep Neural Networks With Pruning, Trained Quantization And Huffman Coding, ICLR 2016
https://arxiv.org/pdf/1510.00149v5.pdf
4. Rosenblatt, F., The Perceptron:A Probabilistic Model for Information Storage and Organization in the Brain, Psychological Review, Vol. 65, No. 6, 1958

閱讀全文

上一頁 1 2 3全文

本文導(dǎo)航

第 1 頁：DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算分析
第 2 頁：計算規(guī)則
第 3 頁：并行MACC運算

dsp(343842) dsp(343842)
Xilinx(119166) Xilinx(119166)
深度學(xué)習(xí)(119797) 深度學(xué)習(xí)(119797)

基于INTEL FPGA硬浮點DSP實現(xiàn)卷積運算詳解

卷積是一種線性運算,其本質(zhì)是滑動平均思想,廣泛應(yīng)用于圖像濾波。而隨著人工智能及深度學(xué)習(xí)的發(fā)展，卷積也在神經(jīng)網(wǎng)絡(luò)中發(fā)揮重要的作用，如卷積神經(jīng)網(wǎng)絡(luò)。本參考設(shè)計主要介紹如何基于INTEL 硬浮點的DSP

2018-07-23 09:09:45

7322

FPGA中如何充分利用DSP資源，DSP48E1內(nèi)部詳細資源介紹

FPGA中DSP資源是寶貴的且有限，我們在計算大位寬的指數(shù)、復(fù)數(shù)乘法、累加、累乘等運算時都會用到DSP資源，如果我們不了解底層的DSP特性，很多設(shè)計可能都無法進行。邏輯綜合往往是不可控的，為了能夠

2020-09-30 11:48:55

26638

深入理解DNN加速器中的基本單元——DSP

DSP48E2是zynq器件中使用的DSP類型，其主要結(jié)構(gòu)包括一個27bit前加器，27x18bit的乘法器，一個48bit的可以執(zhí)行加減法，累加以及邏輯功能的ALU。

2022-08-02 09:16:27

3378

探討機器學(xué)習(xí)與深度學(xué)習(xí)基本概念與運算過程

人工智慧隸屬于大範(fàn)疇，包含了機器學(xué)習(xí)（Machine Learning）與深度學(xué)習(xí)（Deep Learning）。如下圖所示，我們最興趣的深度學(xué)習(xí)則是規(guī)範(fàn)于機器學(xué)習(xí)之中的一項分支，而以下段落將簡單介紹機器學(xué)習(xí)與深度學(xué)習(xí)的差異。

2020-12-18 15:45:31

3870

7系列FPGA DSP48E1片的特點

乘法器和一個三輸入加法器/減法器/累加器。DSP48E1乘法器具有非對稱的輸入，接受18位2的補數(shù)操作數(shù)和25位2的補數(shù)操作數(shù)。乘法器階段以兩個部分乘積的形式產(chǎn)生一個43位2的補碼結(jié)果。這些部分積在X

2021-01-08 16:46:10

7系列FPGA DSP48E1片的特點什么？

7系列FPGA DSP48E1片的特點什么

2021-03-05 06:26:41

DSP48E1 Slice的最大頻率是什么

我正在實例化DSP切片并進行簡單的乘法然后加法（（A * B）+ C）。根據(jù)DSP48E1用戶指南，當(dāng)使用所有三個流水線寄存器時，它給出了最高頻率為600 MHz。但就我而言，它使用流水線寄存器

2020-06-12 06:32:01

DSP48E1不會推斷預(yù)加法器

嗨，我有一個如下的指令：（D-A）* B + C.端口A，B，C，D與DSP48E1輸入引腳相對應(yīng)。我試圖將整個操作打包在DSP單元中。（順便說一句，我的數(shù)據(jù)寬度是8位）在布局和布線完成后，我

2019-04-01 14:25:40

DSP48E1作為延遲移位寄存器

to use a DSP48E1 slice to delay data up to 48bits wide by three cycles and hence only use 1 DSP48 rather

2019-04-18 06:40:33

DSP48E1的屬性詳解

DSP48E1屬性

2021-01-27 06:21:23

DSP48E1的屬性詳解

和RSTB復(fù)位（如圖2-7和圖2-8所示）。　　　　P端口　　每個DSP48E1片都有一個48位的輸出端口p。這個輸出可以通過PCOUT路徑內(nèi)部連接（級聯(lián)連接）到相鄰的DSP48E1片。PCOUT連接

2020-12-23 16:54:08

DSP學(xué)習(xí)經(jīng)驗

Memory，開啟cache?！　　　∪?b class="flag-6" style="color: red">DSP能對SDRAM的不同4個bank可以同時訪問，此時你可以將需要同時運算的數(shù)據(jù)放入不同的bank　　　?。?b class="flag-6" style="color: red">8）開啟仿真軟件的編譯優(yōu)化選項　　　　在菜單相應(yīng)的地方勾上

2011-10-19 10:31:23

DSP和51之我見--順便說說DSP除法優(yōu)化

，51的指令是一條一條的執(zhí)行，DSP的指令可以多條并行處理，從而獲得了更快的計算速度。2、運算能力。很多DSP器件硬件支持浮點數(shù)乘法，同時有硬件循環(huán)指令。硬件浮點乘法極大的提高了運算能力。硬件循環(huán)指令

2012-01-11 09:28:20

INT8量化常見問題的解決方案

一、int8的輸出和fp32模型輸出差異比較大解決方案：檢查前后處理是否有問題，int8網(wǎng)絡(luò)輸入輸出一般需要做scale處理，看看是否遺漏？通過量化可視化工具分析int8的輸出和fp32

2023-09-19 06:09:33

深度學(xué)習(xí)存在哪些問題？

深度學(xué)習(xí)常用模型有哪些？深度學(xué)習(xí)常用軟件工具及平臺有哪些？深度學(xué)習(xí)存在哪些問題？

2021-10-14 08:20:47

深度學(xué)習(xí)技術(shù)的開發(fā)與應(yīng)用

時間安排大綱具體內(nèi)容實操案例三天關(guān)鍵點1.強化學(xué)習(xí)的發(fā)展歷程2.馬爾可夫決策過程3.動態(tài)規(guī)劃4.無模型預(yù)測學(xué)習(xí)5.無模型控制學(xué)習(xí)6.價值函數(shù)逼近7.策略梯度方法8.深度強化學(xué)習(xí)-DQN算法系列9.

2022-04-21 14:57:39

深度學(xué)習(xí)框架只為GPU?

CPU優(yōu)化深度學(xué)習(xí)框架和函數(shù)庫機器學(xué)***器

2021-02-22 06:01:02

深度學(xué)習(xí)模型是如何創(chuàng)建的？

具有深度學(xué)習(xí)模型的嵌入式系統(tǒng)應(yīng)用程序帶來了巨大的好處。深度學(xué)習(xí)嵌入式系統(tǒng)已經(jīng)改變了各個行業(yè)的企業(yè)和組織。深度學(xué)習(xí)模型可以幫助實現(xiàn)工業(yè)流程自動化，進行實時分析以做出決策，甚至可以預(yù)測預(yù)警。這些AI

2021-10-27 06:34:15

Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負載方面的作用

機器學(xué)習(xí) (ML) 是云和邊緣基礎(chǔ)設(shè)施中增長最快的部分之一。在 ML 中，深度學(xué)習(xí)推理預(yù)計會增長得更快。在本博客中，我們比較了三種 Amazon Web Services (AWS) EC2 云實例

2022-08-31 15:03:46

AutoKernel高性能算子自動優(yōu)化工具

1. 簡介隨著人工智能的普及，深度學(xué)習(xí)網(wǎng)絡(luò)的不斷涌現(xiàn)，為了讓各硬件(CPU, GPU, NPU,…)能夠支持深度學(xué)習(xí)應(yīng)用，各硬件芯片需要軟件庫去支持高性能的深度學(xué)習(xí)張量運算。目前，這些高性能計算庫

2021-12-14 06:18:21

BM1684架構(gòu)介紹

L2cache 2.2 峰值算力峰值算力： FP32峰值算力 = 64 * 16 * 2(FP32 MAC) * 2 * 0 55G / 1024 = 2.2 TOPS INT8峰值算力 = 64

2023-09-19 08:11:10

Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析

學(xué)習(xí)，也就是現(xiàn)在最流行的深度學(xué)習(xí)領(lǐng)域，關(guān)注論壇的朋友應(yīng)該看到了，開發(fā)板試用活動中有【NanoPi K1 Plus試用】的申請，介紹中NanopiK1plus的高大上優(yōu)點之一就是“可運行深度學(xué)習(xí)算法的智能

2018-06-04 22:32:12

Nanopi深度學(xué)習(xí)之路(2)深度學(xué)習(xí)框架安裝前的系統(tǒng)配置

`Nanopi深度學(xué)習(xí)之路這一系列的日記內(nèi)容如下：1. 根據(jù)深度學(xué)習(xí)任務(wù)配置Nanopi2。2. 在Nanopi2上安裝Keras和TensorFlow。3. 在Nanopi2上部署一個訓(xùn)練好的深度

2018-06-05 17:29:51

TDA4對深度學(xué)習(xí)的重要性

DSP（Digital Signal Processor）和 EVE（Embedded Vision/Vector Engine），用于加速計算深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。相比于上一代TDA2/TDA3系列

2022-11-03 06:53:11

UltraScale DSP48 Slice架構(gòu)的優(yōu)勢是什么？

UltraScale DSP48 Slice架構(gòu)的優(yōu)勢是什么？UltraScale內(nèi)存架構(gòu)的優(yōu)勢是什么？

2021-05-24 06:34:00

Xilinx Vertex-4 DSP應(yīng)用程序xapp706是否可在Spartan-6上移植

the slice, can't I use the DSP48A1 macro itself to test this Xapp706 application?

2019-07-04 15:36:07

Xilinx大神都懂的數(shù)字運算單元—DSP48E1

，這樣的輸入選擇有助于構(gòu)建多種類型，高流水化的DSP應(yīng)用。 2. DSP48E1使用 (1)DSP原語使用的每個端口及位寬如下所示： ①表示的數(shù)據(jù)通道，運算數(shù)據(jù)的輸入。 ②寄存器配置通道，我們可以通過

2023-06-20 14:29:51

yolov5量化INT8出錯怎么處理？

model_deploy.py --mlir yolov5l.mlir --quantize INT8 --calibration_table yolov5l_cali_table --chip

2024-01-10 06:40:14

【NanoPi K1 Plus試用體驗】搭建深度學(xué)習(xí)框架

，使其更緊湊和更易debug，并提供了擴展的便利性。課程內(nèi)容基本上是以代碼編程為主，也會有少量的深度學(xué)習(xí)理論內(nèi)容。課程會一步一步從Keras環(huán)境安裝開始講解，并從最基礎(chǔ)的Keras實現(xiàn)線性回歸

2018-07-17 11:40:31

【PYNQ-Z2試用體驗】剪枝量化好幫手，深鑒科技Deepin套件DNNDK使用(結(jié)項)

caffe模型（浮點），得到int8的模型，再通過sdk編程，直接部署到FPGA上，這個過程本質(zhì)上應(yīng)該還是使用了SDSoC的相關(guān)工具。大佬們開發(fā)了DPU這個深度學(xué)習(xí)的IP，在不遠的將來要放置到

2019-03-21 15:09:29

【TL6748 DSP申請】齒輪故障診斷（基于振動數(shù)據(jù)采集分析處理）

申請理由：1）由于剛接觸到DSP不久，希望通過DSP的開發(fā)板能夠快速入門，前期實現(xiàn)一些基本的功能；2）在學(xué)習(xí)到DSP的一些基本知識后，將逐漸運用DSP的實際項目中，先試著嘗試解決一些振動數(shù)據(jù)分析

2015-09-10 11:20:00

【米爾FZ3深度學(xué)習(xí)計算卡試用體驗】DPU搭建

計算公司賽靈思（NASDAQ：XLNX）宣布，收購北京人工智能（AI）芯片初創(chuàng)公司深鑒科技。深鑒科技擁有業(yè)界較為領(lǐng)先的機器學(xué)習(xí)能力，專注于神經(jīng)網(wǎng)絡(luò)剪枝、深度壓縮技術(shù)及系統(tǒng)級優(yōu)化。深鑒科技原本是一家芯片

2020-12-10 15:23:40

【資料上新】迅為基于3568開發(fā)板的NPU開發(fā)資料全面升級

開始的，相比傳統(tǒng)的CPU和GPU，在深度學(xué)習(xí)運算能力上有比較大幅度的提升。接下來在RV1109和RV1126上使用了第二代NPU，提升了NPU的利用率。第三代NPU應(yīng)用在RK3566和RK3568上

2022-06-23 15:05:22

什么是深度學(xué)習(xí)？

深度學(xué)習(xí)是什么意思

2020-11-11 06:58:03

什么是深度學(xué)習(xí)？使用FPGA進行深度學(xué)習(xí)的好處？

，即使使用具有一定低位寬的數(shù)據(jù)，深度學(xué)習(xí)推理也不會降低最終精度。目前據(jù)說8位左右可以提供穩(wěn)定的準(zhǔn)確率，但最新的研究表明，已經(jīng)出現(xiàn)了即使降低到4位或2位也能獲得很好準(zhǔn)確率的模型和學(xué)習(xí)方法，越來越多的正在

2023-02-17 16:56:59

什么是基于Spartan-3 FPGA的DSP功能優(yōu)化方案？

本文闡述了Spartan-3 FPGA針對DSP而優(yōu)化的特性，并通過實現(xiàn)示例分析了它們在性能和成本上的優(yōu)勢。

2019-10-18 07:11:35

以MegCC為例介紹如何開發(fā)一個深度學(xué)習(xí)編譯器

矩陣乘，則可使用 B 與 A 矩陣乘之后進行轉(zhuǎn)置進行替換，可節(jié)約一次轉(zhuǎn)置運算。b. 算子融合是常見的深度學(xué)習(xí)的優(yōu)化手段。算子融合雖然不能減少計算量，但是可以減少訪存量，提高計算訪存比，從而提升性能

2023-02-09 16:35:34

如何分析和比較XST綜合工具生成的報告

1323％DSP48E1的數(shù)量168641％設(shè)備利用率摘要（估計值）[ - ]邏輯利用用過的可得到采用切片寄存器的數(shù)量38695068736056％切片LUT的數(shù)量15269234368044％完全

2019-03-25 14:27:40

如何使用DSP45E1模塊實現(xiàn)Multply-Add操作？

嗨，我想使用DSP45E1模塊實現(xiàn)Multply-Add操作，其中一個要求是我需要DSP模塊上的3級流水線。查看UG479 7系列DSP48E1 Slice用戶指南（UG479） - Xilinx

2020-07-21 13:52:24

如何簡化DSP48E1片操作

　　DSP48E1片的數(shù)學(xué)部分由一個25位的預(yù)加器、2個25位、18位的補法器和3個48位的數(shù)據(jù)路徑多路復(fù)用器（具有輸出X、Y和Z）組成，然后是一個3輸入加法器/減法器或2輸入邏輯單元（參見圖2

2021-01-08 16:36:32

如何簡化DSP48E1片操作

簡化DSP48E1片操作

2021-01-27 07:13:57

如何解決通用Xilinx FPGA DSP片和邏輯單元上的問題？

切片是整個切片數(shù)量的一部分還是它們在FPGA上共享資源？2）如果我們沒有進行任何DSP操作，那么DSP48E Slice是否可以用于實現(xiàn)某些常規(guī)邏輯，或者這些DSP Slice是否專門用于實現(xiàn)DSP

2019-04-04 06:36:56

求DSP48E1和BRAM36K / BRAM18K之間水平關(guān)系的信息？

DSP48E1磁貼（由2個切片和互連組成）與5個CLB具有相同的高度1 DSP48E1瓷磚與一個BRAM36K具有相同的高度1 DPS48E1 Slice水平對齊BRAM18K我讀到了xilinx asmbl架構(gòu)

2020-07-25 11:04:42

求大神指教：在labview的公式節(jié)點中如何定義一個靜態(tài)變量（例如：static int8 i=0;這樣可以嗎？）

求大神指教：在labview的公式節(jié)點中如何定義一個靜態(tài)變量（例如：static int8 i=0;這樣可以嗎？）

2016-04-13 21:37:29

深圳公司招聘DSP高手1名

的體系結(jié)構(gòu),熟練使用相關(guān)開發(fā)調(diào)試工具,擅長軟件性能分析和優(yōu)化,能在緊約束條件下充分利用硬件資源,深度優(yōu)化提升軟件效率; 8、勇于承擔(dān)責(zé)任，良好的溝通能力和團隊合作精神； 9、較好的英文閱讀能力。有興趣的朋友，請聯(lián)系我，企鵝號碼：1537906585

2016-05-04 17:40:52

請?zhí)峁?b class="flag-6" style="color: red">DSP48 slice中的Multipumping示例

嗨，我正在使用兩個使用級聯(lián)鏈路連接的DSP48切片來執(zhí)行所需的操作。我想嘗試多泵操作以有效地使用DSP48切片。請?zhí)峁?b class="flag-6" style="color: red">DSP48 slice中的Multipumping示例。提前致謝

2019-08-06 10:42:26

請問DSP28335 int8怎么自己宏定義？

本帖最后由一只耳朵怪于 2018-6-13 16:29 編輯大家好，使用28335也有1年多了，這個數(shù)制問題一直困擾我，就是如何自己定義8位的int型整數(shù)？在網(wǎng)上搜到的 typedef CPU_INT08U uint8; //[0 255]，這個能用么？謝謝大家～

2018-06-13 04:13:04

請問tms320c6670中TCP3D的軟量都是INT8字型的？

本帖最后由一只耳朵怪于 2018-6-25 14:58 編輯不能是INT16字型的？INT8精度不夠呀~

2018-06-25 01:12:25

請問在新CPU上推斷INT8模型的速度是否比舊CPU快？

與采用舊 CPU 的推理相比，在新 CPU 上推斷的 INT8 模型的推理速度更快。

2023-08-15 08:28:42

High Performance DSP Solutions

High DSP Performance Platform– The DSP48E Slice– Essential DSP Building Blocks• Imaging Algorithms

2009-04-09 22:05:31

MPEG4-SP在DSP上的優(yōu)化分析

本文簡要介紹了MPEG4-SP在DSP TM1300上的實現(xiàn)和優(yōu)化過程。分析了其性能優(yōu)化原理，給出了性能優(yōu)化中使用到的幾個技巧，最終取得了滿意的優(yōu)化效果。

2009-05-09 14:14:45

CDMA網(wǎng)絡(luò)深度覆蓋的天線應(yīng)用與RSSI指標(biāo)優(yōu)化分析

CDMA網(wǎng)絡(luò)深度覆蓋的天線應(yīng)用與RSSI指標(biāo)優(yōu)化分析，很好的網(wǎng)絡(luò)資料，快來學(xué)習(xí)吧。

2016-04-19 11:30:48

System generator DSP48E1 (1)：端口說明

、乘加(MACC, )，乘加，三輸入加法等等。該架構(gòu)還支持串聯(lián)多個DSP48E1 slice，避免使用fpga邏輯功能的繁瑣。 System generator DSP48E1 模塊參數(shù) 雙擊dsp48e1模塊

2017-02-08 01:07:12

595

S2C的KU115邏輯模塊具備很強的DSP原型功能

UltraScale DSP48E2 Slice 完美結(jié)合在一起。Prodigy KU 邏輯模塊理想適用于計算密集型應(yīng)用；根據(jù) S2C 的介紹，該模塊提供的 DSP 資源比市場上任何原型板都要多。除了數(shù)千

2017-02-08 12:19:14

884

Xilinx可編程邏輯器件設(shè)計與開發(fā)（基礎(chǔ)篇）連載14：Spartan

為了適應(yīng)越來越復(fù)雜的DSP運算，Spartan-6在Spartan 3A DSP模塊DSP48A 基礎(chǔ)上，不斷進行功能擴展，推出了功能更強大的DSP48A1 SLICE。

2017-02-11 08:53:13

992

Xilinx可編程邏輯器件設(shè)計與開發(fā)（基礎(chǔ)篇）連載24：Spartan

為了適應(yīng)越來越復(fù)雜的DSP運算，Virtex-6中嵌入了功能更強大的DSP48E1 SLICE，簡化的DSP48E1模塊如圖5-16所示。

2017-02-11 09:17:13

1391

Xilinx INT8 優(yōu)化開發(fā)嵌入式視覺

賽靈思 INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計算機視覺功能的嵌入式視覺應(yīng)用提供最優(yōu)異的性能和能效最出色的計算方法。與其他 FPGA/DSP 架構(gòu)相比，賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運算上能實現(xiàn) 1.75 倍的性能優(yōu)勢。

2017-09-22 17:27:11

5280

盤點幾種深度學(xué)習(xí)庫

類庫，用數(shù)組向量來定義和計算數(shù)學(xué)表達式。它使得在Python環(huán)境下編寫深度學(xué)習(xí)算法變得簡單。在它基礎(chǔ)之上還搭建了許多類庫。Keras是一個簡潔、高度模塊化的神經(jīng)網(wǎng)絡(luò)庫，它的設(shè)計參考了Torch，用Python語言編寫，支持調(diào)用GPU和CPU優(yōu)化后的Theano運算。

2017-11-16 14:20:45

2873

深度學(xué)習(xí)在IoT大數(shù)據(jù)和流分析中的應(yīng)用

這篇論文對于使用深度學(xué)習(xí)來改進IoT領(lǐng)域的數(shù)據(jù)分析和學(xué)習(xí)方法進行了詳細的綜述。

2018-03-01 11:05:12

7452

解讀深度學(xué)習(xí)與大數(shù)據(jù)分析研究進展

在研究基于大數(shù)據(jù)框架將深度學(xué)習(xí)的分布式實現(xiàn)后，王萬良指出，人工智能是大數(shù)據(jù)分析領(lǐng)域的研究主流，基于深度學(xué)習(xí)的大數(shù)據(jù)分析方法發(fā)展最為迅速，GPU成為深度學(xué)習(xí)的更高效的硬件平臺，研究分布式計算智能優(yōu)化算法將解決大數(shù)據(jù)優(yōu)化問題，能夠提升算法的效果并降低計算復(fù)雜度。

2018-09-26 16:56:13

8879

利用DSP48E2 Slice中的寬MUX產(chǎn)品反饋

了解如何為UltraScale +設(shè)計添加額外的安全級別。該視頻演示了如何防止差分功耗分析（DPA），以在比特流配置之上增加額外的安全性。

2018-11-27 06:24:00

2667

Virtex-7 FPGA系列DSP Slice功能的討論

本視頻介紹了7系列FPGA的DSP Slice功能。此外，還討論了Pre-Adder和Dynamic Pipeline控制資源。

2018-11-26 06:02:00

6700

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用性能和計算方法

賽靈思的 DSP 架構(gòu)和庫針對 INT8 運算進行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice，在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 MACC 運算。

2019-07-29 11:19:32

2303

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

要使用可編程邏輯上的 DSP 實現(xiàn)中值濾波器，可以對算法做改動。每次比較運算可以分為減法運算及后續(xù)的符號位檢查。對減法運算，DSP48E2 Slice 能夠以四個 12 位或兩個 24 位模式進行運算。要充分利用 DSP48E2 Slice，可以并行運算多個像素。

2019-07-30 08:59:46

2913

晶心科技和Deeplite攜手合作高度優(yōu)化深度學(xué)習(xí)模型解決方案

晶心科技今日宣布將攜手合作，在基于AndeStar? V5架構(gòu)的晶心RISC-V CPU核心上配置高度優(yōu)化的深度學(xué)習(xí)模型，使AI深度學(xué)習(xí)模型變得更輕巧、快速和節(jié)能。

2019-12-31 16:30:11

1002

Intel Xe獨立顯卡獲得新技能將支持Int8整數(shù)數(shù)據(jù)

Intel近日發(fā)布了最新版的高性能深度學(xué)習(xí)優(yōu)化庫DNNL 1.2，證實即將推出的全新Xe架構(gòu)獨立GPU的一項新技能，那就是支持Int8整數(shù)數(shù)據(jù)類型。

2020-02-04 15:31:19

1258

深度學(xué)習(xí)中多種優(yōu)化算法

在深度學(xué)習(xí)中，有很多種優(yōu)化算法，這些算法需要在極高維度（通常參數(shù)有數(shù)百萬個以上）也即數(shù)百萬維的空間進行梯度下降，從最開始的初始點開始，尋找最優(yōu)化的參數(shù)，通常這一過程可能會遇到多種的情況

2020-08-28 09:52:45

2268

DSP48的演變史

DSP48最早出現(xiàn)在XilinxVirtex-4 FPGA中，但就乘法器而言，Virtex-II和Virtex-II Pro中就已經(jīng)有了專用的18x18的乘法器，不過DSP48可不只是乘法器，其功能

2020-10-30 17:16:51

5770

什么是深度學(xué)習(xí)，深度學(xué)習(xí)能解決什么問題

深度學(xué)習(xí)是機器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)、人工智能、圖形化建模、優(yōu)化、模式識別和信號處理等技術(shù)融合后產(chǎn)生的一個領(lǐng)域。

2020-11-05 09:31:19

4711

DSP48E1詳解（3）： DSP48E1屬性

A、B、C、CARRYIN、CARRYINSEL、OPMODE、BCIN、PCIN、ACIN、ALUMODE、CARRYCASCIN、MULTSIGNIN以及相應(yīng)的時鐘啟用輸入和復(fù)位輸入都是保留端口。D和INMODE端口對于DSP48E1片是唯一的。本節(jié)詳細描述DSP48E1片的輸入端口

2022-07-25 18:00:18

4429

DSP48E1詳解（1）：7系列FPGA DSP48E1片的特點

在DSP48E1列中，級聯(lián)各個DSP48E1片可以支持更高級的DSP功能。兩個數(shù)據(jù)路徑(ACOUT和BCOUT)和DSP48E1片輸出(PCOUT、MULTSIGNOUT和CARRYCASCOUT)提供級聯(lián)功能。級聯(lián)數(shù)據(jù)路徑的能力在過濾器設(shè)計中很有用。

2021-01-27 07:34:32

DSP48E1詳解（3）：DSP48E1屬性

2021-01-27 08:18:02

深度模型中的優(yōu)化與學(xué)習(xí)課件下載

深度模型中的優(yōu)化與學(xué)習(xí)課件下載

2021-04-07 16:21:01

ncnn avx2/armv8.2 基礎(chǔ)架構(gòu)

2020年開始，新手機 CPU 幾乎都是 armv8.2 架構(gòu)，這個架構(gòu)引入了新的 fp16 運算和 int8 dot 指令，優(yōu)化得當(dāng)就能大幅加速深度學(xué)習(xí)框架的...

2022-01-26 18:53:19

Int8量化-ncnn社區(qū)Int8重構(gòu)之路

本文是對NCNN社區(qū)int8模塊的重構(gòu)開發(fā)，再也不用擔(dān)心溢出問題了，速度也還行。作者：圈圈蟲首發(fā)知乎傳送門ncnnBUG1989/caffe-int8-conver...

2022-02-07 12:38:26

總結(jié)FasterTransformer Encoder(BERT)的cuda相關(guān)優(yōu)化技巧

FasterTransformer BERT 包含優(yōu)化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-01-30 09:34:48

1283

什么是深度學(xué)習(xí)中優(yōu)化算法

先大致講一下什么是深度學(xué)習(xí)中優(yōu)化算法吧，我們可以把模型比作函數(shù)，一種很復(fù)雜的函數(shù)：h(f(g(k(x))))，函數(shù)有參數(shù)，這些參數(shù)是未知的，深度學(xué)習(xí)中的“學(xué)習(xí)”就是通過訓(xùn)練數(shù)據(jù)求解這些未知的參數(shù)。

2023-02-13 15:31:48

1019