資料介紹
本文轉(zhuǎn)載自: XILINX開發(fā)者社區(qū)微信公眾號
HLS 優(yōu)化設(shè)計的最關(guān)鍵指令有兩個:一個是流水線 (pipeline) 指令,一個是數(shù)據(jù)流(dataflow) 指令。正確地使用好這兩個指令能夠增強算法地并行性,提升吞吐量,降低延遲但是需要遵循一定的代碼風(fēng)格。展開 (unroll) 指令是只針對 for 循環(huán)的展開指令,和流水線指令關(guān)系密切,所以我們放在一起首先我們來看一下這三個指令在 Xilinx 官方指南中的定義:
Unroll: Unroll for-loops to create multiple instances of the loop body and its instructions that can then be scheduled independently.
Pipeline:Reduces the initiation interval by allowing the overlapped execution of operations within a loop or function.
Dataflow:Enables task level pipelining, allowing functions and loops to execute concurrently. Used to optimize through output and/or latency.
Unroll 指令在 for 循環(huán)的代碼區(qū)域進(jìn)行優(yōu)化,這個指令不包含流水線執(zhí)行的概念,單純地將循環(huán)體展開使用更多地硬件資源實現(xiàn),保證并行循環(huán)體在調(diào)度地過程中是彼此獨立的。
Pipeline 指令在循環(huán)和函數(shù)兩個層級都可以使用,通過增加重復(fù)的操作指令(如增加資源使用量等等)來減小初始化間隔。
Dataflow 指令是一個任務(wù)級別的流水線指令,從更高的任務(wù)層次使得循環(huán)或函數(shù)可以并行執(zhí)行,目的在于減小延遲增加吞吐量。
Unroll 和 Pipeline 指令相互重合的關(guān)系在于,當(dāng)對函數(shù)進(jìn)行流水線處理時,以下層次結(jié)構(gòu)中的所有循環(huán)都會自動展開,而使用展開指令的循環(huán)并沒有給定對II的約束。在最新版本的 Vitis HLS 工具中,工具會自動分析數(shù)據(jù)之間的流水線操作關(guān)系,以II=1為目標(biāo)優(yōu)化,但是還是會受限于設(shè)計本身的算法和代碼風(fēng)格。下圖非常清晰地闡明了Unroll 和 Pipeline 指令的關(guān)系,Pipeline 指令放置的循環(huán)層次越高,循環(huán)展開的層次也越高,最終會導(dǎo)致使用更大面積的資源去實現(xiàn),同時并行性也更高。
![](https://file.elecfans.com/web1/M00/DC/17/pIYBAGAJe8GAUqsaAAOfRydUAUE307.png)
這里如果循環(huán)的邊界是變量的話,則無法展開。這將組織函數(shù)被流水線化,可以通過添加tripcount 等指令,指定循環(huán)在綜合時大概的最大最小邊界。
在循環(huán)流水線優(yōu)化的過程中,有一個完美循環(huán),半完美循環(huán)和非完美循環(huán)的代碼風(fēng)格概念,只有當(dāng)流水線循環(huán)完美或半完美時,才可以將嵌套循環(huán)徹底并行展開。
完美循環(huán):只有最里面的循環(huán)才具有主體內(nèi)容,在循環(huán)語句之間沒有指定邏輯,循環(huán)界限是恒定的。
半完美循環(huán):只有最里面的循環(huán)才具有主體 (內(nèi)容), 在循環(huán)語句之間沒有指定邏輯,只有最外面的循環(huán)邊界可以是可變的。
非完美循環(huán):循環(huán)的主體內(nèi)容分布在循環(huán)的各個層次或內(nèi)層循環(huán)的邊界是變量。
![](https://file.elecfans.com/web1/M00/DC/17/pIYBAGAJfAOAJQTrAAO0fO_yjLU263.png)
當(dāng)我們要爭去最大流水線循環(huán)的成功執(zhí)行,就需要將非完美循環(huán)手動修改成完美或半完美循環(huán)。 以下代碼例子給出了完美循環(huán)(左邊)和非完美循環(huán)(右邊)在Vitis HLS 中的執(zhí)行結(jié)果。
![](https://file.elecfans.com/web1/M00/DB/98/o4YBAGAJfEGAEP37AABWikWhzdc769.png)
![](https://file.elecfans.com/web1/M00/DB/98/o4YBAGAJfIGAGbXPAAKaN1p2Ycs520.png)
綜合完畢后,我們可以在分析窗口和綜合報告中都很清晰的看出,完美循環(huán)在執(zhí)行的時候,工具自動將內(nèi)層循環(huán)LOOP_J和外層循環(huán)LOOP_I合并為一整個大循環(huán),并實現(xiàn)了整個大循環(huán)的流水線操作,延遲的周期數(shù)為: (400-1) *1+8-1 =406個周期數(shù),延遲大約為 408*2.5 = 1,020 ns
非完美循環(huán)中,內(nèi)層和外層循環(huán)沒有合并,只有內(nèi)層循環(huán)LOOP_J 實現(xiàn)了流水線執(zhí)行,進(jìn)出內(nèi)循環(huán)的浪費的時鐘周期增加了整個循環(huán)的時鐘周期,同時還有一些命令行沒有辦法跨越循環(huán)的層級實現(xiàn)調(diào)度上的優(yōu)化,這些因素都導(dǎo)致了設(shè)計的延遲的增加。
本文關(guān)于pipeline 以及 unroll 指令的介紹到此結(jié)束,下篇文章我們將著重介紹 daraflow 指令。
- 基于BiLSTM-CRF的細(xì)粒度知識圖譜問答模型 4次下載
- 基于文本的細(xì)粒度美妝圖譜視覺推理問題 1次下載
- 結(jié)合非局部和多區(qū)域注意力機制的細(xì)粒度識別方法 3次下載
- 基于卷積神經(jīng)網(wǎng)絡(luò)多層面二階特征融合模型 4次下載
- 基于深度圖注意力卷積CNN的三維模型識別方法 6次下載
- 關(guān)于類腦和神經(jīng)計算 10次下載
- 基于LSTM模型的多時間尺度融合預(yù)測方法 19次下載
- 一種利用GPU并行計算提升雜波生成實時性的方法 12次下載
- 使用深度模型遷移進(jìn)行細(xì)粒度圖像分類的方法說明 5次下載
- 基于ABS細(xì)粒度隱私隔絕的身份追溯研究 0次下載
- 一種細(xì)粒度云存儲數(shù)據(jù)完整性檢測 0次下載
- 具有細(xì)粒度訪問控制的密碼學(xué)的云存儲系統(tǒng) 0次下載
- 一種細(xì)粒度的面向產(chǎn)品屬性的用戶情感模型 0次下載
- 基于AOP的細(xì)粒度RBAC模型研究 20次下載
- 面向多客體的細(xì)粒度RBAC模型及應(yīng)用
- 淺析SpinalHDL中Pipeline中的復(fù)位定制 1090次閱讀
- 什么是pipeline?Go中構(gòu)建流數(shù)據(jù)pipeline的技術(shù) 649次閱讀
- 數(shù)倉中搭建細(xì)粒度容災(zāi)應(yīng)用的主要步驟 440次閱讀
- ICLR 2024 清華/新國大/澳門大學(xué)提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署 686次閱讀
- 一種面向標(biāo)識公共遞歸解析節(jié)點的數(shù)據(jù)安全加固策略 716次閱讀
- Kubernetes RBAC:掌握權(quán)限管理的精髓 493次閱讀
- 基于PyTorch的模型并行分布式訓(xùn)練Megatron解析 3200次閱讀
- Pipeline中throwIt的用法 585次閱讀
- CVPR2023 I BUFFER:點云配準(zhǔn)中卓越精度、高效性和泛化性的完美平衡 1058次閱讀
- 論文插圖也能自動生成了!用到了擴散模型,還被ICLR 2023接收! 584次閱讀
- 基于實體和動作時空建模的視頻文本預(yù)訓(xùn)練 790次閱讀
- Leptos利用細(xì)粒度的響應(yīng)式來構(gòu)建聲明性用戶界面 1168次閱讀
- 通過對比學(xué)習(xí)的角度來解決細(xì)粒度分類的特征質(zhì)量問題 2390次閱讀
- 細(xì)粒度圖像分析任務(wù)在發(fā)展過程中面臨著獨特的挑戰(zhàn) 4923次閱讀
- 一個能通過空間條件坐標(biāo)和隱變量生成圖像片、并合成完整圖片的網(wǎng)絡(luò)模型 4317次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1491次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 95次下載 | 1 積分
- 3S7-200PLC編程實例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于單片機和 SG3525的程控開關(guān)電源設(shè)計
- 0.23 MB | 4次下載 | 免費
- 8基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關(guān)電源設(shè)計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537793次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論