欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

算法優(yōu)化福音:算子自動(dòng)優(yōu)化工具AutoKernel正式開(kāi)源啦

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-08 22:28 ? 次閱讀
文章轉(zhuǎn)載于: Tengine開(kāi)發(fā)者社區(qū)
作者:小O妹

算子自動(dòng)優(yōu)化的發(fā)展趨勢(shì)
隨著AI技術(shù)的快速發(fā)展,深度學(xué)習(xí)在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。深度學(xué)習(xí)模型能否成功在終端落地應(yīng)用,滿足產(chǎn)品需求,一個(gè)關(guān)鍵的指標(biāo)就是神經(jīng)網(wǎng)絡(luò)模型的推理性能。于是,一大波算法工程師為了算法的部署轉(zhuǎn)崗算子優(yōu)化工程師。然而,優(yōu)化代碼并不是一件簡(jiǎn)單的事,它要求工程師既要精通計(jì)算機(jī)體系架構(gòu),又要熟悉算法的計(jì)算流程,于是,稍微有經(jīng)驗(yàn)的深度學(xué)習(xí)推理優(yōu)化工程師都成了各家公司爭(zhēng)搶的“香餑餑”。人才少,需求多,算子優(yōu)化自動(dòng)化是未來(lái)的大趨勢(shì)。
AutoKernel是什么?

最近,一個(gè)致力于降低優(yōu)化門(mén)檻,提升優(yōu)化開(kāi)發(fā)效率的算子自動(dòng)優(yōu)化工具AutoKernel開(kāi)源了。

AutoKernel是一個(gè)高性能算子自動(dòng)優(yōu)化工具,可以自動(dòng)優(yōu)化調(diào)度策略、生成底層優(yōu)化代碼,大幅減少各硬件芯片算子開(kāi)發(fā)成本,提升算子優(yōu)化效率,讓工程師更快實(shí)現(xiàn)深度學(xué)習(xí)算法在各硬件芯片上的高性能部署。
AutoKernel的定位
為了方便大家進(jìn)一步理解AutoKernel,我們需要先了解一下深度學(xué)習(xí)推理計(jì)算平臺(tái)的層級(jí)。

深度學(xué)習(xí)的推理計(jì)算平臺(tái)可以分為以下幾個(gè)層級(jí):
1、最上層對(duì)接各個(gè)深度學(xué)習(xí)訓(xùn)練框架訓(xùn)練出來(lái)的算法模型(Tensorflow, Caffe, Pytorch, Mxnet等);
2、 Hign-level IR是計(jì)算圖(Computation Graph)層級(jí)。神經(jīng)網(wǎng)絡(luò)可以理解為計(jì)算圖(graph),一個(gè)計(jì)算圖由多個(gè)算子(opterator)節(jié)點(diǎn)組成,這些節(jié)點(diǎn)可以是卷積算子(Convolution), 池化算子(Pooling), 全連接算子(Fc)等。這個(gè)層級(jí)可以進(jìn)行一些圖層級(jí)的優(yōu)化,算子融合,子圖切分的操作等;
3、接下來(lái)就是算子(Operator/Kernel)層級(jí)。這個(gè)層級(jí)需要支持每個(gè)硬件后端的每個(gè)算子實(shí)現(xiàn)。目前的高性能算子計(jì)算庫(kù)主要是由資深HPC工程師(高性能計(jì)算優(yōu)化工程師)進(jìn)行手工開(kāi)發(fā)。AutoKernel就是算子層級(jí)的一個(gè)自動(dòng)優(yōu)化工具,自動(dòng)生成適應(yīng)不同后端的算子優(yōu)化代碼;
4、最后是各硬件后端:GPU, ARM CPU, X86 CPU, NPU等。
AutoKernel目前屬于算子層級(jí)的自動(dòng)優(yōu)化工具。
AutoKernel如何實(shí)現(xiàn)部署優(yōu)化?
部署優(yōu)化之前,我們先了解一下AutoKernel的三大特性:
·低門(mén)檻: 無(wú)需底層優(yōu)化匯編的知識(shí)門(mén)檻
·簡(jiǎn)單易用: 提供docker環(huán)境,無(wú)需安裝環(huán)境,plugin一鍵集成到推理框架
·高效率: 無(wú)需手寫(xiě)優(yōu)化匯編,一鍵生成優(yōu)化代碼,一鍵部署
作為算子層級(jí)的一個(gè)自動(dòng)優(yōu)化工具,AutoKernel支持將自動(dòng)優(yōu)化的算子代碼集成進(jìn)部署推理框架,主要流程分為兩步:
1. 生成:編寫(xiě)算法描述和調(diào)度策略,生成相應(yīng)后端的優(yōu)化算子代碼;
2. 部署:將生成的優(yōu)化算子代碼通過(guò)插件plugin的形式集成進(jìn)推理框架Tengine。

AutoKernel的算子生成模塊(Op Generator)使用了業(yè)界廣泛使用的自動(dòng)代碼生成項(xiàng)目Halide。Halide是一個(gè)DSL(domain specific language) 編程語(yǔ)言,它將算法和硬件后端分離。本模塊輸入Halide語(yǔ)言的算法描述和優(yōu)化調(diào)度策略,指定硬件后端,就可以自動(dòng)生成優(yōu)化代碼。為了減少開(kāi)發(fā)者配置環(huán)境的遇到問(wèn)題,AutoKernel提供了docker鏡像,docker里面已經(jīng)安裝好Halide, 并且配置好Halide的Python的API,方便開(kāi)發(fā)者使用。
AutoKernel的部署模塊Autokernel Plugin是一個(gè)相對(duì)獨(dú)立的插件,只依賴于Tengine的算子頭文件,不依賴于Tengine庫(kù)。它實(shí)現(xiàn)了將AutoKernel Generator生成優(yōu)化的算子代碼,以Plugin的形式集成進(jìn)Tengine推理框架中,實(shí)現(xiàn)自動(dòng)優(yōu)化算子的一鍵部署。整個(gè)過(guò)程不需要重新編譯Tengine庫(kù),只需要獨(dú)立編譯Plugin的動(dòng)態(tài)庫(kù),在運(yùn)行時(shí)加載Autokernel Plugin的庫(kù),就能調(diào)用自動(dòng)生成的算子實(shí)現(xiàn)。下面的圖展示了使用AutoKernel前后的變化,只需要在運(yùn)行時(shí)添加一行代碼,加載autokernel plugin的動(dòng)態(tài)庫(kù):

AutoKernel還有一個(gè)模塊叫AutoSearch,該模塊通過(guò)強(qiáng)化學(xué)習(xí)/機(jī)器學(xué)習(xí)/遺傳算法搜索出相應(yīng)后端的最優(yōu)算子的調(diào)度策略參數(shù)。該模塊目前仍在開(kāi)發(fā)中。
AutoKernel使用教程
下圖是展示了在Intel(R) Core(TM) i9-9900K CPU @ 3.60GHz的電腦上的優(yōu)化效果,無(wú)需手工擼代碼,無(wú)需編寫(xiě)繁雜冗長(zhǎng)的底層匯編代碼,只需十幾行簡(jiǎn)潔的調(diào)度代碼, 就能性能優(yōu)化200+倍~

推薦閱讀

更多Tengine相關(guān)內(nèi)容請(qǐng)關(guān)注Tengine-邊緣AI推理框架專欄。

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47818

    瀏覽量

    240610
  • AIoT
    +關(guān)注

    關(guān)注

    8

    文章

    1424

    瀏覽量

    30988
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FRED應(yīng)用:LED發(fā)光顏色優(yōu)化

    emitting sources ),波長(zhǎng)的光譜范圍從廠商數(shù)據(jù)表中利用數(shù)字化工具獲取數(shù)據(jù)。 此例子的布局包含3個(gè)任意的平面光源照射到一個(gè)接受屏。分析面附加于1)屏幕,計(jì)算色坐標(biāo)值。2)光源,計(jì)算LED總功率
    發(fā)表于 01-17 09:39

    FRED應(yīng)用:LED發(fā)光顏色優(yōu)化

    emitting sources ),波長(zhǎng)的光譜范圍從廠商數(shù)據(jù)表中利用數(shù)字化工具獲取數(shù)據(jù)。 此例子的布局包含3個(gè)任意的平面光源照射到一個(gè)接受屏。分析面附加于1)屏幕,計(jì)算色坐標(biāo)值。2)光源,計(jì)算LED總功率
    發(fā)表于 01-07 08:51

    華大九天推出PowerMOS版圖自動(dòng)化工具

    (Andes-Power Generator)和基于仿真加數(shù)學(xué)算法的版圖優(yōu)化工具(Andes-Power EM/RDSon Iteration-Correction)。 Andes-Power工具通過(guò)采用先進(jìn)的智能
    的頭像 發(fā)表于 12-30 11:07 ?324次閱讀

    使用Arthas火焰圖工具的Java應(yīng)用性能分析和優(yōu)化經(jīng)驗(yàn)

    分享作者在使用Arthas火焰圖工具進(jìn)行Java應(yīng)用性能分析和優(yōu)化的經(jīng)驗(yàn)。
    的頭像 發(fā)表于 10-28 09:27 ?392次閱讀
    使用Arthas火焰圖<b class='flag-5'>工具</b>的Java應(yīng)用性能分析和<b class='flag-5'>優(yōu)化</b>經(jīng)驗(yàn)

    英飛凌與采埃孚合作優(yōu)化自動(dòng)駕駛軟件

    英飛凌科技股份公司與采埃孚集團(tuán)攜手參與了EEmotion項(xiàng)目,共同開(kāi)發(fā)并實(shí)施了創(chuàng)新的AI算法,以優(yōu)化自動(dòng)駕駛軟件和控制單元。
    的頭像 發(fā)表于 10-12 16:17 ?480次閱讀

    AFE7070在VHF頻段優(yōu)化工

    電子發(fā)燒友網(wǎng)站提供《AFE7070在VHF頻段優(yōu)化工作.pdf》資料免費(fèi)下載
    發(fā)表于 09-26 10:39 ?0次下載
    AFE7070在VHF頻段<b class='flag-5'>優(yōu)化工</b>作

    基于 DSP5509 進(jìn)行數(shù)字圖像處理中 Sobel 算子邊緣檢測(cè)的硬件連接電路圖

    優(yōu)化。例如,可以調(diào)整存儲(chǔ)模塊的訪問(wèn)速度、優(yōu)化 Sobel 算子的計(jì)算算法、提高顯示模塊的刷新率等,以提高系統(tǒng)的性能和穩(wěn)定性。 總之,基于 DSP5509 的數(shù)字圖像處理中 Sobel
    發(fā)表于 09-25 15:25

    優(yōu)化 FPGA HLS 設(shè)計(jì)

    優(yōu)化 FPGA HLS 設(shè)計(jì) 用工具用 C 生成 RTL 的代碼基本不可讀。以下是如何在不更改任何 RTL 的情況下提高設(shè)計(jì)性能。 介紹 高級(jí)設(shè)計(jì)能夠以簡(jiǎn)潔的方式捕獲設(shè)計(jì),從而
    發(fā)表于 08-16 19:56

    傾斜光柵的魯棒性優(yōu)化

    直接納入優(yōu)化過(guò)程,例如參數(shù)變化分析儀。該工具結(jié)合了同一系統(tǒng)的多次迭代,在優(yōu)化過(guò)程中實(shí)現(xiàn)了評(píng)價(jià)函數(shù)的表示和自動(dòng)計(jì)算,如平均效率。在這個(gè)用例中,我們通過(guò)稍微改變填充因子來(lái)
    發(fā)表于 08-12 18:38

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法有哪些

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法是深度學(xué)習(xí)領(lǐng)域中的核心技術(shù)之一,旨在通過(guò)調(diào)整網(wǎng)絡(luò)中的參數(shù)(如權(quán)重和偏差)來(lái)最小化損失函數(shù),從而提高模型的性能和效率。本文將詳細(xì)探討神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的基本原理、主要方法、
    的頭像 發(fā)表于 07-03 16:01 ?661次閱讀

    寶塔面板Docker一鍵安裝:部署GPTAcademic,開(kāi)發(fā)私有GPT學(xué)術(shù)優(yōu)化工具

    人工智能的浪潮中,GPT模型因其強(qiáng)大的自然語(yǔ)言處理能力備受矚目。然而,為了更好地應(yīng)用于學(xué)術(shù)領(lǐng)域,許多人希望能部署自己私有的GPT學(xué)術(shù)優(yōu)化工具。本文將詳細(xì)介紹如何通過(guò)寶塔面板和Docker一鍵安裝
    的頭像 發(fā)表于 07-02 11:58 ?2873次閱讀
    寶塔面板Docker一鍵安裝:部署GPTAcademic,開(kāi)發(fā)私有GPT學(xué)術(shù)<b class='flag-5'>優(yōu)化工具</b>

    OpenHarmony之開(kāi)機(jī)優(yōu)化

    一丶環(huán)境信息 源碼版本:OpenHarmony-4.1-Release 板子型號(hào):dayu200(RK3568) 二丶Bootchart工具 在開(kāi)機(jī)優(yōu)化時(shí),我們需要借助Bootchart工具,當(dāng)前
    發(fā)表于 07-01 16:39

    ClickHouse內(nèi)幕(3)基于索引的查詢優(yōu)化

    ClickHouse基于索引的查詢算子優(yōu)化方式。 在整個(gè)查詢計(jì)劃中Sort、Distinct、聚合這3個(gè)算子相比其他算子比如:過(guò)濾、projection等有如下幾個(gè)特點(diǎn):1.
    的頭像 發(fā)表于 06-11 10:46 ?1091次閱讀
    ClickHouse內(nèi)幕(3)基于索引的查詢<b class='flag-5'>優(yōu)化</b>

    深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化

    等,需要調(diào)整優(yōu)化網(wǎng)絡(luò)中使用的算子算子組合,這就是深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化。圖優(yōu)化
    的頭像 發(fā)表于 05-16 14:24 ?1106次閱讀
    深度學(xué)習(xí)編譯<b class='flag-5'>工具</b>鏈中的核心——圖<b class='flag-5'>優(yōu)化</b>

    如何對(duì)MD5加密算法優(yōu)化

    有人針對(duì)程序安全啟動(dòng)過(guò)程,進(jìn)行MD5算法優(yōu)化嘛。目前采用標(biāo)準(zhǔn)算法,時(shí)間稍長(zhǎng),如果有人做過(guò)優(yōu)化的話,可以分享一下,謝謝。
    發(fā)表于 02-18 08:20