過去幾年,FPGA的CAGR大約一直保持在8-10%左右,隨著該類器件在AI應(yīng)用中的擴張,未來5年其CAGR增長將高達(dá)38.4%!根據(jù)市場調(diào)研公司Semico Research的預(yù)測,人工智能應(yīng)用中FPGA的市場規(guī)模將在未來4年內(nèi)增長3倍,達(dá)到52億美元。為了保持競爭力,目前全球有25%的企業(yè)實施了人工智能/機器學(xué)習(xí)(AI/ML),而兩年內(nèi),這一比例將增長到72%,以更好地獲得核心職能方面的商業(yè)洞察力。
![企業(yè)AI/ML部署需求增長趨勢](http://file.elecfans.com/web1/M00/93/32/pIYBAFzmRkWAVZVRAAB_yS36dhE728.jpg)
圖:企業(yè)AI/ML部署需求增長趨勢
伴隨這一趨勢,AI的算法在不斷演進(jìn),對數(shù)值精度的選擇要求也更加多元,高效算力、高效豐富的存儲緩存能力以及高效大帶寬的數(shù)據(jù)運送能力,是AI/ML硬件解決方案所面臨的主要挑戰(zhàn)。系統(tǒng)開發(fā)者會利用FPGA架構(gòu)去優(yōu)化功耗、性能和靈活性,并突破處理單元在效率上的瓶頸,包括計算引擎、內(nèi)存層次結(jié)構(gòu)和數(shù)據(jù)移動。
![算法和精度要求不同給處理帶來挑戰(zhàn)](http://file.elecfans.com/web1/M00/93/32/pIYBAFzmRpKAcsx5AAH6tU59q7E520.jpg)
圖:算法和精度要求不同給處理帶來挑戰(zhàn)
就AI的應(yīng)用而言,不同場景應(yīng)用對FPGA的需求不同。通常云計算中的應(yīng)用主要是需要FPGA在AI/ML和高帶寬數(shù)據(jù)加速上的能力,而在端側(cè)則需要在高靈活性的同時還要具有ASIC的性能。雖然,F(xiàn)PGA已經(jīng)大量應(yīng)用于泛AI領(lǐng)域,但它是否很好的滿足這兩個方面的需求,還是一個值得探討的話題。
重構(gòu)FPGA架構(gòu)
縱觀FPGA產(chǎn)品的演進(jìn)歷史(包括器件的產(chǎn)生),每一次大的迭代都是一種設(shè)計方法論的革新,從這個角度看,Achronix公司最近發(fā)布的Speedster7t針對上述兩個應(yīng)用場景上進(jìn)行的優(yōu)化都可以看做方法論上的革新。在開發(fā)Speedster7t的過程中,Achronix的工程團(tuán)隊完全重新構(gòu)想了整個FPGA架構(gòu),以平衡片上處理、互連和外部輸入輸出接口,實現(xiàn)數(shù)據(jù)密集型應(yīng)用吞吐量的最大化,這些應(yīng)用場景可見于那些基于邊緣和基于服務(wù)器的AI/ML應(yīng)用、網(wǎng)絡(luò)處理和存儲。
“Speedster7t是我們歷史上最令人激動的發(fā)布,代表了建立在四個架構(gòu)代系的硬件和軟件開發(fā)基礎(chǔ)上的創(chuàng)新和積淀?!盇chronix公司董事長兼首席執(zhí)行官Robert Blake介紹,“該器件采用TSMC的7nm FinFET工藝制造,專為ML和高帶寬網(wǎng)絡(luò)應(yīng)用進(jìn)行了優(yōu)化?!?/div>具體而言,相較于目前的FPGA,Speedster7t革新之處在于設(shè)計了針對ML的處理器(MLP),以及一個可橫跨和垂直跨越FPGA邏輯陣列的高帶寬的二維片上網(wǎng)絡(luò)(NOC),二者結(jié)合既保留了FPGA的靈活性,又實現(xiàn)了ASIC的性能。不占用FPGA布線的MLP單元
這個片內(nèi)的MLP是高度可配置的、計算密集型的單元模塊,可支持4到24位的整點格式和高效的浮點模式,包括對TensorFlow的16位格式的支持,以及可使每個MLP的計算引擎加倍的增壓塊浮點格式的直接支持。該MLP可以通過運算和緩存級鏈實現(xiàn)更復(fù)雜的算法,而不需要使用FPGA布線資源。“目前FPGA會使用DSP來進(jìn)行ML的處理,但其對數(shù)值精度的支持并不高效,并且需要消耗額外邏輯和存儲資源,其性能也受限于FPGA布線?!盉lake說,“DSP常用于無線數(shù)字濾波的處理,而Speedster7t中的MLP則在計算架構(gòu)、緩存(內(nèi)嵌)、可配置算法以及對整點和浮點的支持上提供了更好的AI/ML的計算性能和能效比?!?/div>圖:在FPGA中采用MLP(右)比DSP(左)更適用于AI/ML處理二維片上網(wǎng)絡(luò)——NOC
NOC是在FPGA路由結(jié)構(gòu)上的另一個重要革新。這一設(shè)計主要針對FPGA的片上處理引擎之間所需的高帶寬通信。Speedster7t片上資源包括8個GDDR6控制器、72個業(yè)界SerDes(1到112 Gbps)、帶有前向糾錯(FEC)的硬件400G以太網(wǎng)MAC(4x100G或8x50G的配置),以及硬件PCI Express Gen5控制器(每個控制器有8個或16個通道)。這些高速I/O和存儲器端口的數(shù)萬兆比特數(shù)據(jù)很容易淹沒傳統(tǒng)FPGA面向比特位的可編程互連邏輯陣列的路由容量,而Speedster7t通過NOC把它們連接到所有FPGA的高速數(shù)據(jù)和存儲器接口。NOC和FPGA功能之間通過網(wǎng)絡(luò)接入點NAP連接,每個水平行和垂直列的交叉點都有NAP(主NAP和從NAP)。NoC中的每行/列都可同時為每個方向提供512Gbps的數(shù)據(jù)流量,其鏈路雙向運行,最大的設(shè)備帶寬可以達(dá)到20Tbps。“最重要的是,NOC消除了傳統(tǒng)FPGA使用可編程路由和邏輯查找表資源在整個FPGA中移動數(shù)據(jù)流中出現(xiàn)的擁塞和性能瓶頸。”Blake說,“這種高性能網(wǎng)絡(luò)不僅可以提高Speedster7t FPGA的總帶寬容量,還可以在降低功耗的同時提高有效LUT容量?!?/div>圖:NOC是在FPGA路由結(jié)構(gòu)上的另一個重要革新的確,NOC這一方法解決了GDDR6、400G以太網(wǎng)MAC這些片上資源海量數(shù)據(jù)傳輸?shù)膯栴}。Speedster7t是目前市面唯一支持GDDR6存儲器的FPGA,可以支持4 Tbps的GDDR6累加帶寬,可以很小的成本提供與基于HBM的FPGA等效存儲帶寬。相較于HBM,GDDR6只需要一半的成本就可以滿足高存儲層次和帶寬的需求,并且,HBM是固化的塊,GDDR6則更靈活,用戶可以選擇不同容量和帶寬。NOC也解決了傳統(tǒng)FPGA的運行速度無法滿足任何400G以太網(wǎng)總線寬度要求的問題,400G以太網(wǎng)的總線大小達(dá)1024bit,所需的最高頻率達(dá)到724 MHz,這在傳統(tǒng)FPGA中無法實現(xiàn),NOC由于消除了傳統(tǒng)設(shè)計中與FPGA布線相關(guān)的延遲,所以可以最高支持750 MHz的頻率,這滿足了MLP和嵌入式存儲器模、400G以太網(wǎng)MAC及高速SerDes之間的數(shù)據(jù)傳輸。聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
- FPGA
+關(guān)注關(guān)注
1630文章
21803瀏覽量
606430- NoC
+關(guān)注關(guān)注
0文章
38瀏覽量
11771發(fā)布評論請先 登錄
相關(guān)推薦
【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值
嵌入式人工智能(EAI)將人工智能集成到機器人等物理實體中,使它們能夠感知、學(xué)習(xí)環(huán)境并與之動態(tài)交互。這種能力使此類機器人能夠在人類社會中有效地提供商品及服務(wù)。 數(shù)據(jù)是一種貨幣化工具 數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)表于 12-24 00:33卡諾模型為人工智能領(lǐng)域提供了一種全新的視角
在探索人工智能如何更深層次滿足用戶需求、提升用戶體驗的旅程中,卡諾模型(Kano Model)提供了一個極具價值的理論框架。這一模型不僅為產(chǎn)集成電路與人工智能結(jié)合
集成電路,為人工智能算法提供了強大的算力支持。 隨著人工智能技術(shù)的不斷發(fā)展,對存儲和計算能力的需求日益增長,而集成電路的快速發(fā)展正好滿足了嵌入式和人工智能究竟是什么關(guān)系?
嵌入式和人工智能究竟是什么關(guān)系? 嵌入式系統(tǒng)是一種特殊的系統(tǒng),它通常被嵌入到其他設(shè)備或機器中,以實現(xiàn)特定功能。嵌入式系統(tǒng)具有非常強的適應(yīng)性和靈活性,能夠根據(jù)用戶需求進(jìn)行定制化設(shè)計。它廣泛應(yīng)用于各種發(fā)表于 11-14 16:39FPGA應(yīng)用于人工智能的趨勢
FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用趨勢日益顯著,主要歸因于其高速、低功耗、靈活性和并行處理能力等獨特優(yōu)勢。以下是對FPGA應(yīng)用于人工智能趨勢的分析:Adobe發(fā)布人工智能視頻創(chuàng)作工具:Firefly Video Model
Adobe公司于10月15日正式揭曉了其最新研發(fā)的人工智能視頻創(chuàng)作工具——Firefly Video Model。這一創(chuàng)新解決方案旨在借助AI技術(shù),賦能視頻內(nèi)容創(chuàng)作者拓寬創(chuàng)意邊界,提升《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
驅(qū)動科學(xué)創(chuàng)新》的第6章為我提供了寶貴的知識和見解,讓我對人工智能在能源科學(xué)中的應(yīng)用有了更深入的認(rèn)識。通過閱讀這一章,我更加堅信人工智能在未來發(fā)表于 10-14 09:27AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
閱讀這一章后,我深感人工智能與生命科學(xué)的結(jié)合正引領(lǐng)著一場前所未有的科學(xué)革命,以下是我個人的讀后感: 1. 技術(shù)革新與生命科學(xué)進(jìn)步 這一章詳細(xì)發(fā)表于 10-14 09:21《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第一章人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得
,還促進(jìn)了新理論、新技術(shù)的誕生。 3. 挑戰(zhàn)與機遇并存 盡管人工智能為科學(xué)創(chuàng)新帶來了巨大潛力,但第一章也誠實地討論了伴隨而來的挑戰(zhàn)。數(shù)據(jù)隱私、算法偏見、倫理道德等問題不容忽視。如何在利發(fā)表于 10-14 09:12risc-v在人工智能圖像處理應(yīng)用前景分析
滿足人工智能圖像處理中對于高性能、低功耗和特定功能的需求。 低功耗 : 在人工智能圖像處理中,低功耗是一個重要的考量因素。RISC-V架構(gòu)的設(shè)計使其在處理任務(wù)時能夠保持較低的功耗水平發(fā)表于 09-28 11:00名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新
芯片設(shè)計的自動化水平、優(yōu)化半導(dǎo)體制造和封測的工藝和水平、尋找新一代半導(dǎo)體材料等方面提供幫助。 第6章介紹了人工智能在化石能源科學(xué)研究、可再生能源科學(xué)研究、能源轉(zhuǎn)型三個方面的落地應(yīng)用。 第7章從環(huán)境監(jiān)測發(fā)表于 09-09 13:54FPGA在人工智能中的應(yīng)用有哪些?
FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和發(fā)表于 07-29 17:05西部數(shù)據(jù)發(fā)布AI數(shù)據(jù)周期框架,推動人工智能革新
在人工智能領(lǐng)域持續(xù)革新的今天,西部數(shù)據(jù)公司憑借其深厚的技術(shù)積累,正式發(fā)布了全新的人工智能數(shù)據(jù)周期(AI Data Cycle)框架。這一框架嵌入式人工智能的就業(yè)方向有哪些?
嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛在嵌入式人工智能發(fā)表于 02-26 10:17卡諾模型驅(qū)動人工智能革新:重塑未來智能生態(tài)!
效地滿足用戶需求,推動產(chǎn)業(yè)智能化升級。 卡諾模型,即Kano模型,它通過對顧客需求的分類和分析,幫助企業(yè)明確產(chǎn)品開發(fā)的優(yōu)先級和方向。將這一模型應(yīng)用于
評論