衛(wèi)星運(yùn)營(yíng)商越來(lái)越多地獲取越來(lái)越多的在軌數(shù)據(jù),并且更愿意在有效載荷上處理這些數(shù)據(jù)以提取增值洞察力,而不是將大量信息下行傳輸?shù)皆贫诉M(jìn)行地面后處理。現(xiàn)有空間級(jí)半導(dǎo)體技術(shù)和/或 RF 帶寬限制限制了可實(shí)時(shí)處理的數(shù)據(jù)量。我知道有幾個(gè)客戶(hù)由于這兩個(gè)原因不得不取消他們的使命愿望,因?yàn)樗麄兊南滦墟溌沸枨髸?huì)違反 ITU 規(guī)定。
相比之下,盡可能靠近原始數(shù)據(jù)源(即在邊緣)的本地化處理是基于對(duì)來(lái)自多個(gè)傳感器的大量信息的實(shí)時(shí)計(jì)算,這些信息是使用低延遲、確定性的接口在一個(gè)小的、具有獨(dú)特散熱和可靠性要求的低功耗外形。在軌提取分析顯著減少了延遲和 RF 下行鏈路帶寬——我們正在有效地將數(shù)據(jù)中心移動(dòng)到原始數(shù)據(jù)的!
在這篇文章中,我想討論和比較微處理器和 FPGA 在邊緣進(jìn)行密集的板載處理。一些應(yīng)用程序從具有不同帶寬的多個(gè)傳感器(例如RF、LIDAR、成像和 GNSS)獲取大量數(shù)據(jù),并且需要實(shí)時(shí)做出關(guān)鍵決策,例如,物體的識(shí)別和分類(lèi)以實(shí)現(xiàn)航天器態(tài)勢(shì)感知,即,敵我識(shí)別、空間碎片碰撞規(guī)避、高清視頻原位對(duì)地觀測(cè)與太空探索、資源利用。使用機(jī)器學(xué)習(xí)技術(shù)提取在軌分析的自主機(jī)載處理也有增加的趨勢(shì)。
現(xiàn)有解決方案和局限性
當(dāng)前的機(jī)載處理基于微處理器或 FPGA,兩者都沒(méi)有針對(duì)物體的 AI在軌表征進(jìn)行優(yōu)化。前者有利于控制、復(fù)雜的決策制定和操作系統(tǒng)支持,而后者可以處理各種計(jì)算要求苛刻的算法,在數(shù)據(jù)移動(dòng)、自定義加速、面向位的功能和接口方面表現(xiàn)出色。然而,現(xiàn)有解決方案無(wú)法有效地處理線(xiàn)性代數(shù)、矩陣或矢量處理,也無(wú)法以低功耗利用并行性進(jìn)行自主機(jī)器學(xué)習(xí)、AI 推理以及神經(jīng)網(wǎng)絡(luò)的實(shí)施以進(jìn)行特征檢測(cè)和分類(lèi)。
在商業(yè)領(lǐng)域,初為游戲玩家開(kāi)發(fā)的 GPU 正被用于加速各種計(jì)算任務(wù),包括加密、金融建模、網(wǎng)絡(luò)和人工智能。GPU 使用多核和并行處理來(lái)同時(shí)執(zhí)行數(shù)千個(gè)線(xiàn)程,與微處理器相比運(yùn)行速度明顯更快且更具成本效益,允許在毫秒而不是秒、分鐘或小時(shí)內(nèi)計(jì)算來(lái)自多個(gè)傳感器的數(shù)據(jù)密集型分析。GPU 針對(duì)大量存儲(chǔ)信息非常快速地反復(fù)執(zhí)行相同的操作進(jìn)行了優(yōu)化,而 CPU 往往會(huì)到處跳躍。
雖然有近三十種空間級(jí)微控制器、微處理器、FPGA 和專(zhuān)用 DSP 引擎,但只有一小部分可以考慮用于在軌基于邊緣的應(yīng)用程序。許多現(xiàn)有設(shè)備不具備計(jì)算能力或低延遲內(nèi)存/I/O 接口。有些消耗太多功率,需要大型且昂貴的熱管理解決方案:之前我描述了如何使您的空間級(jí)半導(dǎo)體保持冷卻,以確保它們的安全運(yùn)行并限度地提高可靠性。表 1 列出了我考慮過(guò)的遺留標(biāo)準(zhǔn)處理產(chǎn)品。對(duì)于下面列出的 FPGA,指定性能是基于資源數(shù)量和時(shí)鐘頻率的理論峰值。V5QV 不包含標(biāo)準(zhǔn)的微處理器 IP。
表 1現(xiàn)成的航天級(jí)機(jī)載處理解決方案。
隨著機(jī)載數(shù)據(jù)量預(yù)計(jì)呈指數(shù)級(jí)增長(zhǎng),您應(yīng)該使用哪種類(lèi)型的處理器來(lái)進(jìn)行密集型、基于邊緣的機(jī)載計(jì)算?MPU 好還是 FPGA 好?ESA 近關(guān)于機(jī)載數(shù)據(jù)處理的 研討會(huì)強(qiáng)調(diào)了當(dāng)前的擔(dān)憂(yōu)、趨勢(shì)和未來(lái)的需求。
阻礙在軌邊緣處理的基本技術(shù)限制是:
缺乏大容量、低延遲、低功耗的太空級(jí)內(nèi)存。目前,快速空間級(jí)存儲(chǔ)僅限于易失性 DDR3/DDR4 SDRAM。之前,我解釋過(guò)要實(shí)現(xiàn) 1Tb 的板載存儲(chǔ)需要 64、16Gb 的芯片,總共消耗 17W 的功率,需要 152.3cm 3 的物理空間和 468,060 英鎊的財(cái)務(wù)成本。這在任何級(jí)別上都不是一個(gè)可行的實(shí)現(xiàn),并且空間限定的非易失性?xún)?nèi)存非常慢。
缺乏用于提供所需處理能力的空間應(yīng)用的高能效微處理器或 FPGA。在過(guò)去十年中,基于 65 和 20 納米 SRAM 的 FPGA 提供了消耗 20 W 的有效負(fù)載處理,而基于 28 納米閃存的設(shè)備提供了更低功耗的解決方案。超深亞微米性能、邏輯密度和資源導(dǎo)致消耗增加。具有所需原始性能的空間級(jí) MPU 的功耗超過(guò) 30 W。
現(xiàn)有的航天級(jí)微處理器或 FPGA 無(wú)法有效地融合和處理來(lái)自多個(gè)傳感器的輸入。將大量信息移入和移出處理器會(huì)造成數(shù)據(jù)密集型計(jì)算的性能瓶頸。
現(xiàn)有的太空級(jí)微處理器或 FPGA 無(wú)法有效地實(shí)施用于對(duì)象識(shí)別和分類(lèi)的深度學(xué)習(xí)算法。
基于邊緣處理的新解決方案
為了實(shí)現(xiàn)那些需要在軌、基于邊緣、機(jī)載處理的應(yīng)用,的 FPGA 和微處理器正在解決上述限制:
快速(高達(dá) 2,400 MT/s)、4 GB、空間級(jí) DDR4 內(nèi)存的小尺寸可用性,我在之前的文章中對(duì)此SDRAM的硬件設(shè)計(jì)進(jìn)行了介紹。
低功耗 28 nm 閃存 FPGA 的可用性降低了功耗,更節(jié)能的微處理器提高了 GFlops / W 指標(biāo)。
自 2020 年以來(lái),Teledyne e2v 的耐輻射 QLS1046-4GB 計(jì)算密集型微處理器包括數(shù)據(jù)路徑加速架構(gòu) (DPAA),以增加數(shù)據(jù)包解析、隊(duì)列管理、硬件緩沖區(qū)管理和加密,并支持 IEEE 1588 精度時(shí)間協(xié)議。同樣自 2020 年以來(lái),Xilinx 的XQRKU060改進(jìn)了信息流和吞吐量,數(shù)據(jù)路徑、I/O 和內(nèi)存接口針對(duì)低延遲進(jìn)行了優(yōu)化。
下一代 7 納米 FPGA 包含專(zhuān)為處理線(xiàn)性代數(shù)而優(yōu)化的 AI 模塊,可加速深度學(xué)習(xí)算法的性能。QLS1046-4GB 的四個(gè)內(nèi)核均包含原生矢量協(xié)處理器,例如。氖。
表 2 包括的航天級(jí) FPGA 和微處理器:前者結(jié)合了可重構(gòu)邏輯、MPU,而下一代部件將包含用于高效矢量處理的 AI 塊。對(duì)于以綠色列出的 FPGA/MPSoC,指定性能是基于資源數(shù)量和時(shí)鐘頻率的理論峰值。實(shí)際計(jì)算水平會(huì)較低,具體取決于這些計(jì)算的使用方式、實(shí)現(xiàn)方式、內(nèi)存和 I/O 使用情況,但表 2 提供了一個(gè)有用的比較,包括軟核 RISC CPU。KU060 和 Versal 器件的高度并行特性反映在它們的大 TOPS 值中。
表 2航天級(jí)機(jī)載處理解決方案的比較。
隨著機(jī)載數(shù)據(jù)量的顯著增加,使用人工智能和機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自主有效載??荷處理的趨勢(shì)越來(lái)越明顯,可以為時(shí)序關(guān)鍵型和非實(shí)時(shí)應(yīng)用提取在軌分析。例如,在其地面站覆蓋范圍之外的空間碎片回收航天器將無(wú)法接收到啟動(dòng)避碰操作的延遲命令。從多個(gè)傳感器獲得機(jī)載態(tài)勢(shì)感知,然后進(jìn)行對(duì)象檢測(cè)和分類(lèi),將允許實(shí)時(shí)做出這種時(shí)間關(guān)鍵的決定,而無(wú)需人工干預(yù)。同樣,高清 SAR 圖像生成大量地球觀測(cè)數(shù)據(jù),而不是阻塞寶貴的 RF 下行鏈路,在軌人工智能推理和神經(jīng)網(wǎng)絡(luò)的實(shí)施將允許進(jìn)行特征識(shí)別、場(chǎng)景分割和表征。
傳統(tǒng)計(jì)算側(cè)重于處理已知問(wèn)題,即可以輕松描述的問(wèn)題。另一方面,深度學(xué)習(xí)就是解決你無(wú)法解釋的問(wèn)題,例如,識(shí)別圖像中的對(duì)象,并且隨著時(shí)間的推移會(huì)變得更好。機(jī)器學(xué)習(xí)通常分為兩個(gè)階段:訓(xùn)練和推理。精心策劃的數(shù)據(jù)被輸入模型,并調(diào)整變量以產(chǎn)生特定的預(yù)測(cè)。這需要線(xiàn)性代數(shù)、矩陣和矢量運(yùn)算,然而,現(xiàn)有的解決方案無(wú)法有效地執(zhí)行這些操作,也無(wú)法在低功耗下利用并行性。雖然的微處理器和 FPGA 的原始處理能力可能已經(jīng)足夠,但這些設(shè)備在關(guān)鍵的延遲方面存在不足。在存儲(chǔ)和 CPU 之間移動(dòng)數(shù)據(jù)會(huì)給數(shù)據(jù)密集型應(yīng)用程序帶來(lái)性能瓶頸。
Teledyne e2v 提供其耐輻射Qormino QLS1046-4GB 四核處理器,結(jié)合了四個(gè)運(yùn)行頻率高達(dá) 1.8 GHz 的 ARM ? Cortex A72 內(nèi)核和 4 GB 快速 DDR4 SDRAM,外形小巧,44 x 26 毫米,如下圖所示. 將片外存儲(chǔ)器與多個(gè) CPU 集成到單個(gè)基板上,無(wú)需設(shè)計(jì)這種復(fù)雜的時(shí)序關(guān)鍵接口,提供顯著的尺寸、重量和功率 (SWaP) 優(yōu)勢(shì),以實(shí)現(xiàn)在軌邊緣處理。該部件提供 30,000 DMIPS 或超過(guò) 45,000 CoreMarks 的計(jì)算性能。
四個(gè) MPU 執(zhí)行 ARMv8-A 架構(gòu),每個(gè)都有自己的 L1 32KB 數(shù)據(jù)緩存和 48KB 指令緩存,并共享一個(gè)公共的 2MB L2,如圖 2 所示。頻率為 1.2 GHz,電源電壓為1 V 和 1.6 GT/s 的 DDR 速率,QLS1046-4GB 的總功耗范圍為 6.5 至 12 W(不包括外圍設(shè)備),具體取決于允許結(jié)溫。同樣,在 1.8 GHz、1 V 的電源和 2.1 GT/s 的 DDR4 速率下,該設(shè)備的功耗為 9.3 至 19.4 W。其原始計(jì)算性能與內(nèi)存帶寬一起避免了 I/O 瓶頸和小尺寸差異化QLS1046-4GB 來(lái)自表 1 中列出的解決方案。
圖 1 Qormino QLS1046-4GB 處理器和內(nèi)存 [Teledyne e2v]。
Teledyne e2v 的耐輻射處理器路線(xiàn)圖將包括新的、多核、基于 ARM ?的 MPU,能夠連接到更大量的快速 DDR4 SDRAM。更多的將允許計(jì)算與并行執(zhí)行的任務(wù)分開(kāi)。可在此處查看描述使用 QLS1046-4GB 進(jìn)行深度學(xué)習(xí)的個(gè)用例。
圖 2 Qormino QLS1046-4GB 框圖。
9 月,Xilinx 宣布將發(fā)布其 Versal ACAP(自適應(yīng)計(jì)算加速平臺(tái))的抗輻射版本。該器件包含一系列 AI 引擎,包括 VLIW SIMD 高性能內(nèi)核,包含用于定點(diǎn)和浮點(diǎn)運(yùn)算的矢量處理器、標(biāo)量處理器、專(zhuān)用程序和數(shù)據(jù)存儲(chǔ)器、專(zhuān)用 AXI 通道以及對(duì) DMA 和鎖的支持。
AI tile 提供多達(dá) 6 路指令并行性,包括兩個(gè)/三個(gè)標(biāo)量操作、兩個(gè)向量讀取和一個(gè)寫(xiě)入,以及每個(gè)時(shí)鐘周期的一個(gè)固定或浮點(diǎn)向量操作。數(shù)據(jù)級(jí)并行性是通過(guò)矢量級(jí)操作實(shí)現(xiàn)的,其中可以在每個(gè)時(shí)鐘周期的基礎(chǔ)上操作多組數(shù)據(jù)。與的 FPGA 和微處理器相比,AI 引擎將機(jī)器學(xué)習(xí)算法的性能分別提高了 20 倍和 100 倍,功耗僅為其 50%。與表 1 中列出的現(xiàn)成處理解決方案相比,AI 塊是實(shí)現(xiàn)智能、自主、在軌邊緣處理的關(guān)鍵區(qū)別特征。
圖 3 Xilinx 的 Versal ACAP [Xilinx] 的框圖。
結(jié)論
對(duì)于我目前正在開(kāi)發(fā)的應(yīng)用程序,哪種類(lèi)型的板載處理器更好?FPGA、微處理器還是 ACAP?很大程度上取決于算法的實(shí)現(xiàn)方式,例如片上緩存的使用、外部存儲(chǔ)器訪(fǎng)問(wèn)的數(shù)量和頻率、流水線(xiàn)、并行化和緩沖。的太空級(jí)設(shè)備可以超越商用 GPU,同時(shí)還能實(shí)現(xiàn)更高的功率和價(jià)格效率。
對(duì)于高清 SAR 視頻,QLS1046-4GB 的原始計(jì)算性能及其快速的內(nèi)存接口和小巧的外形使其適合從地球觀測(cè)成像數(shù)據(jù)中提取實(shí)時(shí)信息。高達(dá) 2.1 GHz 的 DDR4 速率避免了傳統(tǒng)的 I/O 瓶頸。
對(duì)于態(tài)勢(shì)感知,例如,為了識(shí)別朋友或敵人,或避免空間碎片碰撞,的 FPGA(如 KU060)能夠?qū)崟r(shí)攝取和處理來(lái)自多個(gè)傳感器的 Tbps 數(shù)據(jù),低延遲,以交付 ASIC一流的系統(tǒng)級(jí)性能。同樣對(duì)于原位太空探索,資源利用。FPGA 處理一組不同的計(jì)算要求高的算法,在數(shù)據(jù)移動(dòng)、自定義加速、面向位的功能和接口方面表現(xiàn)出色。
對(duì)于對(duì)象分類(lèi)、AI 推理和自主決策制定,以實(shí)現(xiàn)特征識(shí)別,以便根據(jù)實(shí)時(shí)交通需求對(duì)碎片回收航天器或可重新配置的認(rèn)知轉(zhuǎn)發(fā)器進(jìn)行后期指揮,Xilinx 的 ACAP 將產(chǎn)生效的基于邊緣的矢量計(jì)算解決方案。神經(jīng)網(wǎng)絡(luò)的實(shí)施需要 Versal 提供的 TeraOPS 性能和特定領(lǐng)域的并行性。這些 7 nm 設(shè)備可能會(huì)耗電,因此請(qǐng)檢查早期的功率預(yù)測(cè)電子表格以確保它們符合您分配的預(yù)算。QLS1046-4GB 可以以更低的功耗和更少的財(cái)務(wù)成本提供深度學(xué)習(xí)。
航天級(jí)微處理器、FPGA 和 ACAP 是互補(bǔ)的機(jī)載處理技術(shù),每種技術(shù)都具有獨(dú)特的優(yōu)勢(shì)。在軌,基于邊緣的處理需要實(shí)時(shí)計(jì)算從數(shù)據(jù)源處的多個(gè)傳感器獲取的大量信息,需要低延遲、確定性的接口,采用小型、低功耗外形,具有獨(dú)特的散熱和可靠性要求.
在為密集型在軌邊緣計(jì)算選擇合適的機(jī)載處理器時(shí),還需要考慮上市時(shí)間、實(shí)施和采購(gòu)方面的考慮,例如,F(xiàn)PGA 通常需要比微處理器更多的電源軌,這意味著需要更多的穩(wěn)壓器,因此需要更大的 PCB 來(lái)容納它們。FPGA 還享有更難設(shè)計(jì)的名聲。對(duì)于某些項(xiàng)目,入軌時(shí)間可能非常短,原始設(shè)備制造商將堅(jiān)持使用熟悉供應(yīng)商的現(xiàn)有設(shè)備以加快硬件設(shè)計(jì)。一些制造商沒(méi)有技能或時(shí)間來(lái)學(xué)習(xí)新的開(kāi)發(fā)工具或不同的編程語(yǔ)言。的超深亞微米、太空級(jí) FPGA 的六位數(shù)價(jià)格也是許多 OEM 的障礙,尤其是那些以低成本、NewSpace 應(yīng)用為目標(biāo)的 OEM。
下一代在軌邊緣處理將結(jié)合微處理器、FPGA 和智能計(jì)算,形成一個(gè)緊密集成的異構(gòu)平臺(tái)。需要多種引擎類(lèi)型,因?yàn)闆](méi)有一種引擎能夠以方式執(zhí)行應(yīng)用程序所需的所有任務(wù)。標(biāo)量微處理器是控制、復(fù)雜決策制定和操作系統(tǒng)支持的理想選擇,可重新配置的 FPGA 增加了處理各種要求苛刻的算法的靈活性,而智能引擎則優(yōu)化了線(xiàn)性代數(shù)和矢量算法的計(jì)算,以用于機(jī)器學(xué)習(xí)和人工智能推理。
以下雷達(dá)圖(圖 4)比較了 QLS1046-4GB、的超深亞微米、航天級(jí) FPGA 和用于在軌、基于 EDGE 的處理的 ACAP:
圖 4: 板載處理解決方案的比較。
歡迎加入至芯科技FPGA微信學(xué)習(xí)交流群,這里有一群優(yōu)秀的FPGA工程師、學(xué)生、老師、這里FPGA技術(shù)交流學(xué)習(xí)氛圍濃厚、相互分享、相互幫助、叫上小伙伴一起加入吧!
點(diǎn)個(gè)在看你最好看
原文標(biāo)題:用于密集、在軌、基于邊緣的計(jì)算的微處理器和 FPGA
文章出處:【微信公眾號(hào):FPGA設(shè)計(jì)論壇】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
FPGA
+關(guān)注
關(guān)注
1630文章
21803瀏覽量
606443
原文標(biāo)題:用于密集、在軌、基于邊緣的計(jì)算的微處理器和 FPGA
文章出處:【微信號(hào):gh_9d70b445f494,微信公眾號(hào):FPGA設(shè)計(jì)論壇】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論