R-D算法是SAR成像中應(yīng)用最廣的一種算法,因其具有原理直觀、實現(xiàn)方便等優(yōu)點在實際中有廣泛的應(yīng)用。
R-D算法的基本特點是運動補償、參數(shù)估計比較靈活,距離向處理和方位向處理分開,運算既是并發(fā)的、又是流水的,同時他又具有SAR成像本身的大運算量、大存儲量等特點,故R-D SAR信號處理機在系統(tǒng)結(jié)構(gòu)上有其自身的特點。本文在分析R-D SAR信號處理特點的基礎(chǔ)上探討R-D SAR成像系統(tǒng)的設(shè)計,整個系統(tǒng)利用當前流行的PCI Express總線進行數(shù)據(jù)通信,提高了數(shù)據(jù)傳輸能力。
1 、R-D算法流程及特點
距離-多普勒成像雷達雖然有多種參數(shù)估計方法,各自的成像算法又有很大的差異,但基本運算和算法流程差別不大,如圖1所示。
其中,(2)~(6)表示成像處理。在(2)中一般采用dechirp或者匹配濾波的方法。如果采用dechirp方法,要生成一幅8 192×8 192點的圖像,需要在距離向處理中進行8 192次8 192點FFT運算;而同樣大小的圖像如果采用匹配濾波的方法則需要16 383×8 192點FFT運算,這還沒有包括運動補償和乘以解調(diào)頻函數(shù)(dechirp方法)或乘以脈壓匹配函數(shù)(匹配濾波方法)中的乘法運算。
圖中(3)就是專門進行距離向處理所必需的參數(shù)估計、運動補償因子計算以及解調(diào)頻函數(shù)或脈壓匹配函數(shù)的計算。這個過程往往需要用到預(yù)處理完成后的部分數(shù)據(jù)甚至全部數(shù)據(jù),有時還要用到中間結(jié)果的部分數(shù)據(jù)甚至全部數(shù)據(jù)。完成距離向處理后,為了在方位向處理時數(shù)據(jù)能夠在存儲器中按方位向連續(xù)存放以加快存取速度,要將數(shù)據(jù)轉(zhuǎn)置
(4)(這里原始數(shù)據(jù)按距離向連續(xù)存放)。方位向處理與距離向處理類似,但方位壓縮
(5)一般采用匹配濾波的方法,因為方位回波的帶寬比較寬。而這期間也要由(6)來專門估計方位向參數(shù),計算相位校正函數(shù)和方位向脈壓匹配函數(shù)。
由此總結(jié)R-D SAR成像雷達信號處理的特點如下:
巨大的存儲量 顯然,僅存一幅8 192×8 192點復(fù)圖像所需要的存儲量約為512 MB,如果乒乓工作,那么處理器的存儲能力需要超過1 GB,顯然應(yīng)該用SDRAM。
巨大的運算量 因距離向和方位向都要進行脈沖壓縮,故運算量非常大。以8 192×8 192點圖像為例,若兩個方向都采用匹配濾波方法,一共需要進行32 768次8 192點FFT運算;若采用基2方法,僅FFT運算就需要1 280萬次復(fù)數(shù)乘法,3 432萬次復(fù)數(shù)加法。設(shè)合成孔徑時間是5 s,則在一個合成孔徑時間內(nèi)算出一幅圖像要求處理器的有效運算能力在10億FLOPS以上,因此必須采用多處理器結(jié)構(gòu)。
處理的并發(fā)性和流水性 原始數(shù)據(jù)一般是以回波到達順序進入信號處理機,這樣在距離向處理時可采用流水方式進行,流水線以子孔徑為單位分級。方位向的參數(shù)估計往往需要整個孔徑長度的方位回波,所以方位向處理要等到在整個孔徑上完成距離向處理后才開始并發(fā)執(zhí)行。因此不僅要考慮整體的流水操作,還要考慮距離向處理和方位向處理的差異。 巨大的通信數(shù)據(jù)率 在進行參數(shù)估計和計算校正函數(shù)以及匹配函數(shù)時往往要用到數(shù)據(jù)的部分或全部樣本,由于運算集中在計算FFT上,處理器能夠花費在參數(shù)估計上的時間已非常有限,讀取數(shù)據(jù)的時間就更少了,這就要求在處理器的各模塊之間有良好的拓撲結(jié)構(gòu)和很高的數(shù)據(jù)傳輸速率。
2、 PCI Express總線技術(shù)
2.1 PCI Express總線簡介
在基于PCI總線的PC世界或工控領(lǐng)域里,隨著網(wǎng)絡(luò)流量的不斷提高,PCI和PCI-X的多點并行架構(gòu)的瓶頸越來越突出,而PCI Express架構(gòu)具有更高的性能,可以突破此類瓶頸的限制。PCI Express架構(gòu)采用串行輸入/輸出結(jié)構(gòu),每條通道在每個方向上的發(fā)送和接收數(shù)據(jù)速率高達2.5 Gb/s,最新的PCI Express 2.0的數(shù)據(jù)速率更是高達5 Gb/s,具有更好的可擴展性,可提供更高的帶寬。由于PCI和PCI-X總線采用共享多點并行總線架構(gòu),所以當總線中的插槽和設(shè)備數(shù)量增加時,有限的總線資源會被多個設(shè)備共享,于是帶寬就會相應(yīng)的下降。PCI和PCI-X采用平行的、多點下傳的連接架構(gòu),很容易產(chǎn)生串擾現(xiàn)象,此外所有的信號線必須完全等長,否則無法將信號同步傳到另一端,而會產(chǎn)生信號扭曲。這些問題讓PCI的時鐘頻率難以提升,電壓也難以下降,造成速度提升上的發(fā)展限制。而PCI Express采用序列的、點對點的連接架構(gòu),收發(fā)數(shù)據(jù)差分傳輸,可以避免信號不同步并且減少干擾。PCIExpress帶寬隨著通道數(shù)的增加而增加,如表1所示。
PCI Express是全新第三代I/O串行總線標準,其性能超越了以前的PCI標準。但是PCI、PCI-X與PCI Express仍將在未來的一段時間內(nèi)共存。PCI Express可提供專用的、高性能的、可擴展的帶寬總線和卓越的以太網(wǎng)性能,其功能遠遠超越了PCI和PCI-X的共享多點架構(gòu)。從軟件上看,采用PCI-Express架構(gòu)可以兼容所有為PCI設(shè)備編寫的軟件。
在雷達信號處理系統(tǒng)設(shè)計中,要突破帶寬的限制,PCIExpress總線是一個不錯的選擇。在PCI Express點到點的結(jié)構(gòu)中,每個設(shè)備都有一個專用連接而不必共享帶寬。一種典型的通過PCI Express互連的信號處理架構(gòu)就是每個設(shè)備都與一個系統(tǒng)控制模塊相連。值得注意的足,系統(tǒng)控制模塊必須具備對串行數(shù)據(jù)進行交換的能力。?
2.2 支持PCI Express總線的MicroTCA機箱
在工控機箱領(lǐng)域,MicroTCA充分采納和沿用了AT-CA的各項優(yōu)點,把ATCA的AMC模塊(Advanced Mez-zanine Card)作為系統(tǒng)的基本配置單元,具有更小的體積、更緊湊的結(jié)構(gòu)和相對較低的系統(tǒng)成本,所以采用MicroT-CA架構(gòu)的機箱是一個好的選擇。
MicroTCA是一個完全模塊化的系統(tǒng)平臺,主要包括AMC模塊、MCH模塊、電源模塊、高速背板、機箱和風扇等,其結(jié)構(gòu)如圖2所示。
AMC是MicroTCA的基本功能模塊,他有6種標準尺寸,這里采用148.8 mm*13.88 mm*181.5 mm的標準。用AMC可以實現(xiàn)數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)通信和數(shù)據(jù)I/O功能。與CPCI系統(tǒng)的PMC模塊相比,AMC在結(jié)構(gòu)、功能、性能、互連方式和擴展能力等方面都有很大優(yōu)勢。MCH(MicroTCA Controller & Hub)是MicroTCA的系統(tǒng)控制、管理和數(shù)據(jù)交換模塊。每個MCH可以對12個AMC提供數(shù)據(jù)交換和管理功能,每個系統(tǒng)最多可有4個MCH通過更新通道互連實現(xiàn)多達48個AMC的數(shù)據(jù)交換和管理。每個AMC最多有21個可配置的高速數(shù)據(jù)接口,每個MCH最多有60個可配置的高速數(shù)據(jù)接口,這些接口通過MicroTCA背板及MCH的交換網(wǎng)絡(luò)實現(xiàn)高速數(shù)據(jù)通信。
MicroTCA擁有標準化的功能模塊、可配置的業(yè)務(wù)類型、可擴展的背板傳輸帶寬、緊湊的物理結(jié)構(gòu)、靈活的應(yīng)用方式、梯級化的可靠性設(shè)計、較低的開發(fā)和應(yīng)用成本、較少的產(chǎn)品開發(fā)時間、更長的產(chǎn)品生命周期?;谶@些先進特性,MicroTCA必將得到廣泛的應(yīng)用。
綜合上述優(yōu)點,我們采用具有MicroTCA架構(gòu)的提供標準PCI Express總線的工控機。ELMA公司的MicroTCA 7U系統(tǒng)平臺符合PICMG規(guī)范,提供標準的PCI Express插槽,支持單寬、雙寬,半高、全高的AMC模塊,采用風冷的冷卻方式,具有高級的EMC屏蔽和靈活的組合方式,是我們雷達成像處理系統(tǒng)所需標準機箱的一個不錯的選擇。機箱的底板采用ELMA公司的14槽MicroTCA背板,他符合MicroTCA.0 R1.0標準規(guī)范,具有12個AMC模塊、1個電源模塊、1個MCH模塊,單槽數(shù)據(jù)帶寬可達40 Gb/s,具有高速串行連接器,支持6.25 Gb/s的傳輸率,此外還有標準的系統(tǒng)管理接口。底板的主要功能是給采集/存儲板卡及信號處理板卡提供標準的PCI Express插槽,給板卡供電的同時可以實現(xiàn)主機與板卡間的通信以及板卡間的相互通信。
2.3 支持PCI Express總線的接口芯片
設(shè)計信號處理板卡時,為了簡化板卡,提高硬件的靈活性,這里用FPGA來控制整個板卡,包括對DSP的控制、數(shù)據(jù)交換模塊的設(shè)計以及接口的實現(xiàn)。事實上,在SAR處理中還經(jīng)常用FPGA作方位向的預(yù)濾波、距離壓縮等工作,所以要選用資源豐富的,速度較快的,RAM容量較大的FPGA。Altera公司推出的Stratix II GX系列完全可以勝任上述工作,其內(nèi)嵌的RAM可以作為本級FIFO使用,使設(shè)計更緊湊、靈活,此外還可以對其編程實現(xiàn)PCI Express與局部端的通信。綜合考慮,F(xiàn)PGA采用Altera公司的EP2SGX60E芯片。
Stratix II GX FPGA收發(fā)器工作速率為622 Mb/s~6.375 Gb/s。經(jīng)過優(yōu)化,F(xiàn)PGA能提供優(yōu)異的信號完整性,降低了布板風險。在Stratix II GX器件中,收發(fā)器模塊含有特定的硬件知識產(chǎn)權(quán)(IP),支持多種主要協(xié)議,包括PCI Express等,還可提供低功耗解決方案,特別適合散熱困難的背板應(yīng)用。設(shè)計中采用這個芯片,在很大程度上簡化了板卡結(jié)構(gòu),提高了板卡的靈活性。
3、實時成像系統(tǒng)方案設(shè)計
這里所設(shè)計的實時雷達成像處理系統(tǒng)由標準機箱、采集/存儲板卡以及信號處理板卡組成。標準機箱是板卡的支撐平臺并進行圖像的顯示。采集/存儲板卡高度集成,實現(xiàn)雷達回波的實時采樣和實時存儲?;?片ADSP-TS201的信號處理板卡是成像處理的核心,4片DSP采用并行、流水的方式以達到實時成像處理的要求。采用PCIExpress總線能夠有效地利用PC機資源和應(yīng)用軟件,利于開發(fā)圖形化操作界面,極大地方便了信號處理系統(tǒng)的調(diào)試、狀態(tài)監(jiān)控以及圖像顯示。AD采樣的數(shù)據(jù)一邊存入FLASH陣列,一邊傳給DSP進行實時處理,處理完的結(jié)果通過PCI Express總線讀入計算機內(nèi)存并進行顯示。信號處理板卡是專門為雷達成像設(shè)計的一種通用處理模塊。4片DSP峰值并行處理可達到12 GFLOPS的運算(DSP內(nèi)核工作在500 MHz)。實際中根據(jù)算法的復(fù)雜度選取信號處理板卡的數(shù)量。成像處理系統(tǒng)結(jié)構(gòu)如圖3所示,其中MCH模塊用來控制板間通信。
3.1數(shù)據(jù)的采集與存儲
采集/存儲板卡設(shè)計時將采集和存儲集成在一塊板卡上,可以設(shè)計成高速和低速兩種采集/存儲卡。高速卡適合于對高速的中頻采樣,如直接對高分辨SAR雷達中頻回波采樣;低速卡適合于精度要求高、速度要求低一點的場合,如在ISAR的Dechirp后以及普通的SAR基帶回波采樣。采樣后的數(shù)據(jù)經(jīng)FPGA控制存人FLASH陣列。板卡上有128 GB容量的FLASH陣列,通過72片F(xiàn)LASH芯片并行操作(其中64片F(xiàn)LASH用來存儲數(shù)據(jù),8片F(xiàn)LASH用來提供冗余校驗,這樣即使有幾個芯片損壞也可以保證數(shù)據(jù)的完整性),可以實現(xiàn)240 MB的穩(wěn)定連續(xù)讀寫速度,可應(yīng)用于高速大容量存儲的場合。板卡采用標準PCI Express接口,主機可以直接讀取采樣數(shù)據(jù)并進行顯示。
3.2信號處理模塊
信號處理模塊是系統(tǒng)的核心,由于成像算法的復(fù)雜性,選用AD公司的ADSP-TS201作為主處理器。這是一款極高性能的靜態(tài)超標量處理器,他將非常寬的存儲器寬度和雙運算模塊組合在一起。TigerSHARC靜態(tài)超標量結(jié)構(gòu)使DSP每周期執(zhí)行多達4條指令、24個16位定點運算和6個浮點運算。運行在500 MHz時,TS201可提供48億次40位的MAC運算或者12億次的80位MAC運算。TS201的鏈路口時鐘和數(shù)據(jù)線采用低壓差分信號,可以達到很高的速度,單個鏈路口全雙工工作的速度可以達到1 GB/s。TS201有豐富的內(nèi)部存儲資源,能提供33.6GB/s的內(nèi)存帶寬,特別適合并行組成高速并行處理器。從多片互連來看,他除了有完善的總線仲裁機制外還有4個高速鏈路口,可以以各種拓撲結(jié)構(gòu)互連DSP,滿足大運算量的要求。
根據(jù)R-D算法既是并行的又是流水的特點,這里設(shè)計了分布式的并行系統(tǒng)。板卡擁有4片TS201,1 GB的存儲空間。4個DSP采用分離總線的形式與一片F(xiàn)PGA相連,每個DSP都有獨立的256 MB、64位寬度的SDRAM,4個DSP可以同時訪問自己的SDRAM。系統(tǒng)采用標準的PCI Express總線。板卡上的FPGA負責整個板子的控制和接口工作。內(nèi)核工作在500 MHz時,板卡的峰值運算能力達到每秒120億次浮點運算。圖4為信號處理板卡的框圖。
4個DSP分布式互連,可以通過鏈路口進行數(shù)據(jù)交換,也可以通過FPGA進行數(shù)據(jù)傳輸。鏈路口是全雙工的,可以穩(wěn)定工作在500 MHz的時鐘頻率下。每個DSP的64位數(shù)據(jù)總線連到FPGA,在FPGA中設(shè)計了交換電路,任意兩個DSP之間的數(shù)據(jù)交換速度為800 MB/s。DSP之間的鏈路口兩兩互連。
另外我們也設(shè)計了共享存儲空間的信號處理板卡,存儲器采用DDR2 SDRAM,由FPGA控制,容量為2 GB,時鐘266 MHz,由于采用雙倍數(shù)據(jù)率,單個數(shù)據(jù)線傳輸速率最高可達533 Mb/s,64位數(shù)據(jù)線的傳輸率最高4 200 MB/s。各個DSP總線都連接到FPGA上,DSP的外部時鐘為100 MHz,64位總線的數(shù)據(jù)傳輸率可達800 MB/s,4個DSP同時訪問時速度為3 200 MB/s。DSP通過FPGA來訪問存儲空間,當多個DSP同時訪問時,在FPGA內(nèi)部控制訪問順序。4個DSP的鏈路口仍是兩兩互連,結(jié)構(gòu)如圖5所示。
我們根據(jù)R-D算法的特點利用多處理器并行結(jié)構(gòu)設(shè)計了體積小、功耗低、效率高的信號處理機。采用子孔徑方法進行距離向處理,在第一個子孔徑完成距離向處理后就可以開始數(shù)據(jù)轉(zhuǎn)置,所以距離向處理可以按子孔徑來進行流水處理,數(shù)據(jù)轉(zhuǎn)置可以與之同時進行。為了實現(xiàn)整體的流水作業(yè),距離向處理和方位向處理應(yīng)該在不同的運算模塊中進行,這樣在對前幅圖像進行方位向處理時,可以對下幅圖像進行距離壓縮和數(shù)據(jù)轉(zhuǎn)置。
由于方位向處理時會涉及到數(shù)據(jù)的重復(fù)利用,而且方位向的參數(shù)估計比距離向的參數(shù)估計復(fù)雜,所以方位向處理板卡數(shù)目多于距離向處理板。在這里我們用三個信號處理板卡按照流水方式實現(xiàn)R-D算法,第一個板卡處理距離向數(shù)據(jù),另外兩個板卡進行方位向處理。采集存儲板卡通過PCI Express接口將采集到的數(shù)據(jù)按方位的先后傳輸給第一個信號處理板進行距離向處理,這時在板卡內(nèi)部數(shù)據(jù)以回波到達順序分別進入不同的DSP,4個DSP同時接收數(shù)據(jù)并發(fā)進行處理,處理完的數(shù)據(jù)按照方位向存儲到各自的SDRAM,另外兩個板卡通過PCI Express接口接收距離向處理后的數(shù)據(jù)并發(fā)進行方位向處理,與此同時,第一個板卡進行下一幅圖像的距離向處理。每個板卡上DSP之間的數(shù)據(jù)傳輸通過鏈路口進行,由于進行數(shù)據(jù)處理時往往需要一部分樣本,鏈路口完全能夠勝任這個量級的數(shù)據(jù)通信。所有的數(shù)據(jù)均通過PCI Express總線由MCH控制傳輸方向和進行數(shù)據(jù)交換,結(jié)構(gòu)如圖6所示。
5、 結(jié)語
本文針對R-D SAR成像算法的特點設(shè)計了一種基于PCI Express總線的實時成像系統(tǒng),該系統(tǒng)采用PCI Express串行總線體系結(jié)構(gòu),提高了系統(tǒng)的總線帶寬和總線接口的可伸縮能力,實現(xiàn)了數(shù)據(jù)采集和大容量實時存儲,并且具有極強的運算能力和良好的通信能力,特別適合于復(fù)雜的實時成像雷達信號處理。未來的雷達成像將進行更復(fù)雜的處理,對實時處理機的要求更高,另外彈載、星載實時成像技術(shù)的發(fā)展對成像處理機的適用環(huán)境、可靠性和穩(wěn)定性提出了更高的要求,這些都需要不斷地研究與改進。
責任編輯:gt
評論