一種基于SRAM型FPGA的實(shí)時(shí)容錯(cuò)自修復(fù)系統(tǒng)設(shè)計(jì)概述

0 引言

隨著航天技術(shù)的發(fā)展，空間任務(wù)日益復(fù)雜化、多樣化，未來(lái)航天系統(tǒng)對(duì)處理器的性能要求越來(lái)越高。在一些航天設(shè)備如星載 ATP 等系統(tǒng)的電子模塊設(shè)計(jì)中，基于 SRAM 的現(xiàn)場(chǎng)可編程門(mén)陣列（FPGA）得到了日益廣泛的應(yīng)用。空間環(huán)境中的電子系統(tǒng)設(shè)計(jì)，不僅要滿足高性能，而且其數(shù)據(jù)處理、傳輸和控制的準(zhǔn)確性和可靠性也必須得到保證。對(duì)于機(jī)載、星載、空間武器和其他空間應(yīng)用電子系統(tǒng)，往往暴露在形形色色的電磁輻射環(huán)境中，如α粒子、宇宙射線、外太空強(qiáng)輻射等等惡劣環(huán)境，加之一些電子系統(tǒng)工作在地面的高電磁輻射環(huán)境中，這些輻射環(huán)境中充滿了各種高能粒子，高能粒子撞擊工作中的電子器件會(huì)引發(fā)輻射效應(yīng)，如單粒子翻轉(zhuǎn)（SEU）等，并導(dǎo)致器件發(fā)生故障，由輻射效應(yīng)引起的軟錯(cuò)誤是導(dǎo)致空間環(huán)境中電子系統(tǒng)失效的重要原因之一［1］。

在提高系統(tǒng)可靠性與安全性方面，避錯(cuò)與容錯(cuò)技術(shù)是常用的兩種關(guān)鍵技術(shù)。微電子抗輻射加固技術(shù)［2］，通過(guò)對(duì)材料選取、工藝結(jié)構(gòu)設(shè)計(jì)等方面進(jìn)行加固設(shè)計(jì)，在物理層消除導(dǎo)致?lián)p傷的各類(lèi)寄生參數(shù)，能有效提高電子器件的抗輻射能力。但是僅在物理層上對(duì)系統(tǒng)進(jìn)行故障防護(hù)不能滿足惡劣環(huán)境中的系統(tǒng)可靠性要求，還需要從電路設(shè)計(jì)方面對(duì)系統(tǒng)功能進(jìn)行保護(hù)。運(yùn)用錯(cuò)誤校正碼（ECC）技術(shù)［3］，在數(shù)據(jù)包的后端添加額外的校驗(yàn)數(shù)據(jù)位，來(lái)實(shí)現(xiàn)讀取 / 寫(xiě)入數(shù)據(jù)的準(zhǔn)確性，能在一定程度上對(duì)存儲(chǔ)器進(jìn)行檢錯(cuò)和糾錯(cuò)。容錯(cuò)設(shè)計(jì)技術(shù)，如采用冗余設(shè)計(jì)來(lái)“屏蔽”或“隔離”故障，如信息冗余［4］、硬件冗余［5］等，進(jìn)而在一定時(shí)期內(nèi)將故障的影響掩蓋起來(lái)，使發(fā)生故障的電子系統(tǒng)在一定時(shí)期內(nèi)仍能正常工作，但這種方式并未排除故障，隨著故障的累積和疊加，系統(tǒng)仍然可能失效，所以賦予系統(tǒng)故障自修復(fù)能力能有效減少故障累積，提高系統(tǒng)的可靠性。

本文從故障容錯(cuò)和故障自修復(fù)角度對(duì)系統(tǒng)進(jìn)行芯片級(jí)的可靠性設(shè)計(jì)，提出了一種基于 SRAM 型 FPGA 的實(shí)時(shí)容錯(cuò)自修復(fù)系統(tǒng)結(jié)構(gòu)，并將該設(shè)計(jì)結(jié)構(gòu)在 Xilinx Virtex-6 FPGA 上進(jìn)行了設(shè)計(jì)驗(yàn)證。

1 基于動(dòng)態(tài)部分重構(gòu)的模塊修復(fù)

FPGA 的配置可分為靜態(tài)配置和動(dòng)態(tài)配置，靜態(tài)配置通常對(duì)整個(gè) FPGA 模塊進(jìn)行重新配置，系統(tǒng)功能在配置過(guò)程時(shí)中斷，并在配置結(jié)束后改變系統(tǒng)功能。動(dòng)態(tài)配置，又稱為動(dòng)態(tài)部分重構(gòu)，能夠在不干擾 FPGA 內(nèi)部其他模塊工作的同時(shí)動(dòng)態(tài)地對(duì)部分區(qū)域的邏輯功能進(jìn)行修改。其核心思想是將 FPGA 內(nèi)部的邏輯資源從物理布局上劃分為靜態(tài)區(qū)域和若干個(gè)動(dòng)態(tài)區(qū)域。每個(gè)動(dòng)態(tài)區(qū)域可以對(duì)應(yīng)有多個(gè)配置文件，以實(shí)現(xiàn)不同的功能，將這些配置文件事先存放在片外存儲(chǔ)器中。在系統(tǒng)運(yùn)行的不同時(shí)刻，根據(jù)系統(tǒng)的實(shí)際需求加載不同的配置文件到同一個(gè)動(dòng)態(tài)區(qū)域來(lái)實(shí)現(xiàn)相應(yīng)的邏輯功能。在某一動(dòng)態(tài)區(qū)域進(jìn)行功能切換時(shí)，不影響靜態(tài)區(qū)域和其他動(dòng)態(tài)區(qū)域的邏輯功能，系統(tǒng)依然處于連續(xù)運(yùn)行狀態(tài)。

動(dòng)態(tài)部分重構(gòu)技術(shù)能對(duì) FPGA 的部分資源實(shí)現(xiàn)分時(shí)復(fù)用，使芯片能夠在不同時(shí)刻實(shí)現(xiàn)不同的功能，提高了芯片資源的利用率，已廣泛應(yīng)用于工業(yè)系統(tǒng)設(shè)計(jì)中，如文獻(xiàn)［6］中結(jié)合動(dòng)態(tài)部分重構(gòu)技術(shù)對(duì)工業(yè)傳感器數(shù)據(jù)采集系統(tǒng)進(jìn)行設(shè)計(jì)，針對(duì)不同的傳感器切換不同的功能。該技術(shù)還可應(yīng)用于可重構(gòu)計(jì)算［7］、可進(jìn)化硬件［8-9］、容錯(cuò)設(shè)計(jì)［10-14］等方面。將動(dòng)態(tài)部分重構(gòu)技術(shù)和冗余技術(shù)結(jié)合，即將冗余設(shè)計(jì)中各冗余模塊分別置于一動(dòng)態(tài)區(qū)域中，在故障發(fā)生時(shí)通過(guò)動(dòng)態(tài)重構(gòu)對(duì)故障模塊進(jìn)行修復(fù)，可以避免故障的累積和疊加，在容錯(cuò)的同時(shí)賦予系統(tǒng)故障自修復(fù)能力。

2 粗粒度和細(xì)粒度的三模冗余自修復(fù)結(jié)構(gòu)

2.1 粗粒度的三模冗余設(shè)計(jì)結(jié)構(gòu)

典型的模塊冗余技術(shù)——N 模冗余設(shè)計(jì)：將功能模塊復(fù)制為 N 份，N 個(gè)模塊具有相同的輸入，N 個(gè)模塊的輸出經(jīng)過(guò)多數(shù)表決器表決輸出。N 模冗余系統(tǒng)在工作過(guò)程中能同時(shí)容忍不超過(guò)半數(shù)的冗余模塊發(fā)生故障而不影響最終的系統(tǒng)輸出。隨著冗余模塊的數(shù)量增加，系統(tǒng)的容錯(cuò)能力提高，但同時(shí)系統(tǒng)的硬件資源開(kāi)銷(xiāo)和功耗增大，綜合考慮容錯(cuò)能力和資源開(kāi)銷(xiāo)，三模冗余（TMR）技術(shù)具有最高的性能表現(xiàn)。

FPGA 的系統(tǒng)通常可以分為多個(gè)功能模塊，粗粒度的三模冗余設(shè)計(jì)結(jié)構(gòu)以整個(gè)功能模塊為單位進(jìn)行冗余設(shè)計(jì)，如圖 1 所示，即將整個(gè)功能模塊作為一個(gè)冗余單位，將整個(gè)功能模塊復(fù)制三份，將每個(gè)功能單元模塊 FU1～FU3 配置到單獨(dú)的部分重構(gòu)模塊（PRM）中，使得每個(gè)冗余模塊都可以獨(dú)立被修復(fù)。表決器選擇多數(shù)的輸入結(jié)果進(jìn)行輸出。在粗粒度的三模冗余設(shè)計(jì)結(jié)構(gòu)中，只要兩個(gè)冗余模塊的輸出結(jié)果正確，就能保證整個(gè)模塊輸出正常，當(dāng)其中任意模塊發(fā)生故障時(shí)，通過(guò)系統(tǒng)的故障檢測(cè)機(jī)制可進(jìn)行故障定位，隔離故障區(qū)域并進(jìn)行自修復(fù)操作。