1.前言
大家對SSD的第一印象就是性能高、速度快,然而隨著SSD在數(shù)據(jù)中心、高性能計算、高端存儲、邊緣計算等各種企業(yè)級應(yīng)用場景的逐步普及,近年來企業(yè)級SSD產(chǎn)品的發(fā)貨量逐年快速上升,而隨著實際在網(wǎng)運行數(shù)量的逐步增加,一些可靠性問題也逐漸體現(xiàn),而SSD的可靠性也企業(yè)級用戶重點關(guān)注的方向。
講到SSD的可靠性,我們通常能聽到的術(shù)語有:Failure Rate(故障率或者失效率)、MTBF、AFR、Retention、Endurance、 UBER、FFR等,在實際工作中經(jīng)常有些不是可靠性領(lǐng)域的工程師來詢問這些指標的含義,所以本文主要簡單介紹一下這些SSD可靠性指標的概念及其意義,方便大家更深入的了解和認識SSD的可靠性。?? ? ? ? ? ?
2.?故障率/MTBF/AFR
2.1?故障率
2.2?浴盆曲線模型
提到可靠性,必須要講下最經(jīng)典的浴盆曲線(Bathtub Curve)可視化模型,浴盆曲線模型是指導(dǎo)產(chǎn)品或者系統(tǒng)進行可靠性設(shè)計、驗證、優(yōu)化的最常用的模型,也是可靠性工程師甚至質(zhì)量工程師都非常關(guān)注的理論。
浴盆曲線簡單來說將產(chǎn)品的生命周期分為三個階段:
1)早期失效期(Infant Morality Period):此階段失效率較高,大多是生產(chǎn)制造帶來的失效,但是這段時間比較短,而且失效率隨著時間推移會迅速降低并趨于穩(wěn)定。
2)穩(wěn)定期(Steady Period):或者叫隨機失效期,有時也叫正常生命期,這個階段產(chǎn)品的失效率是恒定的常數(shù),通常發(fā)貨給客戶的產(chǎn)品都工作于這個階段。
3)壽命耗盡期(Wear-out Period):?這個階段產(chǎn)品由于壽命的耗盡,失效率逐漸增高。浴盆曲線在可靠性的設(shè)計和優(yōu)化上有非常多的應(yīng)用,本文中所討論的可靠性指標MTBF/AFR等,都是指的正常生命期也就是穩(wěn)定期。
2.3?MTBF
MTBF 全稱為Mean Time Between Failure即平均失效間隔時間,其定義為給定的樣本數(shù)量,工作
小時后,出現(xiàn)
次故障,每個樣本失效時已正常工作的時間記為?
, 單位為小時:
MTBF通常用于一個故障可恢復(fù)的系統(tǒng),相比故障率指標,MTBF的定義更加直接,也更適用于表現(xiàn)系統(tǒng)級的可靠性,更常用于預(yù)測和表征產(chǎn)品和系統(tǒng)的可靠性,而不是用故障率來進行體現(xiàn)。
2.4?AFR
實際應(yīng)用中我們還經(jīng)常聽到AFR的概念,AFR即Annual Failure Rate,即年化的失效率,假設(shè)年度的發(fā)貨量為,故障個數(shù)為
,那么可以定義:
上面等式中的表示產(chǎn)品(系統(tǒng))的時基失效率,AFR主要用于產(chǎn)品或者系統(tǒng)在發(fā)貨后進行的故障率統(tǒng)計,這點和DPPM有類似之處,只不過DPPM更多用于獨立的元器件。? ? ? ? ? ? ?
3?故障率/MTBF/AFR的關(guān)系和意義
上面介紹了故障率、MTBF、AFR的定義,接下來說一說它們之間的關(guān)系及實際意義
3.1?故障率和MTBF關(guān)系
因此,實際SSD產(chǎn)品的可靠性設(shè)計和評估方法是:系統(tǒng)的MTBF可以通過系統(tǒng)的失效率評估得到。而系統(tǒng)的
是可以通過各個器件的失效率
計算得到,器件的失效率
(即FIT值)可以從各個元器件廠家獲取。
需要強調(diào)的是系統(tǒng)失效率評估并非簡單的所有獨立元器件FIT值相加,而是需要根據(jù)元器件在系統(tǒng)中具體的使用方法和系統(tǒng)的適用場景計算,可以參考BellCore等專業(yè)文檔。
3.2 MTBF的驗證方法RDT
MTBF相對故障率來說,更易于在研發(fā)過程中進行驗證。MTBF的測試驗證方法也就是通常講的RDT(Reliability Demonstration Test)即可靠性驗證測試,通過RDT驗證MTBF的原理如下:
上述等式中各參數(shù)的意義:
1)SS表示樣本量;
2)AF表示溫度加速因子,通常采用高溫加速的方式進行;
3)TestHours 表示總測試時間,單位:小時;
4)A表示置信度因子,
5)CL表示置信度水平,r表示允許的失效個數(shù),表示卡方分布;
3.3 MTBF?和 AFR的關(guān)系
根據(jù)MTBF和故障率的關(guān)系我們可以很容易得到AFR和MTBF的關(guān)系如下:
那么既然已經(jīng)有MTBF為什么還要增加AFR這個指標呢,個人認為有以下兩點區(qū)別:
1)MTBF主要用于研發(fā)設(shè)計時對產(chǎn)品可靠性指標進行預(yù)測和測試驗證,不易于實際統(tǒng)計:MTBF 是在SSD產(chǎn)品設(shè)計時,需要制定的可靠性指標,MTBF需要在產(chǎn)品研發(fā)階段通過計算可以得到,同時可以通過RDT等測試方法進行驗證,因此MTBF更偏向于發(fā)貨前的研發(fā)理論設(shè)計和研發(fā)階段的驗證;
2)AFR更易于在產(chǎn)品實際發(fā)貨后進行統(tǒng)計,是對MTBF設(shè)計的實際驗證:AFR雖然可以通過MTBF得到,但AFR更重要的是易于在SSD產(chǎn)品實際發(fā)貨后進行統(tǒng)計,是一個實際的統(tǒng)計值,而統(tǒng)計MTBF則比較難在實際產(chǎn)品發(fā)貨后統(tǒng)計。通過實際統(tǒng)計得到的AFR和設(shè)計的AFR值比較,是最終驗證MTBF設(shè)計指標是否達成的依據(jù),也是SSD產(chǎn)品可靠性在用戶使用階段最直接的體現(xiàn)指標之一。
3.4?小結(jié)
實際上我們在做系統(tǒng)可靠性設(shè)計時,需要將故障率、FIT值、MTBF、AFR聯(lián)系起來看,總結(jié)如下:
1)元器件的故障率是計算系統(tǒng)故障率的基本輸入?yún)?shù),通過系統(tǒng)故障率來評估系統(tǒng)MTBF;
2)系統(tǒng)級可靠性更直接的是用MTBF進行體現(xiàn),MTBF可在批量發(fā)貨前通過RDT驗證;
3)AFR可以用于批量發(fā)貨后的可靠性反饋驗證;
4)可以大概總結(jié)硬件系統(tǒng)的MTBF可靠性設(shè)計預(yù)測和驗證流程如下:? ??
? ? ??
4?Endurance/Retention /UBER/FFR
前面三部分講的失效率(Failure Rate)、MTBF和AFR都是通用的硬件產(chǎn)品可靠性指標,而不是SSD產(chǎn)品所特有的。實際上對于SSD產(chǎn)品來說,還有自己特有的特性和可靠性指標,也就是大家常見的Endurance、TBW、Data Retention、UBER、FFR這幾個概念,實際上這幾個概念的定義都來源于JESD218系列規(guī)范,我們先看看這四個概念的定義。
4.1 Endurance 和 Data?Retention
Endurance : The ability of an SSD to withstand multiple data rewrites,字面含義 SSD能夠承受反復(fù)重寫的能力,即SSD能夠承受的寫入數(shù)據(jù)量總和,有時也叫Endurance Rating。如果以TB為單位表示總寫入數(shù)據(jù)量,在規(guī)范中也被叫做TBW,Endurance/Endurance Rating/TBW都代表的相同的意思。
講到Endurance還有一個常見的規(guī)格被叫做DWPD,即Drive?Write?Per?Day, 表示的是盤片每天能夠?qū)懭氲目倲?shù)據(jù)量和盤片自身容量的比值:
因此DWPD和Endurance(TBW)的關(guān)系為:
上面等式中表示該盤片的壽命是5年,這是企業(yè)SSD通常標稱的壽命。
Data Retention :The ability of the SSD to retain data over time,即SSD保存數(shù)據(jù)時間的能力,有也簡化為叫Retention¥¥那么為何SSD要有Endurance和Data Retention的概念呢?
因為SSD使用NAND Flash作為存儲數(shù)據(jù)的介質(zhì),NAND Flash 是一種數(shù)據(jù)非易失的介質(zhì),但不是永久不丟失數(shù)據(jù)的介質(zhì)。NAND Flash有兩個明顯的特點:
第一,每個NAND Flash內(nèi)部單元存在磨損壽命,也就是通常講的Erase-Program?次數(shù)(擦除編程次數(shù),簡稱EP),當EP達到一定程度,NAND?Flash?上數(shù)據(jù)的誤碼率將變大,也就無法實現(xiàn)對數(shù)據(jù)的可靠保存,因此NAND?Flash存在磨損壽命(Endurance)的概念;
第二,存放在NAND Flash內(nèi)部單元的數(shù)據(jù),只能保存一定長度的時間,當超過該時間,數(shù)據(jù)會逐漸丟失,因此NAND Flash存在Data Retention的概念。
由于NAND Flash存在Endurance和 Data Retention概念,因此SSD產(chǎn)品也繼承了NAND的這兩個特性和概念。
不過,嚴格來說 Endurance和Data Retention并不是可靠性的指標,是屬于功能指標,UBER和FFR才是可靠性的指標,但是UBER和FFR是需要在Endurance和Data Retention的前提條件下來定義,并進行測試驗證。
4.2?UBER?和FFR
SSD是一種用于保存數(shù)據(jù)的部件,因此對行業(yè)規(guī)范中制定了關(guān)于SSD保存數(shù)據(jù)方面的可靠性指標,也就是常見的UBER和FFR。
UBER : Uncorrectable Bit Error Rate, or ratio, 字面意思即不可糾正的誤比特率,計算方法如下:
FFR : The allowed cumulative functional failures over the TBW rating, 即SSD在整個磨損壽命時間范圍內(nèi)累積的功能失效率。
4.3?UBER/FFR的測試方法
UBER和FFR的字面含義相對來說比較容易理解,但是跟Endurance 和 Retention的關(guān)系,可以從下圖中JESD218B.01標準中UBER和FFR的測試方法進行了解:
1)需要將整個測試樣本量分為兩部分各50%;
2)第一步部分(Part:1)在常溫下進行數(shù)據(jù)讀寫測試(JESD219?模型),也叫磨損Endurance測試,要求總寫入數(shù)據(jù)量要達到SSD標稱的Endurance(或者TBW)數(shù)據(jù)量;
3)第二步部分(Part:2)在高溫下進行數(shù)據(jù)讀寫測試(JESD219模型),也叫磨損Endurance測試,總寫入數(shù)據(jù)量要達到SSD標稱的Endurance(或者TBW)數(shù)據(jù)量;
4)第二部分的Endurance測試完成后,需要進行一次對數(shù)據(jù)保存時間的測試即Retention測試;
5)最后統(tǒng)計UBER/FFR時需要統(tǒng)計上面2),3),4)步驟中所有的功能失效,錯誤IO個數(shù),用于計算UBER/FFR。
? ? ? ? ? ?
5?總結(jié)
本文的主要目的還是對SSD可靠性涉及到的概念進行簡單梳理,幫助大家理解SSD的可靠性。由于每個指標詳細的設(shè)計、預(yù)測以及驗證方法都有比較多的內(nèi)容,后續(xù)有機會再進行專題分享。?? ? ? ? ? ?
參考文獻
1.?Telcordia Technologies Special Report,?SR-332,?Reliability Prediction Procedure for?Electronic Equipment
2.?JESD218B.01 Solid-State Drive (SSD) Requirements?and Endurance Test Method?? ? ?? ? ??
評論