服務(wù)器存儲數(shù)據(jù)恢復(fù)環(huán)境:
一臺EMC某型號存儲中有一組RAID5磁盤陣列。該raid5陣列中有12塊硬盤,其中2塊硬盤為熱備盤。
服務(wù)器存儲故障:
該存儲raid5陣列中有兩塊硬盤離線,只有1塊熱備盤啟用替換掉其中一塊離線盤,另外1塊熱備盤未成功啟用,raid5陣列崩潰,存儲不可用。
磁盤陣列中硬盤離線的原因通常是磁盤存在物理故障或者硬盤出現(xiàn)壞道。由于EMC存儲中的raid控制器的磁盤檢查策略十分嚴(yán)格,經(jīng)常將硬盤的性能不穩(wěn)定判定為硬件故障并將該硬盤踢出raid。很多情況下EMC存儲中raid崩潰的原因就是磁盤讀寫不穩(wěn)定。
服務(wù)器存儲數(shù)據(jù)恢復(fù)過程:
1、將存儲中所有磁盤標(biāo)記后取出,由硬件工程師對所有磁盤進(jìn)行物理故障檢測,經(jīng)過檢測沒有發(fā)現(xiàn)有硬盤(包括離線硬盤)存在物理故障。使用壞道檢測工具進(jìn)行排查也一切正常。以只讀方式將所有磁盤進(jìn)行扇區(qū)級全盤鏡像。鏡像完成后將所有磁盤按照標(biāo)記還原到原存儲中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
2、基于鏡像文件分析RAID組結(jié)構(gòu)。分析發(fā)現(xiàn)作為熱備盤的2塊盤全部沒有數(shù)據(jù),其中一塊熱備盤雖然成功激活并替換一塊掉線的硬盤,但是數(shù)據(jù)并未同步。繼續(xù)分析該raid的條帶大小、數(shù)據(jù)的分布規(guī)律、磁盤順序等重組raid的必要信息,并找到較早掉線的那塊硬盤。根據(jù)分析獲取到的raid相關(guān)信息重組raid。
3、分析磁盤陣列中的LUN。由于底層只分配了一個LUN,所以只需分析這一個lun的信息。分析完成后使用北亞企安自主開發(fā)程序解釋map數(shù)據(jù)并導(dǎo)出,然后使用另外一個自主開發(fā)的程序?qū)?dǎo)出數(shù)據(jù)進(jìn)行zfs文件系統(tǒng)解釋,但是在解析過程中出現(xiàn)報錯。工程師對該程序做debug調(diào)試后發(fā)現(xiàn)報錯原因是文件系統(tǒng)中的某些元文件損壞。需要將這些損壞的文件系統(tǒng)元文件進(jìn)行修復(fù)后才能正常解析ZFS文件系統(tǒng)。
4、對損壞的元文件進(jìn)行分析后發(fā)現(xiàn),ZFS文件系統(tǒng)正在進(jìn)行IO操作的時候raid癱瘓,從而導(dǎo)致元文件損壞。北亞企安數(shù)據(jù)恢復(fù)工程師對這些損壞的元文件進(jìn)行手工修復(fù)。
5、修復(fù)完成后再次做ZFS文件系統(tǒng)解析,解析所有文件節(jié)點及目錄結(jié)構(gòu)。解釋完成后驗證所有數(shù)據(jù),經(jīng)過驗證確認(rèn)所有數(shù)據(jù)完整。用戶認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)—raid5數(shù)據(jù)恢復(fù)
審核編輯 黃宇
-
存儲
+關(guān)注
關(guān)注
13文章
4358瀏覽量
86196 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9321瀏覽量
86104 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
586瀏覽量
17658 -
RAID5
+關(guān)注
關(guān)注
0文章
122瀏覽量
12772
發(fā)布評論請先 登錄
相關(guān)推薦
評論