服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
一臺Linux Redhat操作系統(tǒng)服務(wù)器上有一組由5塊硬盤組建的raid5陣列,包含一塊熱備盤。上層部署一個OA系統(tǒng)和Oracle數(shù)據(jù)庫。
服務(wù)器故障:
raid5陣列中的1塊磁盤離線,硬盤離線卻沒有激活熱備盤,直到另外一塊磁盤離線導(dǎo)致陣列崩潰。
用戶要求恢復(fù)raid5的數(shù)據(jù)和盡可能還原操作系統(tǒng)。經(jīng)過北亞企安數(shù)據(jù)恢復(fù)工程師初步檢測,故障服務(wù)器中所有硬盤均沒有發(fā)現(xiàn)明顯物理故障,也沒有發(fā)現(xiàn)有明顯的同步跡象。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器關(guān)機(jī)后,把服務(wù)器中的磁盤編號后取出槽位,經(jīng)過硬件工程師檢測,沒有發(fā)現(xiàn)有硬盤存在物理故障。以只讀方式將所有磁盤進(jìn)行完整鏡像備份。備份完成后根據(jù)編號將磁盤還原至原服務(wù)器中,后期的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作基于鏡像進(jìn)行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件進(jìn)行分析,北亞企安數(shù)據(jù)恢復(fù)工程師在后掉線的那塊硬盤紅發(fā)現(xiàn)了十幾個壞扇區(qū),其他硬盤發(fā)現(xiàn)都沒有壞道。繼續(xù)分析raid5結(jié)構(gòu)相關(guān)信息。
北亞企安數(shù)據(jù)恢復(fù)——RAID5數(shù)據(jù)恢復(fù)
3、使用分析獲取到的raid結(jié)構(gòu)相關(guān)信息嘗試重組raid5陣列。經(jīng)過驗(yàn)證確定分析出來的raid結(jié)構(gòu)是正確的。按照這個結(jié)構(gòu)在一塊單盤上生成虛擬raid并嘗試打開,沒有明顯報(bào)錯。
4、和用戶方溝通后,用戶方要求我們對原盤重建raid(有壞道的那塊盤已經(jīng)替換)。把步驟2中恢復(fù)好的單盤用USB接到故障服務(wù)器上,再用linux SystemRescueCd啟動,通過dd命令進(jìn)行全盤回寫,回寫完成后啟動操作系統(tǒng)。
5、操作系統(tǒng)啟動過程中報(bào)錯:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied,北亞企安數(shù)據(jù)恢復(fù)工程師推測報(bào)錯原因是文件權(quán)限有問題。用SystemRescueCd進(jìn)行重啟后進(jìn)行檢查,發(fā)現(xiàn)文件的權(quán)限、大小、時(shí)間都有明顯的錯誤,節(jié)點(diǎn)損壞。
6、找到報(bào)錯原因后對重組數(shù)據(jù)中的根分區(qū)進(jìn)行重新分析,定位出錯的/sbin/pidof,發(fā)現(xiàn)發(fā)生故障的原因還是由于那塊后掉線硬盤的壞道。我們只好使用raid陣列中完好的磁盤對那塊有壞道的磁盤的損壞區(qū)域進(jìn)行xor補(bǔ)齊。
7、補(bǔ)齊之后對文件系統(tǒng)進(jìn)行檢驗(yàn)依然報(bào)錯。再一次檢查iNode表發(fā)現(xiàn)那塊有壞道磁盤的損壞區(qū)域有部分節(jié)點(diǎn)表現(xiàn)為下圖中55 55 55部分。
北亞企安數(shù)據(jù)恢復(fù)——RAID5數(shù)據(jù)恢復(fù)
通過上圖可以看到,雖然節(jié)點(diǎn)中描述的uid看起來是正常的,但是大小、屬性、最初的分配塊都是錯誤的。北亞企安數(shù)據(jù)恢復(fù)工程師團(tuán)隊(duì)對所有可以想到的數(shù)據(jù)恢復(fù)方案進(jìn)行分析后,沒有找到好的辦法將這個損壞的節(jié)點(diǎn)找回來,只能嘗試修復(fù)或者以相同文件進(jìn)行代替。
8、通過日志把一切可能有錯的文件原節(jié)點(diǎn)塊的節(jié)點(diǎn)信息確定出來,然后再進(jìn)行修正。修正之后重新dd了根分區(qū),但是執(zhí)行fsck -fn /dev/sda5仍然報(bào)錯。
北亞企安數(shù)據(jù)恢復(fù)——RAID5數(shù)據(jù)恢復(fù)
9、根據(jù)報(bào)錯提示繼續(xù)查看分析,發(fā)現(xiàn)系統(tǒng)中有多個節(jié)點(diǎn)共用同樣的數(shù)據(jù)塊,應(yīng)該是磁盤早掉線而導(dǎo)致出現(xiàn)了節(jié)點(diǎn)信息新舊交集的情況。將錯誤節(jié)點(diǎn)清除后再次執(zhí)行fsck -fn /dev/sda5依然報(bào)錯。但是這些節(jié)點(diǎn)大多是在doc目錄下,并不影響系統(tǒng)啟動,于是強(qiáng)行修復(fù)并重啟系統(tǒng),進(jìn)入系統(tǒng)后啟動數(shù)據(jù)庫和應(yīng)用軟件,沒有
出現(xiàn)報(bào)錯,一切正常。
10、由用戶方工程師對恢復(fù)數(shù)據(jù)進(jìn)行檢測,經(jīng)過用戶方檢測,確認(rèn)恢復(fù)數(shù)據(jù)有效,認(rèn)可數(shù)據(jù)恢復(fù)結(jié)果。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9322瀏覽量
86123 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
586瀏覽量
17661 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3851瀏覽量
64717 -
RAID5
+關(guān)注
關(guān)注
0文章
122瀏覽量
12772
發(fā)布評論請先 登錄
相關(guān)推薦
評論