服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境:
一臺(tái)存儲(chǔ)中有一組由12塊SAS硬盤組建的RAID6磁盤陣列,劃分為一個(gè)卷,分配給幾臺(tái)Vmware ESXI主機(jī)做共享存儲(chǔ)。該卷中存放了大量Windows虛擬機(jī),這些虛擬機(jī)系統(tǒng)盤是統(tǒng)一大小,數(shù)據(jù)盤大小不確定,數(shù)據(jù)盤是精簡(jiǎn)模式。
服務(wù)器存儲(chǔ)故障:
機(jī)房斷電導(dǎo)致服務(wù)器存儲(chǔ)異常關(guān)機(jī),加電后存儲(chǔ)無(wú)法使用。
服務(wù)器存儲(chǔ)數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障服務(wù)器存儲(chǔ)的所有磁盤和備份數(shù)據(jù)的目標(biāo)磁盤接入到Windows Server服務(wù)器上。將磁盤都設(shè)為脫機(jī)(只讀)狀態(tài),看到的連接狀態(tài)如下所示(HD1-HD12為目標(biāo)備份磁盤,HD13-HD24為源故障磁盤,型號(hào)為HUS723030ALS640):
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
2、使用工具在底層讀取HD13-HD24扇區(qū),發(fā)現(xiàn)了大量損壞扇區(qū),數(shù)據(jù)恢復(fù)工程師初步推斷出現(xiàn)這種情況的原因是這種硬盤的讀取機(jī)制與常見(jiàn)硬盤不一樣。嘗試更換主機(jī)、HBA卡、擴(kuò)展柜,并將操作系統(tǒng)更換為Linux,均呈現(xiàn)相同故障表現(xiàn)。與用戶方工程師溝通,用戶方工程師回應(yīng)此控制器對(duì)磁盤沒(méi)有特殊要求。
檢測(cè)硬盤損壞扇區(qū)的分布規(guī)律,服務(wù)器數(shù)據(jù)恢復(fù)工程師發(fā)現(xiàn)以下規(guī)則:
a、損壞扇區(qū)分布以256個(gè)扇區(qū)為單位。
b、除損壞扇區(qū)片斷的起始位置不固定外,后面的損壞扇區(qū)都是以2816個(gè)扇區(qū)為間隔。
所有磁盤的損壞扇區(qū)(部分)分布:
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
北亞企安數(shù)據(jù)恢復(fù)工程師編寫小程序,繞過(guò)處理每個(gè)磁盤的損壞扇區(qū),將所有盤的數(shù)據(jù)做只讀鏡像。
3、基于鏡像文件分析所有磁盤的底層數(shù)據(jù)。
經(jīng)過(guò)分析發(fā)現(xiàn)損壞扇區(qū)呈規(guī)律性出現(xiàn):
-每段損壞扇區(qū)區(qū)域大小總為256。
-損壞扇區(qū)分布為固定區(qū)域,每跳過(guò)11個(gè)256扇區(qū)遇到一個(gè)壞的256扇區(qū)。
-損壞扇區(qū)的位置一直存在于RAID的P校驗(yàn)或Q校驗(yàn)區(qū)域。
-所有硬盤中只有10號(hào)盤中有一個(gè)自然壞道。
分析HD13、HD23、HD24的0-2扇區(qū)得知分區(qū)大小為52735352798扇區(qū),按RAID6的模式計(jì)算,將分區(qū)大小除以9等于5859483644扇區(qū),與物理硬盤大小以及DS800控制器中保留的RAID信息區(qū)域大小吻合。根據(jù)物理硬盤底層表現(xiàn),分區(qū)表大小為512字節(jié),后面無(wú)8字節(jié)校驗(yàn),大量的0扇區(qū)也無(wú)8字節(jié)校驗(yàn)。故原存儲(chǔ)并未啟用存儲(chǔ)中常用的DA技術(shù)(520字節(jié)扇區(qū))。
分區(qū)大小如下圖(GPT分區(qū)表項(xiàng)底層表現(xiàn),涂色部分表示分區(qū)大小,單位512字節(jié)扇區(qū),64bit):
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
4、存儲(chǔ)使用的是標(biāo)準(zhǔn)RAID6陣列,只需要分析出RAID成員盤數(shù)量以及RAID走向就可以重組RAID。
-分析RAID條帶大小
整個(gè)存儲(chǔ)被劃分為一個(gè)大的卷,分配給幾臺(tái)ESXI做共享存儲(chǔ),卷的文件系統(tǒng)是VMFS。該VMFS卷中存放了大量的Windows虛擬機(jī)。Windows虛擬機(jī)大多使用NTFS文件系統(tǒng),因此可以根據(jù)NTFS中MFT的順序分析出RAID條帶大小以及RAID走向。
-分析RAID是否存在掉線盤
鏡像完所有磁盤后發(fā)現(xiàn)最后一塊硬盤中并沒(méi)有像其他硬盤一樣有大量的壞道。最后一塊硬盤中有大量未損壞扇區(qū),這些未損壞扇區(qū)大多是全0扇區(qū),因此可以判斷這塊硬盤是熱備盤。
5、根據(jù)分析出來(lái)的RAID結(jié)構(gòu)重組RAID。重組完成后能看到目錄結(jié)構(gòu),但不確定是否為最新狀態(tài)。隨機(jī)檢測(cè)幾個(gè)虛擬機(jī)發(fā)現(xiàn)部分虛擬機(jī)數(shù)據(jù)異常,初步判斷RAID中存在掉線的磁盤。依次將RAID中的每一塊磁盤踢掉,然后查看剛才數(shù)據(jù)異常的地方,沒(méi)有找到問(wèn)題原因。
6、分析底層數(shù)據(jù)后發(fā)現(xiàn)問(wèn)題不是出在RAID層面,而是出在VMFS文件系統(tǒng)層面。由于VMFS文件系統(tǒng)如果大于16TB會(huì)存在一些其他的記錄信息,因此在組建RAID的時(shí)候需要跳過(guò)這些記錄信息。再次重組RAID后查看以前數(shù)據(jù)異常的地方,已經(jīng)沒(méi)有問(wèn)題了。
針對(duì)其中的一臺(tái)虛擬機(jī)做驗(yàn)證,將所有磁盤加入RIAD中后,這臺(tái)虛擬機(jī)是可以啟動(dòng)的,但缺盤的情況下啟動(dòng)有問(wèn)題,因此可以判斷整個(gè)RAID處在不缺盤的狀態(tài)為最佳。
驗(yàn)證數(shù)據(jù):
1、驗(yàn)證虛擬機(jī)
驗(yàn)證較為重要的虛擬機(jī),發(fā)現(xiàn)大多數(shù)虛擬機(jī)都可以開(kāi)機(jī),進(jìn)入登錄界面。部分虛擬機(jī)開(kāi)機(jī)藍(lán)屏或開(kāi)機(jī)檢測(cè)磁盤,但是使用光盤修復(fù)之后都可以正常啟動(dòng)。
部分虛擬機(jī)開(kāi)機(jī)如下:
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
2、驗(yàn)證數(shù)據(jù)庫(kù)
驗(yàn)證重要虛擬機(jī)中的數(shù)據(jù)庫(kù),發(fā)現(xiàn)數(shù)據(jù)庫(kù)都正常。通過(guò)查詢master數(shù)據(jù)庫(kù)中的系統(tǒng)視圖,查出所有數(shù)據(jù)庫(kù)信息如下:
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
3、檢測(cè)整個(gè)VMFS卷是否完整
由于虛擬機(jī)數(shù)量很多,每臺(tái)都驗(yàn)證的話,所需的時(shí)間會(huì)很長(zhǎng),因此檢測(cè)整個(gè)VMFS卷,在檢測(cè)VMFS卷的過(guò)程中發(fā)現(xiàn)部分虛擬機(jī)或虛擬機(jī)的文件被破壞。
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
批量恢復(fù)數(shù)據(jù):
1、和用戶方溝通并且通報(bào)了目前恢復(fù)數(shù)據(jù)的情況。用戶對(duì)幾臺(tái)重要的虛擬機(jī)進(jìn)行驗(yàn)證后,認(rèn)可恢復(fù)的數(shù)據(jù)。于是北亞企安數(shù)據(jù)恢復(fù)工程師著手恢復(fù)所有數(shù)據(jù)。
準(zhǔn)備好目標(biāo)RAID,將重組的RAID數(shù)據(jù)鏡像到目標(biāo)陣列上,然后使用工具解析整個(gè)VMFS。
2、將恢復(fù)出來(lái)的VMFS卷連接到虛擬化環(huán)境中的一臺(tái)ESXI5.5主機(jī)上,嘗試將該VMFS卷掛載到的ESXI5.5的環(huán)境中。由于版本(用戶方的ESXI主機(jī)是5.0版本)原因或VMFS本身有損壞,導(dǎo)致掛載不成功。
移交數(shù)據(jù):
北亞企安數(shù)據(jù)恢復(fù)工程師將目標(biāo)陣列上的數(shù)據(jù)帶到用戶方現(xiàn)場(chǎng),使用工具導(dǎo)出VMFS卷中的虛擬機(jī)。
1、將目標(biāo)陣列上的數(shù)據(jù)通過(guò)HBA卡連接到用戶的VCenter服務(wù)器上。
2、在VCenter服務(wù)器安裝工具,然后使用工具解釋VMFS卷。
3、使用工具將VMFS卷中的虛擬機(jī)導(dǎo)入到VCenter服務(wù)器上。
4、使用VCenter的上傳功能將虛擬機(jī)上傳到ESXI的存儲(chǔ)中。
5、將上傳完的虛擬機(jī)添加到清單,開(kāi)機(jī)驗(yàn)證。
6、如果有虛擬機(jī)開(kāi)機(jī)出現(xiàn)問(wèn)題,則嘗試使用命令行模式修復(fù);或者重建虛擬機(jī)并將恢復(fù)的虛擬機(jī)磁盤(既VMDK文件)拷貝過(guò)去。
7、由于部分虛擬機(jī)的數(shù)據(jù)盤很大,而數(shù)據(jù)很少。這種情況就可以直接導(dǎo)出數(shù)據(jù),然后新建一個(gè)虛擬磁盤,最后將導(dǎo)出的數(shù)據(jù)拷貝至新建的虛擬磁盤中即可。
統(tǒng)計(jì)了一下整個(gè)存儲(chǔ)中虛擬機(jī)的數(shù)量,整個(gè)存儲(chǔ)中大約有200臺(tái)虛擬機(jī)。目前的情況只能通過(guò)上述方式將恢復(fù)出來(lái)的虛擬機(jī)一臺(tái)一臺(tái)的恢復(fù)到用戶的ESXI中。
總結(jié):
所有磁盤壞道的規(guī)律如下表:
北亞企安數(shù)據(jù)恢復(fù)——存儲(chǔ)數(shù)據(jù)恢復(fù)
經(jīng)過(guò)分析后得到關(guān)于壞道的規(guī)則表現(xiàn):
-除去SN:YHJ6LEUD上的一個(gè)自然壞道外,其余壞道均分布于RAID6的Q校驗(yàn)塊中。
-壞道區(qū)域多數(shù)表現(xiàn)為完整的256個(gè)扇區(qū),正好是當(dāng)時(shí)創(chuàng)建RAID6時(shí)的一個(gè)完整RAID塊大小。
-活動(dòng)區(qū)域表現(xiàn)為壞道,非活動(dòng)區(qū)域壞道有可能不出現(xiàn),如熱備盤,由于上線不足10%,所以壞道數(shù)量就比其他在線盤少。
-其他非Q校驗(yàn)區(qū)域完好,無(wú)任何故障。
結(jié)論:通過(guò)上述壞道規(guī)則表現(xiàn)可推斷:壞道為控制器生成Q校驗(yàn),向硬盤下達(dá)IO指令時(shí),可能表現(xiàn)為非標(biāo)指令,硬盤內(nèi)部處理異常,導(dǎo)致出現(xiàn)規(guī)律性壞道。
存儲(chǔ)故障是由壞道引起的,導(dǎo)致恢復(fù)出來(lái)的數(shù)據(jù)有部分破壞,但不影響整體,結(jié)果也在可接受范圍內(nèi)。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9322瀏覽量
86122 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
586瀏覽量
17661 -
RAID6
+關(guān)注
關(guān)注
0文章
9瀏覽量
5941
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
vSAN數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致虛擬機(jī)無(wú)法啟動(dòng)的vSAN數(shù)據(jù)恢復(fù)案例
![vSAN<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>—<b class='flag-5'>異常</b><b class='flag-5'>斷電導(dǎo)致</b>虛擬機(jī)無(wú)法啟動(dòng)的vSAN<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>案例](https://file1.elecfans.com/web2/M00/AA/D9/wKgaomU7e5mAQXt3AACj8TkA164541.png)
服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致linux系統(tǒng)無(wú)法啟動(dòng)的數(shù)據(jù)恢復(fù)案例
虛擬機(jī)數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致XenServer虛擬機(jī)不可用的數(shù)據(jù)恢復(fù)案例
![虛擬機(jī)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>—<b class='flag-5'>異常</b><b class='flag-5'>斷電導(dǎo)致</b>XenServer虛擬機(jī)不可用的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>案例](https://file1.elecfans.com/web2/M00/8F/99/wKgaomTQm3qAf9x-AATepdcm3zE240.png)
服務(wù)器數(shù)據(jù)恢復(fù)—意外斷電導(dǎo)致虛擬機(jī)虛擬磁盤損壞的數(shù)據(jù)恢復(fù)案例
![<b class='flag-5'>服務(wù)器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>—意外<b class='flag-5'>斷電導(dǎo)致</b>虛擬機(jī)虛擬磁盤損壞的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>案例](https://file1.elecfans.com/web2/M00/06/D9/wKgaombgEEiAVY7VAAYC73oyK0Y831.png)
服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致RAID信息丟失的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致虛擬機(jī)配置文件丟失的數(shù)據(jù)恢復(fù)案例
![<b class='flag-5'>服務(wù)器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>—<b class='flag-5'>異常</b><b class='flag-5'>斷電導(dǎo)致</b>虛擬機(jī)配置文件丟失的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>案例](https://file.elecfans.com/web2/M00/A8/14/pYYBAGRvGYiADFTzAAU7mrFVkPI702.png)
服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲(chǔ)中雙循環(huán)riad5陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—EqualLogic存儲(chǔ)硬盤故障導(dǎo)致存儲(chǔ)崩潰的數(shù)據(jù)恢復(fù)案例
![<b class='flag-5'>服務(wù)器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>—EqualLogic<b class='flag-5'>存儲(chǔ)</b>硬盤故障<b class='flag-5'>導(dǎo)致</b><b class='flag-5'>存儲(chǔ)</b>崩潰的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>案例](https://file1.elecfans.com/web2/M00/EA/96/wKgZomZZRSmAYI8tAAEVyz4kTY8383.png)
服務(wù)器數(shù)據(jù)恢復(fù)—EVA存儲(chǔ)異常斷電后出現(xiàn)故障的數(shù)據(jù)恢復(fù)方案
服務(wù)器數(shù)據(jù)恢復(fù)—VMware虛擬機(jī)無(wú)法啟動(dòng)的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致RAID管理信息丟失的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—異常斷電導(dǎo)致服務(wù)器raid卡硬件損壞的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—分享幾個(gè)服務(wù)器數(shù)據(jù)恢復(fù)的案例
服務(wù)器數(shù)據(jù)恢復(fù)-異常斷電導(dǎo)致服務(wù)器故障的數(shù)據(jù)恢復(fù)案例
![<b class='flag-5'>服務(wù)器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>-<b class='flag-5'>異常</b><b class='flag-5'>斷電導(dǎo)致</b><b class='flag-5'>服務(wù)器</b>故障的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復(fù)</b>案例](https://file1.elecfans.com/web2/M00/C2/C2/wKgaomXe3RKAB9LAAAGGXQmfEy8104.png)
評(píng)論