服務器數(shù)據(jù)恢復環(huán)境:
1臺某品牌EVA4400控制器+3臺EVA4400擴展柜+28塊FC硬盤。
服務器故障:
由于兩塊磁盤掉線導致存儲中某些LUN不可用,某些LUN丟失,導致存儲崩潰。
服務器數(shù)據(jù)恢復過程:
1、由于EVA4400存儲故障是某些磁盤掉線導致的,因此收到故障存儲中的所有磁盤后,硬件工程師先對所有磁盤做物理故障檢測,檢測完成后發(fā)現(xiàn)所有磁盤均不存在明顯物理故障。使用壞道檢測工具檢測也沒有發(fā)現(xiàn)壞道。
磁盤壞道檢測日志截圖:
![wKgZomZQCnmAe8rbAABfPW4rQ-U591.png](https://file1.elecfans.com/web2/M00/E8/B3/wKgZomZQCnmAe8rbAABfPW4rQ-U591.png)
將所有磁盤以只讀方式進行扇區(qū)級全盤鏡像,鏡像完成后將所有磁盤還給用戶方。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像文件進行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
備份完部分數(shù)據(jù)截圖:
![wKgZomZQCo2AQys9AABM-kmoSp8925.png](https://file1.elecfans.com/web2/M00/E8/B3/wKgZomZQCo2AQys9AABM-kmoSp8925.png)
由于沒有檢測到磁盤存在物理故障或者壞道,可以初步判斷磁盤掉線是由于某些磁盤讀寫不穩(wěn)定導致的。EVA控制器檢查磁盤策略比較嚴格,EVA控制器通常將性能不穩(wěn)定的磁盤識別為壞盤并踢出磁盤組。一旦某個LUN的同一個條帶中掉線的盤到達極限,這個LUN將不可用。如果EVA存儲中所有LUN都包含這些掉線的盤,所有LUN都會受影響。所以兩塊盤掉線導致整個EVA存儲的LUN都不可用的情況是有可能發(fā)生的。故障EVA存儲目前的情況就是8個LUN正常,7個LUN損壞,6個LUN丟失。需要恢復所有LUN的數(shù)據(jù)。
2、基于鏡像文件分析所有硬盤的底層數(shù)據(jù)。EVA存儲中的LUN都是以RAID條目的形式存儲數(shù)據(jù)的,EVA存儲將每個磁盤的不同塊組成一個RAID條目。RAID條目的類型有很多種,首先需要分析出組成LUN的RAID條目類型以及這個RAID條目是由哪些盤的哪些塊組成。這些信息都存放在LUN_MAP中,每個LUN都有一份LUN_MAP。EVA將LUN_MAP分別存放在不同的磁盤中,使用一個索引來指定其位置,因此在每個磁盤中找這個指向LUN_MAP的索引就可以找到現(xiàn)存LUN的信息了。
3、雖然磁盤中記錄了指向LUN_MAP的索引,但是它只記錄現(xiàn)存的LUN,丟失的LUN是不會記錄索引的。EVA存儲中刪除一個LUN只會清除這個LUN的索引,而不會清除這個LUN的LUN_MAP。掃描所有磁盤找到所有符合LUN_MAP的數(shù)據(jù)塊,然后排除掉現(xiàn)有的LUN_MAP,剩下的LUN_MAP也不一定全是刪除的,也有一些是以前舊的。只能將所有LUN_MAP的數(shù)據(jù)都恢復出來,人工核對哪些LUN是刪除的。
4、這些由于性能不穩(wěn)定而掉線的磁盤中存放的是一些舊的數(shù)據(jù),在生成數(shù)據(jù)的時候需要將這些磁盤都排除掉。如何判斷哪些磁盤是掉線的呢?由于本案例中LUN基本上都是RAID5陣列,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤。而這些RAID條目中都存在的那個盤就一定是掉線盤。排除掉線盤,然后根據(jù)LUN_MAP恢復所有LUN的數(shù)據(jù)。
5、北亞企安數(shù)據(jù)恢復工程師編寫掃描LUN_MAP的程序掃描全部LUN_MAP,結合人工分析獲取到準確的LUN_MAP。編寫檢測RAID條目的程序檢測所有LUN中掉線的磁盤,結合人工分析排除掉線的磁盤。編寫LUN數(shù)據(jù)恢復程序結合LUN_MAP恢復所有LUN數(shù)據(jù)。人工核對每個LUN,確認是否和用戶方描述的一致。部分LUN的數(shù)據(jù)截圖:
![wKgaomZQCpSAdIWPAAA2QUtueSU626.png](https://file1.elecfans.com/web2/M00/E9/9B/wKgaomZQCpSAdIWPAAA2QUtueSU626.png)
6、根據(jù)用戶方描述,所有LUN的數(shù)據(jù)可以分成兩大部份:Vmware虛擬機和HP-UX上的裸設備,裸設備里存放的是Oracle的dbf數(shù)據(jù)庫。由于恢復的是LUN,無法看到里面的文件,需要人工核對哪些LUN是存放Vmware的數(shù)據(jù),哪些是HP-UX的裸設備。然后將LUN掛載到不同的驗證環(huán)境中驗證恢復的數(shù)據(jù)是否完整。
7、Vmware虛擬機和裸設備中oracle數(shù)據(jù)庫的驗證這里就不贅述了。
8、將所有恢復出來的數(shù)據(jù)移交到用戶方準備好的環(huán)境中,經過驗證,用戶方確認恢復出來的數(shù)據(jù)完整有效,認可數(shù)據(jù)恢復結果。本次數(shù)據(jù)恢復工作完成。
審核編輯 黃宇
-
服務器
+關注
關注
12文章
9321瀏覽量
86120 -
數(shù)據(jù)恢復
+關注
關注
10文章
586瀏覽量
17661 -
磁盤
+關注
關注
1文章
380瀏覽量
25293 -
RAID5
+關注
關注
0文章
122瀏覽量
12772
發(fā)布評論請先 登錄
相關推薦
服務器數(shù)據(jù)恢復—raid5陣列崩潰導致上層lun無法正常使用的數(shù)據(jù)恢復案例
![<b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>raid5</b><b class='flag-5'>陣列</b>崩潰<b class='flag-5'>導致</b>上層lun無法正常使用的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例](https://file1.elecfans.com/web1/M00/F5/CD/wKgaoWdEEuKANb_mAAFsIQ9lvYU381.png)
服務器數(shù)據(jù)恢復—華為OceanStor存儲中RAID5陣列數(shù)據(jù)恢復案例
![<b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—華為OceanStor<b class='flag-5'>存儲</b><b class='flag-5'>中</b><b class='flag-5'>RAID5</b><b class='flag-5'>陣列</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例](https://file1.elecfans.com/web1/M00/F5/0B/wKgaoWc1ZaKAdXsJAAJjuKOzxK4513.png)
服務器數(shù)據(jù)恢復—用5盤RAID5陣列中的4塊盤重建RAID5陣列后如何恢復原始數(shù)據(jù)?
服務器數(shù)據(jù)恢復—雙循環(huán)RAID5陣列崩潰,數(shù)據(jù)如何恢復?
服務器數(shù)據(jù)恢復—raid5陣列熱備盤同步失敗的數(shù)據(jù)恢復案例
![<b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>raid5</b><b class='flag-5'>陣列</b>熱備盤同步失敗的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例](https://file.elecfans.com/web2/M00/AB/FA/poYBAGSIG0OAGf3SAAHmvStiJKA135.png)
服務器數(shù)據(jù)恢復—EMC存儲中raid5陣列多塊硬盤離線的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—raid5陣列硬盤壞道導致raid崩潰的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—EMC存儲中雙循環(huán)riad5陣列數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—X3650服務器raid5磁盤陣列數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—存儲中raid5陣列多塊磁盤離線導致lun不可用的數(shù)據(jù)恢復案例
![<b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>存儲</b><b class='flag-5'>中</b><b class='flag-5'>raid5</b><b class='flag-5'>陣列</b><b class='flag-5'>多</b><b class='flag-5'>塊</b><b class='flag-5'>磁盤</b>離線<b class='flag-5'>導致</b>lun<b class='flag-5'>不可用</b>的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例](https://file1.elecfans.com/web2/M00/DE/56/wKgZomYvE8uAAzFWAAFLRTt8vUw451.png)
EVA數(shù)據(jù)恢復—EVA存儲中磁盤掉線導致LUN丟失的數(shù)據(jù)恢復案例
![<b class='flag-5'>EVA</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—<b class='flag-5'>EVA</b><b class='flag-5'>存儲</b><b class='flag-5'>中</b><b class='flag-5'>磁盤</b><b class='flag-5'>掉線</b><b class='flag-5'>導致</b>LUN丟失的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例](https://file.elecfans.com/web2/M00/9F/8F/pYYBAGQ4z7yAKx95AAHQwWZpo1s129.png)
服務器數(shù)據(jù)恢復—V7000存儲多塊硬盤掉線導致存儲崩潰的數(shù)據(jù)恢復案例
![<b class='flag-5'>服務器</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>—V7000<b class='flag-5'>存儲</b><b class='flag-5'>多</b><b class='flag-5'>塊</b>硬盤<b class='flag-5'>掉線</b><b class='flag-5'>導致</b><b class='flag-5'>存儲</b>崩潰的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>恢復</b>案例](https://file.elecfans.com/web2/M00/6C/EC/poYBAGMzwF6AZskyAAF7vwk3l70303.png)
評論