存儲系統(tǒng)作為如今大數(shù)據(jù)云計算時代的根基,它的穩(wěn)定才是支撐起如此海量數(shù)據(jù)的根本。所以各大相關(guān)行業(yè)對于這部分非常重視,所以在此針對存儲系統(tǒng)的故障處置簡單提出自己學(xué)習(xí)總結(jié)的一些思路。
首先在處理存儲系統(tǒng)發(fā)生的可能故障前必須對于整個存儲系統(tǒng)的架構(gòu)以及原理有一個清楚的了解。普遍來說存儲系統(tǒng)由主機(jī)、交換機(jī)及存儲設(shè)備組成。它們之間可以是直連或者是IP網(wǎng)絡(luò)或FC網(wǎng)絡(luò)的方式進(jìn)行連接。整個系統(tǒng)的穩(wěn)定性跟每個組成部分都息息相關(guān)。
其次了解故障的分類,故障分類大致分為硬件故障、配置故障或者license類問題,先外部后內(nèi)部,先處理高級警告后處理低級警告,先共性后個性。
面對故障的發(fā)生,第一步永遠(yuǎn)都是先進(jìn)行必要的信息收集,對于整個存儲系統(tǒng)的基本信息,故障信息、存儲設(shè)備信息以及組網(wǎng)、主機(jī)服務(wù)器信息要有了解。這些部分可以直接管理到主機(jī)、交換機(jī)或存儲設(shè)備中進(jìn)行收集,如今廠商也都有專門研發(fā)維護(hù)工具來幫助管理者做這些事情。收集清楚這些信息之后,才能對整個存儲系統(tǒng)有一個普遍清晰的認(rèn)知。至少對如今的故障可能發(fā)生原因有一個了解,然后再細(xì)化到每個組成部分上排查可能問題。
一、主機(jī)層
在主機(jī)層面大多需要檢查的是操作系統(tǒng)版本,相應(yīng)的HBA卡是否達(dá)到合適的標(biāo)準(zhǔn),如速率、IOPS及帶寬等。其次是在主機(jī)上安裝的多路徑軟件,查看一下與存儲設(shè)備連接的物理路徑的狀態(tài)以及存儲LUN等信息。
二、網(wǎng)絡(luò)層
網(wǎng)絡(luò)層次可能發(fā)生的問題大多是連通性問題,由于鏈路故障導(dǎo)致的丟包或者誤碼率上升等現(xiàn)象,此現(xiàn)象可以在交換機(jī)上觀察端口的信息,觀察誤碼率是否在持續(xù)增長,如有,則可能存在鏈路部件異?;蚪佑|不良的現(xiàn)象。其次可能是端口速率或帶寬未達(dá)到標(biāo)準(zhǔn),查看端口配置及協(xié)商狀況,這些都有可能導(dǎo)致故障或者性能問題。
三、存儲層
存儲設(shè)備可以在導(dǎo)出相關(guān)告警,事件或者運(yùn)行數(shù)據(jù)、系統(tǒng)日志和硬盤日志來進(jìn)一步分析可能發(fā)生故障的原因,到底是存儲控制器問題還是底層的硬盤問題都需要一一排查。在底層存儲方面主要考慮存儲模塊的配置,指示燈狀態(tài)等信息,從指示燈狀態(tài)我們可以分析出是否存在硬件故障等,其次在配置方面:RAID級別、分條深度、LUN讀寫策略、cache策略,LUN歸屬、硬盤類型等是否符合業(yè)務(wù)的特點以及不符合時可能導(dǎo)致的問題。都是需要我們在故障排查處理時需要考慮的。
總之面對存儲系統(tǒng)的故障,一定要具備一個清晰的思路,不要盲目的去做。盲目的去做可能會惡化故障,從而使得排查難度進(jìn)一步加大。
-
云計算
+關(guān)注
關(guān)注
39文章
7855瀏覽量
137955 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4872瀏覽量
72432 -
存儲系統(tǒng)
+關(guān)注
關(guān)注
2文章
415瀏覽量
40956
原文標(biāo)題:示波器專用芯片TEK061/049白皮書有獎下載
文章出處:【微信號:eetop-1,微信公眾號:EETOP】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論