對(duì)于數(shù)據(jù)中心運(yùn)營(yíng),可能很難確定哪些數(shù)據(jù)至關(guān)重要,哪些數(shù)據(jù)是背景噪音。篩選數(shù)據(jù)的能力至關(guān)重要,因?yàn)閿?shù)據(jù)中心經(jīng)理必須迅速確定哪些警報(bào)至關(guān)重要,哪些警報(bào)可以幫助提供有關(guān)其基礎(chǔ)架構(gòu)運(yùn)行情況的信息。
在2020年數(shù)據(jù)中心世界大會(huì)上,在《Real-time Environmental Monitoring for Your Data Center Management Platforms and Getting Common Data Into Your New Hybrid World》的演講中,Critical Environments Group公司數(shù)據(jù)中心解決方案主管Andrew Graham和RLE Technologies公司國(guó)際和西方國(guó)家銷(xiāo)售主管Cam Rogers介紹了一個(gè)框架,該框架可以幫助企業(yè)在混合環(huán)境中設(shè)置實(shí)時(shí)監(jiān)控,以有效管理和擴(kuò)展基礎(chǔ)架構(gòu)。
為了成功部署實(shí)時(shí)監(jiān)控,IT團(tuán)隊(duì)?wèi)?yīng)該解決五個(gè)問(wèn)題:誰(shuí)、什么、何時(shí)、何地、為什么以及如何。
1. 弄清楚為什么需要實(shí)時(shí)監(jiān)控
在IT團(tuán)隊(duì)投資于任何類(lèi)型的實(shí)時(shí)監(jiān)控前,他們應(yīng)該弄清楚為什么在數(shù)據(jù)中心內(nèi)需要實(shí)時(shí)監(jiān)控。潛在的原因包括降低成本、提高生產(chǎn)率、簡(jiǎn)化管理以及減少意外和停機(jī)時(shí)間。
當(dāng)企業(yè)試圖將基礎(chǔ)設(shè)施擴(kuò)展到本地?cái)?shù)據(jù)中心之外,并整合主機(jī)托管和邊緣作為整個(gè)基礎(chǔ)結(jié)構(gòu)的一部分時(shí),這些原因尤其引人注目。Graham說(shuō),隨著混合IT不斷發(fā)展,那些運(yùn)營(yíng)自己數(shù)據(jù)中心的企業(yè)發(fā)現(xiàn),容量管理成為巨大的問(wèn)題。
實(shí)時(shí)監(jiān)控技術(shù)最初用于提供數(shù)據(jù)中心基礎(chǔ)設(shè)施的快照,因此非常適合幫助IT團(tuán)隊(duì)更有效地管理數(shù)據(jù)中心,并幫助解決日益復(fù)雜的設(shè)置問(wèn)題—其中涉及多種技術(shù)類(lèi)型。
RSP Architects的負(fù)責(zé)人Rajan Battish說(shuō):“實(shí)時(shí)監(jiān)控已經(jīng)取得很大的進(jìn)步;它一直存在。多年來(lái),我們看到的是,它們?cè)跈C(jī)架級(jí)別獲取信息,并嘗試通過(guò)基礎(chǔ)架構(gòu)對(duì)其進(jìn)行優(yōu)化。監(jiān)控系統(tǒng)開(kāi)始獲取數(shù)據(jù)中心的運(yùn)行情況數(shù)據(jù),并且它成為自動(dòng)化和優(yōu)化的方式?!?/p>
2. 確定誰(shuí)必須參與
當(dāng)IT團(tuán)隊(duì)建立業(yè)務(wù)用例,他們就必須考慮誰(shuí)應(yīng)該參與到新的實(shí)時(shí)監(jiān)控設(shè)置中。
這包括必須向誰(shuí)報(bào)告問(wèn)題、該系統(tǒng)應(yīng)及時(shí)將信息提供給誰(shuí)、誰(shuí)關(guān)注設(shè)施狀況、哪些人員負(fù)責(zé)新應(yīng)用的推出,以及哪些團(tuán)隊(duì)關(guān)注流程的改進(jìn)和有效性。
如果企業(yè)具有非本地基礎(chǔ)架構(gòu),則管理員必須說(shuō)明可能需要報(bào)告的任何外部方,例如托管服務(wù)提供商、主機(jī)托管和云提供商、合作伙伴和供應(yīng)商。
IT團(tuán)隊(duì)必須建立主要的利益相關(guān)者,因?yàn)檫@樣做會(huì)影響報(bào)告結(jié)構(gòu)和軟件警報(bào)。這還可以減少報(bào)告的冗余。
Rogers表示:“每個(gè)利益相關(guān)者都有不同的優(yōu)先事項(xiàng),IT經(jīng)理可能與設(shè)施經(jīng)理有不同的需求。應(yīng)該由他們決定什么重要,什么不那么重要。”
他補(bǔ)充說(shuō),企業(yè)可以從本地化警報(bào)開(kāi)始,這些警報(bào)不一定關(guān)聯(lián)所有事物。
他說(shuō):“除非你的員工24/7全天候工作,否則當(dāng)你無(wú)法看到警報(bào)時(shí),問(wèn)題就會(huì)非常迅速地發(fā)酵。你需要查看設(shè)施并將警報(bào)發(fā)送給合適的人?!?/p>
3. 查看最有用的指標(biāo)是哪些
企業(yè)有很多數(shù)據(jù)需要跟蹤-特別是在基礎(chǔ)架構(gòu)方面。通過(guò)實(shí)時(shí)監(jiān)視設(shè)置,管理人員應(yīng)確定哪些指標(biāo)對(duì)他們很重要,以及哪些指標(biāo)可以快速提供信息。
Rogers說(shuō):“這實(shí)際上取決于你希望管理和匯集哪些資產(chǎn)?!?/p>
大多數(shù)企業(yè)都依賴一些通用指標(biāo),例如電源使用效率(PUE)、數(shù)據(jù)中心基礎(chǔ)架構(gòu)效率(DCIE)、能耗降低和IT設(shè)備利用率。但是管理員應(yīng)謹(jǐn)慎對(duì)待這些指標(biāo)。
PUE是廣泛使用的度量標(biāo)準(zhǔn),但它基于對(duì)IT設(shè)施功率和總設(shè)備功率的總體估計(jì)。如果團(tuán)隊(duì)進(jìn)行IT升級(jí),則PUE可能會(huì)上升。Graham建議,IT管理員使用PUE作為內(nèi)部度量,而不是嘗試將其與企業(yè)外部的其他數(shù)據(jù)中心進(jìn)行比較。
Graham和Rogers解釋說(shuō),管理人員可以使用PUE和DCIE之外的其他指標(biāo),例如冷卻指標(biāo),但是這些指標(biāo)可能需要更多數(shù)據(jù)和分析,從而導(dǎo)致部署率較低。
4. 確定何時(shí)部署監(jiān)控或擴(kuò)大容量
對(duì)于何時(shí)增加容量或系統(tǒng)應(yīng)用程序,可能很困難,尤其是隨著IT需求的不斷變化。你的團(tuán)隊(duì)?wèi)?yīng)該考慮你的監(jiān)視和管理工具是否可以幫助內(nèi)部開(kāi)發(fā)和改進(jìn)的規(guī)劃、進(jìn)度和性能。
Graham說(shuō):“你不能只是考慮你何時(shí)需要使設(shè)備可用和運(yùn)行以推出應(yīng)用程序。你需要從上線日期開(kāi)始工作,以覆蓋部署過(guò)程中每一步所需的所有資源。”
實(shí)時(shí)監(jiān)控還可以通過(guò)針對(duì)特定事件的指標(biāo)來(lái)為日常工作提供幫助:事件發(fā)生的時(shí)間、報(bào)告時(shí)間和解決的時(shí)間。識(shí)別這些時(shí)間可以幫助企業(yè)更加主動(dòng)地響應(yīng)事件,特別是如果這些實(shí)例顯示出隨時(shí)間變化的模式或以特定間隔定期發(fā)生的情況。
5. 了解基礎(chǔ)設(shè)施的位置
企業(yè)還應(yīng)該考慮他們應(yīng)該在何處部署監(jiān)控軟件和硬件-無(wú)論是在本地?cái)?shù)據(jù)中心、在邊緣節(jié)點(diǎn)的異地還是在主機(jī)托管地點(diǎn)。從內(nèi)部角度來(lái)看,應(yīng)該有連續(xù)的流程來(lái)跟蹤容量和連接的設(shè)備。
還有云提供商提供的信息,因此IT團(tuán)隊(duì)?wèi)?yīng)詢問(wèn)是否可以在云端跟蹤和追蹤數(shù)據(jù),并確定任何合規(guī)性需求–文檔或?qū)S脩?yīng)用程序等。
通過(guò)更準(zhǔn)確地了解所有數(shù)據(jù)和硬件在IT設(shè)置中所處的位置,企業(yè)可以確定哪種實(shí)時(shí)監(jiān)控產(chǎn)品最能滿足其需求,并且可以支持所有必需的技術(shù)類(lèi)型。在部署實(shí)時(shí)監(jiān)控后,這將確保一致的性能和有效的容量管理。
6. 了解如何監(jiān)控基礎(chǔ)架構(gòu)
在IT團(tuán)隊(duì)、管理人員和利益相關(guān)者討論完何時(shí)、何地以及什么后,管理員應(yīng)調(diào)查企業(yè)應(yīng)如何部署實(shí)時(shí)監(jiān)控并增加基礎(chǔ)架構(gòu)容量。這涉及了解可能影響基礎(chǔ)架構(gòu)增長(zhǎng)的因素,例如熱點(diǎn)、地面空間用盡、中斷、缺乏冷卻資源和水資源等。
Battish說(shuō),大多數(shù)企業(yè)在部署過(guò)程中都面臨挑戰(zhàn),特別是在使硬件和軟件相互通信方面。
這使得匯聚協(xié)議非常重要,因?yàn)榇蠖鄶?shù)企業(yè)通過(guò)多家供應(yīng)商來(lái)構(gòu)建數(shù)據(jù)中心基礎(chǔ)架構(gòu)。然而,傳感器和協(xié)議轉(zhuǎn)換器可以幫助收集數(shù)據(jù)并提高實(shí)時(shí)監(jiān)視功能。
Rogers說(shuō):“傳感器有很多選擇,因此請(qǐng)確保做好功課,不要將自己鎖定在專(zhuān)有產(chǎn)品,而沒(méi)有辦法支持明天及未來(lái)需要的功能?!?/p>
行業(yè)產(chǎn)品包括用于配電單元和不間斷電源的有線和無(wú)線傳感器,以及一系列軟件,企業(yè)可購(gòu)買(mǎi)現(xiàn)成產(chǎn)品或根據(jù)內(nèi)部需求定制產(chǎn)品。傳感器和軟件的這種組合可以幫助管理員和經(jīng)歷減少日常補(bǔ)救任務(wù)的數(shù)量。
Graham稱(chēng):“當(dāng)人們?cè)诓粩嘟鉀Q相同的問(wèn)題時(shí),這對(duì)士氣不利。我們并不是說(shuō)每個(gè)人都需要單一視圖,但他們應(yīng)該減少冗余,整合并解決正確的問(wèn)題。監(jiān)視和管理的轉(zhuǎn)變?cè)试S人們要更有效率,并在我們的行業(yè)中處于領(lǐng)先地位,并專(zhuān)注于更多的優(yōu)化工作。”
責(zé)編AJX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7170瀏覽量
89711 -
監(jiān)控系統(tǒng)
+關(guān)注
關(guān)注
21文章
3947瀏覽量
177334 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4872瀏覽量
72426
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論