硬件故障在大型數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施中非常普遍,這些故障可能導(dǎo)致違反服務(wù)水平協(xié)議(SLA)并造成巨大經(jīng)濟(jì)損失。
內(nèi)存故障是當(dāng)今數(shù)據(jù)中心中最嚴(yán)重的硬件故障之一,眾所周知,它嚴(yán)重影響了系統(tǒng)的可靠性、可用性和可維護(hù)性(RAS)。這些故障可能是由超出正常使用范圍的多種因素引起的,包括制造缺陷以及極端的環(huán)境或操作條件。
雖然普遍接受的技術(shù),例如,糾錯(cuò)碼(ECC)和可糾正錯(cuò)誤,基于閾值的預(yù)測(cè)性故障分析(PFA))可克服雙列直插式內(nèi)存模塊(DIMM)的一些可糾正錯(cuò)誤,但它們具有成本、可靠性、覆蓋范圍和性能方面的影響。
可糾正錯(cuò)誤數(shù)量的激增可能導(dǎo)致服務(wù)器性能下降,甚至導(dǎo)致拒絕服務(wù)。此外,ECC和基于閾值的可糾正錯(cuò)誤的PFA不能幫助克服無(wú)法糾正的錯(cuò)誤,如災(zāi)難性故障通常導(dǎo)致崩潰。
對(duì)于嚴(yán)重依賴服務(wù)器可靠性、可用性和可維護(hù)性的組織,英特爾內(nèi)存故障預(yù)測(cè)(Intel MFP)是理想的解決方案。對(duì)于當(dāng)今的數(shù)據(jù)中心而言,提前預(yù)測(cè)未來(lái)的內(nèi)存故障已變得至關(guān)重要。通過分析歷史數(shù)據(jù)以預(yù)測(cè)潛在的災(zāi)難性事件,英特爾?MFP可以在內(nèi)存故障事件發(fā)生之前對(duì)其進(jìn)行預(yù)測(cè)。
該解決方案具有多項(xiàng)創(chuàng)新和原始功能。它基于歷史數(shù)據(jù)來(lái)預(yù)測(cè)行、列和單元格中的微型故障,并使用低開銷的在線學(xué)習(xí)方法來(lái)提高其預(yù)測(cè)精度并避免干擾關(guān)鍵的計(jì)算任務(wù)。
這也使Intel MFP能夠?yàn)橹鲃?dòng)內(nèi)存故障管理生成估計(jì)的內(nèi)存運(yùn)行狀況評(píng)分,從而使用戶能夠采取相應(yīng)的措施。英特爾MFP與供應(yīng)商無(wú)關(guān),并且可以與其他數(shù)據(jù)中心管理解決方案(包括英特爾數(shù)據(jù)中心管理器(Intel DCM))一起使用。
將與內(nèi)存故障相關(guān)的服務(wù)器崩潰減少40%
在騰訊的一個(gè)案例研究中,英特爾MFP算法的初步協(xié)作測(cè)試顯示出快速的結(jié)果,并將內(nèi)存故障和系統(tǒng)停機(jī)時(shí)間減少了五倍。合作伙伴還通過在操作系統(tǒng)級(jí)別明智地避免出現(xiàn)內(nèi)存故障,直到更換了該內(nèi)存模塊為止,從而擴(kuò)展了此支持。
在與美團(tuán)的類似案例研究中,該公司發(fā)現(xiàn)由于內(nèi)存錯(cuò)誤導(dǎo)致的服務(wù)器崩潰減少了40%。該公司通過將Intel MFP集成到其現(xiàn)有數(shù)據(jù)中心管理解決方案中,監(jiān)控了服務(wù)器內(nèi)存模塊的運(yùn)行狀況。通過分析以前由其數(shù)據(jù)中心管理軟件收集的數(shù)據(jù),他們能夠?yàn)槊總€(gè)DRAM模塊生成預(yù)測(cè)分?jǐn)?shù),然后采取適當(dāng)?shù)拇胧﹣?lái)維護(hù)其SLA并最大化服務(wù)正常運(yùn)行時(shí)間。
借助新功能,英特爾與全球領(lǐng)先的AMI合作,通過其BIOS、BMC和安全解決方案為全球互聯(lián)數(shù)字基礎(chǔ)架構(gòu)提供電源、管理和保護(hù),并決心將這種支持?jǐn)U展到整個(gè)行業(yè)。
因?yàn)椴东@和分析內(nèi)存錯(cuò)誤需要UEFI和BMC固件之間緊密的聯(lián)系,所以AMI致力于使Intel MFP易于被現(xiàn)有和將來(lái)的服務(wù)器平臺(tái)采用。
捕獲錯(cuò)誤后,它們將由BIOS記錄,然后某些元數(shù)據(jù)信息將傳遞到BMC固件。然后,BMC固件將獲取此元數(shù)據(jù),并通過Intel MFP引擎運(yùn)行,以計(jì)算內(nèi)存模塊的運(yùn)行狀況得分。當(dāng)檢測(cè)到新的錯(cuò)誤時(shí),AMI解決方案將跟蹤每個(gè)內(nèi)存模塊的運(yùn)行狀況評(píng)分,并公開結(jié)果供系統(tǒng)管理員進(jìn)行分析。
AMI的默認(rèn)實(shí)現(xiàn)在BUI的Web UI中提供當(dāng)前的內(nèi)存模塊運(yùn)行狀況得分信息,并通過遵循DMTF Redfish標(biāo)準(zhǔn)的RESTful API公開相同的內(nèi)存運(yùn)行狀況得分信息。
RESTful API可輕松與現(xiàn)有數(shù)據(jù)中心管理軟件集成。但是,對(duì)于那些不太愿意與自己的軟件集成的數(shù)據(jù)中心,AMI提供了一個(gè)稱為AMI Composer的數(shù)據(jù)管理工具,該工具開發(fā)為完全符合Intel Rack Scale Design和DMTF Redfish標(biāo)準(zhǔn),它將匯總所有信息并通過一個(gè)基于Web的儀表板。
為數(shù)據(jù)中心和云服務(wù)提供商帶來(lái)的直接好處
當(dāng)然,在創(chuàng)建機(jī)器學(xué)習(xí)算法時(shí),它實(shí)際上永遠(yuǎn)不會(huì)完成。當(dāng)前的Intel MFP模型支持在具有Intel Xeon可擴(kuò)展處理器的平臺(tái)上運(yùn)行的DDR4內(nèi)存模塊,并且Intel繼續(xù)收集有關(guān)內(nèi)存錯(cuò)誤和內(nèi)存模塊故障的更多信息,以改進(jìn)模型。
此外,當(dāng)新的內(nèi)存模塊類型引入行業(yè)或?qū)ΜF(xiàn)有技術(shù)進(jìn)行改進(jìn)時(shí),英特爾?MFP將為它們提供支持。
最重要的是,將對(duì)所有更新進(jìn)行適當(dāng)?shù)姆治鲆园贛FP模型中,以便在英特爾更新MFP模型時(shí),AMI將為提供給行業(yè)合作伙伴的現(xiàn)有技術(shù)提供易于實(shí)現(xiàn)的更新。
對(duì)于數(shù)據(jù)中心和云服務(wù)提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好處顯而易見。改進(jìn)了數(shù)據(jù)中心SLA。通過主動(dòng)的內(nèi)存運(yùn)行狀況評(píng)估和增強(qiáng)的內(nèi)存頁(yè)面脫機(jī)策略,可以降低DIMM故障率。
而且,最重要的是,更高的DIMM性能和可靠性可優(yōu)化工作負(fù)載和虛擬機(jī)(VM)遷移決策,從而提高效率和靈活性,同時(shí)降低總擁有成本。
對(duì)于希望在配備AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系統(tǒng)上利用英特爾MFP的公司,建議他們要求其系統(tǒng)制造商將AMI連同用于MegaRAC BMC固件的帶有Intel MFP選件包的AMI和具有英特爾內(nèi)存故障預(yù)測(cè)功能的AMI一起包括在內(nèi)。適用于Aptio UEFI固件的eModule。
責(zé)任編輯:pj
-
英特爾
+關(guān)注
關(guān)注
61文章
10017瀏覽量
172433 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9336瀏覽量
86153 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4872瀏覽量
72429 -
騰訊
+關(guān)注
關(guān)注
7文章
1668瀏覽量
49631
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
數(shù)據(jù)中心中的FPGA硬件加速器
![<b class='flag-5'>數(shù)據(jù)中心中</b>的FPGA<b class='flag-5'>硬件</b>加速器](https://file1.elecfans.com/web3/M00/05/E9/wKgZO2eFzEqADv0LAABQx3tQZeo242.png)
亞馬遜云科技發(fā)布全新數(shù)據(jù)中心組件
淺析如何降低數(shù)據(jù)中心電力能耗
![淺析如何降低<b class='flag-5'>數(shù)據(jù)中心</b>電力能耗](https://file1.elecfans.com//web2/M00/05/D1/wKgaombVP4qAbCVGAAGicqyiOHM264.jpg)
![](https://file1.elecfans.com/web2/M00/04/92/wKgZombQGkmAbGb_AAR8LQIXDJQ743.jpg)
怎樣保障數(shù)據(jù)中心不間斷電源不斷電 提供可靠安全的供配電#數(shù)據(jù)中心
半導(dǎo)體存儲(chǔ)器在數(shù)據(jù)中心中的應(yīng)用
![](https://file.elecfans.com/web2/M00/A8/C3/poYBAGR3QwaAR2PYAAAn1Z4oqWo051.png)
數(shù)據(jù)中心電能質(zhì)量治理解決方案
![<b class='flag-5'>數(shù)據(jù)中心</b>電能質(zhì)量治理解決方案](https://file1.elecfans.com//web2/M00/E9/34/wKgaomZO446ASj9FAAF6VC64sSU359.png)
為什么 PDU 在數(shù)據(jù)中心中很重要?
管理數(shù)據(jù)中心電纜的技巧
![](https://file1.elecfans.com/web2/M00/C7/34/wKgZomYR_xCAce5YAAIjhb_OHes778.png)
![](https://file1.elecfans.com/web2/M00/C5/5E/wKgZomX857aAEIGcAAS0a01_Pjw242.png)
數(shù)據(jù)中心市場(chǎng)的關(guān)鍵以太網(wǎng)解決方案
![<b class='flag-5'>數(shù)據(jù)中心</b>市場(chǎng)的關(guān)鍵以太網(wǎng)解決方案](https://file1.elecfans.com/web2/M00/C3/E8/wKgZomXvtjaAZOBeAAAPIepkkZs521.jpg)
![](https://file1.elecfans.com/web2/M00/C3/3F/wKgZomXqcP2AIWI9AATe-VmlXsI316.png)
![](https://file1.elecfans.com/web2/M00/C2/3E/wKgZomXhRx-Ab8H3AAUVCapT4AM216.png)
#MPO預(yù)端接 #數(shù)據(jù)中心機(jī)房 #機(jī)房布線
![](https://file1.elecfans.com/web2/M00/C0/B2/wKgZomXX_4mAUk6MAAUq0M8jrhY646.png)
評(píng)論