在本系列的第一篇文章中,我們探討了靜默數(shù)據(jù)損壞(Silent Data Corruption,SDC)的定義及其對當(dāng)前計(jì)算數(shù)據(jù)狀況的影響。為此,我們再次邀請了谷歌的首席工程師Rama Govindaraju和微軟的硬件架構(gòu)合伙人Robert S. Chappell共同探討解決這一棘手問題的可行方案。
回顧一下,靜默數(shù)據(jù)損壞是指受影響的CPU在處理數(shù)據(jù)時無意中引發(fā)錯誤。這些錯誤可能會長時間潛伏而不被發(fā)現(xiàn),進(jìn)而悄無聲息地破壞整個數(shù)據(jù)集。
隨著計(jì)算機(jī)處理能力的飛速提升,尤其是伴隨內(nèi)存密集型人工智能(AI)及其他前沿技術(shù)的廣泛應(yīng)用,SDC的風(fēng)險日益加劇,可能導(dǎo)致大量數(shù)據(jù)的損壞,進(jìn)而引發(fā)難以預(yù)估且影響深遠(yuǎn)的問題。
SDC問題亟待解決,那我們應(yīng)該如何應(yīng)對呢?
處理復(fù)雜的靜默數(shù)據(jù)損壞問題
當(dāng)前,SDC的成因尚未明確,且解決方案尚處于初級階段。
SDC所面臨的一大挑戰(zhàn)是決策者未投入充足資源來根本性地解決該問題,而僅僅是在癥狀顯現(xiàn)時采取臨時緩解措施?!斑@要花多少錢?”是常見的反對理由,通常也是SDC未得到根本解決的原因,畢竟定期執(zhí)行掃描以及改進(jìn)芯片制造工藝等諸多措施的成本過高。
最終,成本問題成為了開發(fā)實(shí)際解決方案的絆腳石。如果成本過高,為什么還要去研究解決方案呢?但這正是悖論所在:如果開發(fā)出了解決方案,就可以進(jìn)一步研究降低成本和擴(kuò)大應(yīng)用的方法。
解決SDC的責(zé)任不應(yīng)僅落在芯片開發(fā)者身上,制造商以及更廣泛的利益相關(guān)方也應(yīng)參與其中。即使現(xiàn)有的每個芯片都完美無瑕,SDC問題仍然會發(fā)生。然而,芯片生命周期的每一個環(huán)節(jié)都可能存在相關(guān)的解決方案,且或?qū)Υ税l(fā)揮積極作用。
如今,制造商缺乏應(yīng)對SDC的動力。如果客戶收到有故障或缺陷的芯片,通常只需退換即可。這種做法雖然可行,但并未從根本上解決問題。如果激勵機(jī)制發(fā)生改變,相應(yīng)的行為模式也會隨之變化。例如,如果芯片開發(fā)者可以向制造商證明某個芯片存在缺陷,而制造商必須為此支付50倍于芯片成本的賠償,那么制造商就會更自覺地采取預(yù)防措施。
此外,早期的篩查和測試有助于盡早發(fā)現(xiàn)SDC,從而留出補(bǔ)救時間。就比如您汽車上的傳感器。許多傳感器并不是汽車正常運(yùn)行所必需的,而是用于提醒用戶可能存在的問題。
在芯片領(lǐng)域,某些故障可能隱藏了一兩年之久,等到發(fā)現(xiàn)時往往為時已晚。芯片中的傳感器可以發(fā)出預(yù)警或警告,雖然這只是權(quán)宜之計(jì),但可以在過渡階段提供有效幫助。
解決SDC面臨的一大難題在于,解決方案需要廣泛覆蓋。具體來說,真正有效的解決方案應(yīng)涵蓋芯片開發(fā)者、供應(yīng)商、云和數(shù)據(jù)管理者及其他相關(guān)方等等所有環(huán)節(jié)。
有望解決靜默數(shù)據(jù)損壞的工具和方法
解決SDC的另一難點(diǎn)在于我們對其發(fā)生機(jī)制和原因知之甚少。不知彼,不知己,每戰(zhàn)必貽。因此,我們需要更多能夠廣泛共享、分析和研究的數(shù)據(jù)。此外,行業(yè)也應(yīng)允許并鼓勵研究人員和開發(fā)者聚焦于SDC問題。
識別數(shù)據(jù)中的異常點(diǎn)、采取糾正措施、診斷癥狀、關(guān)注時間延遲或數(shù)據(jù)泄漏等警示跡象,以及其他許多診斷選項(xiàng),將有助于揭開SDC的神秘面紗。然后,通過調(diào)整策略,我們也許能夠找到解決方案。然而,這些舉措仍未能在開發(fā)階段如期落地,所以迫切需要集結(jié)各方力量共同攻關(guān)。
我們可以借鑒網(wǎng)絡(luò)安全等相關(guān)行業(yè)以及食品和消費(fèi)品等領(lǐng)域,建立一系列的管理標(biāo)準(zhǔn),規(guī)定安全可靠的產(chǎn)品必須達(dá)到的特定條件。在計(jì)算機(jī)組件領(lǐng)域,類似的框架必定有助于推動解決方案的發(fā)展。
在工具箱中,還有一個工具目前尚未得到充分利用,那就是人工智能(AI)和機(jī)器學(xué)習(xí)(ML)算法。在診斷方面,定期篩查并不完美。一項(xiàng)篩查可以運(yùn)行10次,但可能會得到5次陽性結(jié)果和5次陰性結(jié)果。故障容易被遺漏,而即便能夠識別出某些癥狀,但通常也難以確定故障的根本原因或具體機(jī)制。
AI或ML或許能夠提供幫助。理論上,當(dāng)SDC的早期跡象達(dá)到某些條件時,算法能夠發(fā)出警報(bào)。但這種方法也并不理想,因?yàn)橛?xùn)練這些模型需要大量數(shù)據(jù),進(jìn)而需要綜合處理數(shù)據(jù),而且用于AI訓(xùn)練的數(shù)據(jù)集必須具備高度的目的性。這個方法雖然很有潛能,但仍處于早期階段。
毫無疑問,這一問題規(guī)模巨大,構(gòu)成了根本性威脅,需要我們攜手應(yīng)對。芯片開發(fā)者、制造商、軟件和硬件工程師、供應(yīng)商以及任何涉及計(jì)算機(jī)數(shù)據(jù)的人員等等各個領(lǐng)域的利益相關(guān)者,都需要共同合作并認(rèn)真對待SDC問題。在此過程中,教育扮演著重要角色,我們希望類似本博客系列的資源有助于闡明為什么必須采取行動來解決靜默數(shù)據(jù)損壞,并說服決策者落實(shí)措施。
解決問題的第一步是承認(rèn)問題的存在。對于靜默數(shù)據(jù)損壞,我們已經(jīng)意識到問題的存在,現(xiàn)在是采取行動的時候了。
-
微軟
+關(guān)注
關(guān)注
4文章
6636瀏覽量
104544 -
谷歌
+關(guān)注
關(guān)注
27文章
6203瀏覽量
106100 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7550瀏覽量
88749 -
人工智能
+關(guān)注
關(guān)注
1796文章
47818瀏覽量
240604 -
新思科技
+關(guān)注
關(guān)注
5文章
811瀏覽量
50433
原文標(biāo)題:對話谷歌和微軟,為什么靜默數(shù)據(jù)損壞(SDC)問題需要高度重視?(下)
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論