一、工業(yè)大數(shù)據(jù)的范疇
工業(yè)大數(shù)據(jù)包括制造企業(yè)信息化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)數(shù)據(jù),以及外部跨界數(shù)據(jù)。信息化數(shù)據(jù)包括了ERP中的客戶訂單、生產(chǎn)計(jì)劃等信息,工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)主要是從生產(chǎn)設(shè)備上采集到的各種產(chǎn)質(zhì)耗數(shù)據(jù)和智能產(chǎn)品上獲得的運(yùn)維數(shù)據(jù),而外部跨界數(shù)據(jù)包括環(huán)境數(shù)據(jù)、市場(chǎng)數(shù)據(jù)和競(jìng)品數(shù)據(jù)等,而其中從機(jī)器設(shè)備上得到的數(shù)據(jù)比重將越來越大。
工業(yè)大數(shù)據(jù)的特征除了大數(shù)據(jù)的4V(數(shù)據(jù)量大、類型多、價(jià)值密度低、速度快)以外,還有專業(yè)性、關(guān)聯(lián)性、和時(shí)序性特征。工業(yè)大數(shù)據(jù)應(yīng)該注意特征背后的物理意義以及特征之間關(guān)聯(lián)性的機(jī)理邏輯,互聯(lián)網(wǎng)上的大數(shù)據(jù)可以只針對(duì)數(shù)據(jù)本身進(jìn)行挖掘和關(guān)聯(lián),而不考慮數(shù)據(jù)本身的意義,挖掘到什么結(jié)果就是什么結(jié)果。工業(yè)大數(shù)據(jù)的挖掘必須要有明確的挖掘目標(biāo),針對(duì)應(yīng)用的功能在此基礎(chǔ)上逐步擴(kuò)展挖掘的方向。
二、為什么大數(shù)據(jù)上云要輕量化?
制造企業(yè)在構(gòu)建大數(shù)據(jù)分析系統(tǒng)時(shí),除了采用傳統(tǒng)的自建數(shù)據(jù)中心架構(gòu)以外,還可以采用數(shù)據(jù)存儲(chǔ)和分析構(gòu)建在公有云平臺(tái),采用離線訓(xùn)練模型,結(jié)合邊緣計(jì)算在生產(chǎn)現(xiàn)場(chǎng)利用實(shí)時(shí)數(shù)據(jù)和已經(jīng)訓(xùn)練好的模型進(jìn)行業(yè)務(wù)應(yīng)用的兩級(jí)架構(gòu)。
兩級(jí)架構(gòu)的優(yōu)點(diǎn)主要體現(xiàn)在以下四個(gè)方面:
1、降低存儲(chǔ)成本:從設(shè)備傳感器上采集的數(shù)據(jù)點(diǎn)往往是時(shí)序連續(xù)的過程量,隨著采集頻率的提高和周期延長(zhǎng),數(shù)據(jù)量是非常大的,如果考慮對(duì)海量的數(shù)據(jù)的存儲(chǔ)、備份和還原全生命周期的管理,往往在公有云上成本更低。
2、提高彈性:在公有云上處理大數(shù)據(jù),空間和時(shí)間靈活性約高,對(duì)數(shù)據(jù)存儲(chǔ)和計(jì)算資源的要求會(huì)隨著項(xiàng)目時(shí)間越來越長(zhǎng)而要求越來越高,而公有云基本能做到想什么時(shí)候要就什么時(shí)候要,想要多少就要多少。
3、提高容災(zāi)性:傳統(tǒng)的數(shù)據(jù)中心的容災(zāi)備份往往采用兩地三中心的方式,為保證7*24的系統(tǒng)高可用性對(duì)系統(tǒng)的要求高,而公有云的IaaS和PaaS的容災(zāi)備份機(jī)制能實(shí)現(xiàn)低成本的低數(shù)據(jù)丟失率和更短恢復(fù)間隔。
4、數(shù)據(jù)共享更便利:企業(yè)應(yīng)該把自身看成“大數(shù)據(jù)”價(jià)值鏈中的一部分,那么企業(yè)既是貢獻(xiàn)者也是受益者,工業(yè)大數(shù)據(jù)的價(jià)值可以共享給企業(yè)上下游使用, 采用統(tǒng)一的公有云平臺(tái),促進(jìn)數(shù)據(jù)資源的融會(huì)貫通,使得數(shù)據(jù)共享更方便。
大數(shù)據(jù)上云以后由于網(wǎng)絡(luò)帶寬的限制、對(duì)數(shù)據(jù)處理的時(shí)效性要求高、數(shù)據(jù)存儲(chǔ)成本以及模型訓(xùn)練復(fù)雜程度多方面的原因,也要求在企業(yè)邊緣層對(duì)原始數(shù)據(jù)進(jìn)行一些輕量化處理,在不損失大數(shù)據(jù)價(jià)值性的基礎(chǔ)上減少原始數(shù)據(jù)量。
三、輕量化的方法
輕量化是在不損失大數(shù)據(jù)價(jià)值性的基礎(chǔ)上減少網(wǎng)絡(luò)傳輸、存儲(chǔ)和訓(xùn)練的數(shù)據(jù)量,并不是要剔除異常數(shù)據(jù)。在傳統(tǒng)的儀表數(shù)據(jù)采集的時(shí)候都有一個(gè)過濾異常數(shù)據(jù)的操作,會(huì)設(shè)定一定的閾值去除儀表讀數(shù)的異常跳變,而輕量化的方法不是采用這樣的方法去除異常數(shù)據(jù),因?yàn)楫惓5臄?shù)據(jù)有可能對(duì)業(yè)務(wù)分析是有價(jià)值的。輕量化的方法是在業(yè)務(wù)分析人員以價(jià)值需求為導(dǎo)向去發(fā)現(xiàn)數(shù)據(jù)和提取數(shù)據(jù),主要是通過采樣中的特征選取和數(shù)據(jù)壓縮兩種方法。
特征選取是在可采集的樣本特征集合中選擇預(yù)測(cè)能力強(qiáng)的最佳子集,剔除重復(fù),簡(jiǎn)化多個(gè)特征之間的相互關(guān)聯(lián)。首先可以對(duì)多個(gè)特征做相關(guān)性分析,如果特征的相關(guān)性為1,表示兩個(gè)特征的變化是完全相同的,通過找出兩個(gè)特征的線性關(guān)系,能夠通過一個(gè)特征還原另外一個(gè)特征,一個(gè)簡(jiǎn)單的例子如果產(chǎn)品的中文名稱要求是唯一的,那么這個(gè)產(chǎn)品的中文名稱和它的編碼相關(guān)性就是1,不存在多個(gè)編碼的產(chǎn)品取相同的名稱,那么在做數(shù)據(jù)采集、傳輸、存儲(chǔ)和訓(xùn)練的時(shí)候只需要保留產(chǎn)品編碼,只需要在結(jié)果展示的時(shí)候通過對(duì)應(yīng)表的方式找出產(chǎn)品名稱。如果在訓(xùn)練樣本的時(shí)候?qū)μ卣骶S度有明確的要求,也可以采用PCA方法對(duì)特征進(jìn)行降維,PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代,從舊特征到新特征的映射捕獲數(shù)據(jù)中的固有變異性,盡量使新的m個(gè)特征互不相關(guān)。還有一些特征之間是有特殊規(guī)律可循,比如說某個(gè)機(jī)臺(tái)生產(chǎn)的班次和班組的關(guān)系是完全按照四班三運(yùn)轉(zhuǎn)模式來排班,這個(gè)時(shí)候只需要確認(rèn)班次就可以推導(dǎo)出執(zhí)行班組信息,這樣的規(guī)則如果是固定不變的話,可以在模型訓(xùn)練時(shí)候直接處理特征,而不需要另外做采集和儲(chǔ)存。
采用壓縮算法也是常用的輕量化手段,在帶有時(shí)間戳的時(shí)序性連續(xù)變量采集中,隨著采集頻率的提高數(shù)據(jù)量也成級(jí)數(shù)上升,可以通過偏差檢測(cè)處理和羅旋門壓縮過濾,既能反映數(shù)據(jù)實(shí)際趨勢(shì),所需要采集、傳輸和保存的數(shù)據(jù)也顯著減少。 下面的三張圖簡(jiǎn)單展示了數(shù)據(jù)壓縮的過程。
而自編碼神經(jīng)網(wǎng)絡(luò)是結(jié)合了以上兩種方式,采用自編碼神經(jīng)網(wǎng)絡(luò)既可以對(duì)特征維度進(jìn)行降維,也會(huì)通過編碼方式對(duì)數(shù)據(jù)進(jìn)行壓縮。自編碼神經(jīng)網(wǎng)絡(luò)是一種無監(jiān)督學(xué)習(xí)算法,它使用了反向傳播算法,并讓目標(biāo)值等于輸入值,可以通過設(shè)定神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù)量來達(dá)到數(shù)據(jù)壓縮的目的。比如我們有100個(gè)輸入特征,可以設(shè)定隱藏層節(jié)點(diǎn)數(shù)量為50,最終輸出層還是還原100個(gè)輸入特征。模型訓(xùn)練完成后,我們可以用模型的輸入層到隱藏層作為壓縮算法,把模型的隱藏層到輸出層作為解壓算法,這樣在邊緣層進(jìn)行模型部署進(jìn)行壓縮,在公有云利用模型進(jìn)行解壓。自編碼神經(jīng)網(wǎng)絡(luò)相對(duì)PCA來說可以更好的處理特征之間的非線性關(guān)系。
四、結(jié)語
在越來越多的制造業(yè)把大數(shù)據(jù)放在云端進(jìn)行處理的時(shí)候,在網(wǎng)絡(luò)、存儲(chǔ)和計(jì)算能力有效的情況下,采用對(duì)數(shù)據(jù)進(jìn)行壓縮和對(duì)數(shù)據(jù)特征進(jìn)行選取的方法進(jìn)行數(shù)據(jù)輕量化處理,以滿足數(shù)據(jù)業(yè)務(wù)分析需求和處理效率的高效。
-
傳感器
+關(guān)注
關(guān)注
2553文章
51432瀏覽量
756842 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11189瀏覽量
103933 -
工業(yè)大數(shù)據(jù)
+關(guān)注
關(guān)注
0文章
72瀏覽量
7885
原文標(biāo)題:企業(yè)實(shí)戰(zhàn)專家:工業(yè)大數(shù)據(jù)如何輕量化上云
文章出處:【微信號(hào):IndustryIOT,微信公眾號(hào):工業(yè)互聯(lián)網(wǎng)前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論