根據(jù)信息處理流程,大數(shù)據(jù)在智能電網(wǎng)中的應(yīng)用可以分為數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)存儲及處理、數(shù)據(jù)分析、數(shù)據(jù)解讀和數(shù)據(jù)應(yīng)用6個環(huán)節(jié),其關(guān)鍵技術(shù)包括數(shù)據(jù)集成技術(shù)、數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)處理技術(shù)和數(shù)據(jù)分析技術(shù)。
1、數(shù)據(jù)集成技術(shù)
智能電網(wǎng)大數(shù)據(jù)具有分散性、多樣性和復(fù)雜性等特征,這些特征給大數(shù)據(jù)處理帶來極大的挑戰(zhàn)。要想處理智能電網(wǎng)大數(shù)據(jù),首先就需要對眾多數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,通過數(shù)據(jù)抽取、轉(zhuǎn)換、剔除、修正等處理,建立正確、完整、一致、完備、有效的智能電網(wǎng)大數(shù)據(jù)。目前通常采用的數(shù)據(jù)集成模型包括數(shù)據(jù)聯(lián)邦、基于中間件模型和數(shù)據(jù)倉庫等。
ETL是企業(yè)數(shù)據(jù)集成的主要解決方案。ETL指Extract、Transform、Load,即抽取、轉(zhuǎn)換、加載。數(shù)據(jù)抽取是從源數(shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換是將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務(wù)需求,轉(zhuǎn)換成目的數(shù)據(jù)源要求的形式,并對錯誤、不一致的數(shù)據(jù)進(jìn)行清洗和加工;數(shù)據(jù)加載是將轉(zhuǎn)換后的數(shù)據(jù)加載到目的數(shù)據(jù)源。ETL過程中的主要環(huán)節(jié)就是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)加載。為了實現(xiàn)這些功能,各個ETL工具一般會進(jìn)行一些功能上的擴(kuò)充,例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計信息等。
數(shù)據(jù)集成是智能電網(wǎng)大數(shù)據(jù)應(yīng)用的關(guān)鍵環(huán)節(jié)。智能電網(wǎng)大數(shù)據(jù)集成涉及眾多各類型的應(yīng)用系統(tǒng),這些系統(tǒng)類型和特征復(fù)雜,在實時性要求、數(shù)據(jù)規(guī)模、數(shù)據(jù)類型等方面存在較大的差異,在智能電網(wǎng)大數(shù)據(jù)集成中需要綜合考慮各種因素,在集成技術(shù)上單一技術(shù)可能很難實現(xiàn),需要結(jié)合多種技術(shù)來實現(xiàn)智能電網(wǎng)大數(shù)據(jù)的集成。
2、數(shù)據(jù)存儲技術(shù)
在智能電網(wǎng)大數(shù)據(jù)中,絕大多數(shù)數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),同時也存在文本、圖像、音頻、視頻等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。對非結(jié)構(gòu)化數(shù)據(jù)可采用分布式文件系統(tǒng)進(jìn)行存儲,對結(jié)構(gòu)松散無模式的半結(jié)構(gòu)化數(shù)據(jù)可采用分布式數(shù)據(jù)庫,對海量的結(jié)構(gòu)化數(shù)據(jù)可采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)或分布式并行數(shù)據(jù)庫。
2.1 分布式文件系統(tǒng)
分布式文件系統(tǒng)適合存儲海量的非結(jié)構(gòu)化數(shù)據(jù),將數(shù)據(jù)存儲在物理上分散的多個存儲節(jié)點上,對這些節(jié)點的資源進(jìn)行統(tǒng)一管理和分配,并向用戶提供文件系統(tǒng)訪問接口,主要解決本地文件系統(tǒng)在文件大小、文件數(shù)量、打開文件數(shù)等方面的限制問題。
Hadoop是大數(shù)據(jù)的一個解決方案,可以實現(xiàn)大數(shù)據(jù)的存儲、分析和管理。HDFS (Hadoop Distributed File System)是一個分布式文件系統(tǒng),它是開源項目Hadoop的家族成員。HDFS將大規(guī)模數(shù)據(jù)分割為大小為64兆字節(jié)的數(shù)據(jù)塊,存儲在多個數(shù)據(jù)節(jié)點組成的分布式集群中,當(dāng)數(shù)據(jù)規(guī)模增加時,只需要在集群中增加更多的數(shù)據(jù)節(jié)點,具有很強的可擴(kuò)展性;同時每個數(shù)據(jù)塊會在不同的節(jié)點中存儲多個副本,具有高容錯性;由于數(shù)據(jù)是分布存儲的,具有高吞吐量的數(shù)據(jù)訪問能力。
2.2 分布式數(shù)據(jù)庫
大數(shù)據(jù)環(huán)境下對數(shù)據(jù)的存儲、管理、查詢和分析需要采用新的技術(shù),傳統(tǒng)的數(shù)據(jù)庫在數(shù)據(jù)存儲規(guī)模、吞吐量、以及數(shù)據(jù)類型和支撐應(yīng)用等存在瓶頸。分布式數(shù)據(jù)庫由于具有很好的擴(kuò)展性和協(xié)同性,在大規(guī)模數(shù)據(jù)存儲和管理中得到廣泛的應(yīng)用。目前主要有鍵值存儲系統(tǒng)、文檔數(shù)據(jù)庫、圖數(shù)據(jù)庫等。
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),它不同于一般的有模式的關(guān)系型數(shù)據(jù)庫,HBase存儲的數(shù)據(jù)表是無模式的,特別適合結(jié)構(gòu)復(fù)雜多樣的半結(jié)構(gòu)化數(shù)據(jù)存儲。HBase利用HDFS作為其文件存儲系統(tǒng),可利用Map-Reduce技術(shù)來處理HBase中的海量數(shù)據(jù)。
2.3 關(guān)系型數(shù)據(jù)庫系統(tǒng)
智能電網(wǎng)中很大一部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),針對一些數(shù)據(jù)和業(yè)務(wù)應(yīng)用,傳統(tǒng)關(guān)系型數(shù)據(jù)庫可能更適合,因此在大數(shù)據(jù)環(huán)境下,傳統(tǒng)關(guān)系型數(shù)據(jù)庫也具有一定的應(yīng)用。基于傳統(tǒng)數(shù)據(jù)庫如Oracle等構(gòu)建數(shù)據(jù)倉庫,開展智能電網(wǎng)業(yè)務(wù)的分析挖掘。
智能電網(wǎng)大數(shù)據(jù)結(jié)構(gòu)復(fù)雜、種類繁多,其數(shù)據(jù)存儲需要根據(jù)數(shù)據(jù)的特點選用適合的數(shù)據(jù)存儲方式。數(shù)據(jù)管理也是智能電網(wǎng)大數(shù)據(jù)的重要功能,從整體上對存儲在不同系統(tǒng)上的數(shù)據(jù)進(jìn)行統(tǒng)一管理,并提供數(shù)據(jù)索引和查詢功能。綜合以上分析,數(shù)據(jù)存儲對比見表1。
3、數(shù)據(jù)處理技術(shù)
智能電網(wǎng)大數(shù)據(jù)的應(yīng)用類型多,需要根據(jù)不同的業(yè)務(wù)需求采用不同的數(shù)據(jù)處理技術(shù)。根據(jù)大數(shù)據(jù)的數(shù)據(jù)特征和計算需求,大數(shù)據(jù)處理技術(shù)分流處理、批處理、內(nèi)存計算、圖計算等。
3.1 流處理
流處理的處理模式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流,當(dāng)新的數(shù)據(jù)到來時就立刻處理并返回所需的結(jié)果。數(shù)據(jù)流本身具有持續(xù)達(dá)到、速度快且規(guī)模巨大等特點,因此通常不會對所有的數(shù)據(jù)進(jìn)行永久化存儲,而且數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準(zhǔn)確掌握整個數(shù)據(jù)的全貌。目前廣泛應(yīng)用的流處理系統(tǒng)有Twitter Storm和Yahoo S4。
Storm是分布式實時計算系統(tǒng),主要用于流數(shù)據(jù)處理,可以簡單、高效、可靠地處理大量的數(shù)據(jù)流。它能夠處理源源不斷流進(jìn)來的信息,處理之后將結(jié)果寫入到某個存儲中去。Storm的優(yōu)點是全內(nèi)存計算,因為內(nèi)存尋址速度是硬盤的百萬倍以上,所以Storm的速度較快。Storm彌補了Hadoop批處理所不能滿足的實時要求,經(jīng)常用于實時分析、在線機(jī)器學(xué)習(xí)、持續(xù)計算、分布式遠(yuǎn)程調(diào)用和ETL等領(lǐng)域。
3.2 批處理
Google公司在2004年提出的Map-Reduce是最具代表性的批處理模式。Map-Reduce是一個使用簡易的軟件框架,用于大規(guī)模數(shù)據(jù)集的并行運算,主要用來進(jìn)行大規(guī)模離線數(shù)據(jù)分析。基于它實現(xiàn)的應(yīng)用程序能夠運行在由數(shù)千個商用機(jī)器組成的大型集群上,并以一種可靠容錯的并行處理大規(guī)模數(shù)據(jù)集。Map-Reduce的核心思想是將問題分而治之,并把計算推到數(shù)據(jù)所在的服務(wù)器,有效地避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通信開銷。
Map-Reduce的優(yōu)點主要有2個方面:
?、俨粌H能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來,如自動并行化、負(fù)荷均衡和災(zāi)備管理等,這將極大簡化開發(fā)工作;
?、谏炜s性非常好,集群能夠方便的擴(kuò)展。而Map-Reduce的不足是其不適應(yīng)實時應(yīng)用的需求,只能進(jìn)行大規(guī)模離線數(shù)據(jù)分析。
3.3 內(nèi)存計算
隨著內(nèi)存價格的不斷下降,服務(wù)器配置的內(nèi)存容量不斷增大,用內(nèi)存計算來完成大規(guī)模數(shù)據(jù)處理成為可能。與Hadoop Map-Reduce批處理相比,內(nèi)存計算能夠提供高性能的大數(shù)據(jù)分析處理能力。內(nèi)存計算是一種體系結(jié)構(gòu)上的解決方法,它可以和各種不同的計算模式相結(jié)合,包括批處理、流處理、圖計算等。比如Spark是分布式內(nèi)存計算的一個典型并行計算框架,Spark基于Map-Reduce算法實現(xiàn)的分布式計算,擁有Hadoop Map-Reduce所具有的優(yōu)點;但不同于Map-Reduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark具有更好的性能,適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的Map-Reduce的算法。
智能電網(wǎng)大數(shù)據(jù)應(yīng)用根據(jù)業(yè)務(wù)特點和對處理響應(yīng)的時間來選擇數(shù)據(jù)處理的方式,針對電網(wǎng)安全在線分析、電網(wǎng)運行監(jiān)控等業(yè)務(wù),數(shù)據(jù)實時性要求高、需要作出迅速響應(yīng),可以采用流處理內(nèi)存計算;而對于用戶用電行為分析等業(yè)務(wù),實時性和響應(yīng)時間要求低,可以采用批處理方式。綜合以上分析,數(shù)據(jù)處理方式對比見表2。
4、 數(shù)據(jù)分析技術(shù)
數(shù)據(jù)分析是智能電網(wǎng)大數(shù)據(jù)處理的核心,由于大數(shù)據(jù)的海量、復(fù)雜多樣、變化快等特性,大數(shù)據(jù)環(huán)境下的傳統(tǒng)小數(shù)據(jù)分析算法很多已不再適用,需要采用新的數(shù)據(jù)分析方法或?qū)ΜF(xiàn)有數(shù)據(jù)分析方法進(jìn)行改進(jìn)。
數(shù)據(jù)挖掘方法主要有分類、關(guān)聯(lián)分析、聚類、異常檢測、回歸分析等,其中每一類包括眾多的算法。分類包括支持向量機(jī)、決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)等技術(shù);關(guān)聯(lián)分析包括Apriori、FP-growth等算法;聚類分析分為劃分法、層次法、密度法、圖論法、模型法等,具體算法如k-means 算法、K-MEDOIDS算法、Clara算法、Clarans算法、SOM神經(jīng)網(wǎng)絡(luò)、FCM聚類算法等;異常檢測包括基于統(tǒng)計、距離、偏差、密度等方法。在智能電網(wǎng)應(yīng)用中需要對現(xiàn)有的算法進(jìn)行優(yōu)化和并行化改進(jìn),實現(xiàn)分布式處理。
機(jī)器學(xué)習(xí)是面向任務(wù)解決的基于經(jīng)驗提煉模型實現(xiàn)最優(yōu)解設(shè)計的計算機(jī)程序,通過經(jīng)驗學(xué)習(xí)規(guī)律,一般應(yīng)用在缺少理論模型指導(dǎo)但存在經(jīng)驗觀測的領(lǐng)域中。機(jī)器學(xué)習(xí)分為歸納學(xué)習(xí)、分析學(xué)習(xí)、類比學(xué)習(xí)、遺傳算法、聯(lián)接學(xué)習(xí)、增強學(xué)習(xí)等。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,2006年由Hinton等提出,其目的在于建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),目前深度學(xué)習(xí)在語音識別、圖像識別、機(jī)器翻譯等領(lǐng)域進(jìn)行了應(yīng)用,并取得了較好的效果。
智能電網(wǎng)大數(shù)據(jù)挖掘主要為結(jié)構(gòu)化數(shù)據(jù),同時也存在文本、圖像、音頻、視頻等數(shù)據(jù),在智能電網(wǎng)大數(shù)據(jù)應(yīng)用中需要針對具體的業(yè)務(wù)采用合適的數(shù)據(jù)分析方法。
評論