欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)技術(shù)及應(yīng)用介紹1

jf_78858299 ? 來源:CAICT大數(shù)據(jù)與數(shù)字經(jīng)濟(jì) ? 作者:王強(qiáng)、邱艷娟 ? 2023-03-29 14:14 ? 次閱讀

大數(shù)據(jù)技術(shù)體系發(fā)展至今,不斷充實(shí)完善,與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等其他信息通信技術(shù)融合交匯,現(xiàn)已較為成熟。圍繞數(shù)據(jù)資源的全生命周期過程** ,大數(shù)據(jù)基礎(chǔ)技術(shù)包含大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲(chǔ)及計(jì)算技術(shù)、大數(shù)據(jù)分析技術(shù)等。

大數(shù)據(jù)采集

大數(shù)據(jù)采集是大數(shù)據(jù)生命周期的第一個(gè)環(huán)節(jié)。隨著各類技術(shù)和應(yīng)用的發(fā)展,數(shù)據(jù)來源多種多樣,除了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)外,還包括眾多非結(jié)構(gòu)化數(shù)據(jù)庫(kù),以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等等。數(shù)據(jù)類型也是越發(fā)豐富,包括原有的結(jié)構(gòu)化數(shù)據(jù),更多的還是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。按照數(shù)據(jù)來源不同,大數(shù)據(jù)采集技術(shù)和方法也存在較大差異,下面我們按照數(shù)據(jù)庫(kù)數(shù)據(jù)采集、網(wǎng)絡(luò)數(shù)據(jù)采集、物聯(lián)網(wǎng)數(shù)據(jù)采集分類說明。

1.數(shù)據(jù)庫(kù)數(shù)據(jù)采集

數(shù)據(jù)庫(kù)數(shù)據(jù)采集因數(shù)據(jù)庫(kù)類型不同以及其中存儲(chǔ)數(shù)據(jù)類型是結(jié)構(gòu)化還是非結(jié)構(gòu)化而有所不同。

針對(duì)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),一般采用ETL(數(shù)據(jù)抽取、轉(zhuǎn)換和加載)工具、SQL編碼、ETL工具與SQL編碼結(jié)合三種方式。ETL工具經(jīng)過多年的發(fā)展,已經(jīng)形成了相對(duì)成熟的產(chǎn)品體系,尤其是針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),典型代表包括:Oracle的OWB、IBM的Datastage、Microsoft的DTS、Informatica等。借助ETL工具可以實(shí)現(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù)的快速采集及預(yù)處理,屏蔽復(fù)雜的編碼任務(wù),可提高速度,降低難度,但是缺乏靈活性。通過SQL編碼方式實(shí)現(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù)采集,相對(duì)使用ETL工具更加靈活,可以提高數(shù)據(jù)采集及預(yù)處理的效率,但是編碼復(fù)雜,對(duì)技術(shù)要求比較高。ETL工具與SQL編碼相結(jié)合可以綜合前兩種方法的優(yōu)點(diǎn),極大提高數(shù)據(jù)采集及預(yù)處理的速度和效率。

針對(duì)非結(jié)構(gòu)化數(shù)據(jù)庫(kù)采集以及不同類型數(shù)據(jù)庫(kù)之間的數(shù)據(jù)傳遞,目前用的比較多的是一些開源項(xiàng)目提供的ETL工具, 典型代表包括:Sqoop、Kettle和Talend等,專為大數(shù)據(jù)而設(shè)計(jì),可兼顧離線和實(shí)時(shí)數(shù)據(jù)采集,可以實(shí)現(xiàn)主流非結(jié)構(gòu)化數(shù)據(jù)庫(kù)(如HDFS、HBase及其他主流NoSQL數(shù)據(jù)庫(kù))與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)(如MySQL、Oracle、PostgreSQL等)之間的數(shù)據(jù)雙向傳遞。

相對(duì)來說,數(shù)據(jù)庫(kù)數(shù)據(jù)價(jià)值密度高,主要是通過日志文件、系統(tǒng)接口函數(shù)等方式采集,采集技術(shù)規(guī)范,可用工具較多,面向不同類型數(shù)據(jù)庫(kù)的統(tǒng)一采集技術(shù)將成為未來的重要發(fā)展趨勢(shì)。

2.網(wǎng)絡(luò)數(shù)據(jù)采集

網(wǎng)絡(luò)數(shù)據(jù)采集根據(jù)采集的數(shù)據(jù)類型又可以分為互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)采集網(wǎng)絡(luò)日志采集兩類。

互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)采集主要是利用網(wǎng)絡(luò)爬蟲技術(shù)和網(wǎng)站公開的應(yīng)用編程接口(API,Application Programming Interface)等方式, 輔以分詞系統(tǒng)、任務(wù)與索引系統(tǒng)綜合運(yùn)用實(shí)現(xiàn)從網(wǎng)站上獲取內(nèi)容數(shù)據(jù)的過程。 這種方式可將互聯(lián)網(wǎng)上半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中提取出來,并以結(jié)構(gòu)化的方式將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,支持圖片、音頻、視頻等文件或附件的采集以及自動(dòng)關(guān)聯(lián)。網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)內(nèi)容的程序或者腳本。網(wǎng)絡(luò)爬蟲技術(shù)最早主要運(yùn)用在搜索引擎中,互聯(lián)網(wǎng)搜索引擎與網(wǎng)頁(yè)持有者之間通過Robots協(xié)議約定哪些信息可以被爬取,哪些信息不該被爬取。

網(wǎng)絡(luò)日志采集目前用的比較多的是開源日志采集系統(tǒng), 典型代表包括:Flume、Scribe、Logstash、Fluentd等。Flume是Cloudera貢獻(xiàn)給Apache的一個(gè)開源日志采集系統(tǒng)項(xiàng)目,具有高可用性、高可靠性和分布式的特點(diǎn),可以實(shí)現(xiàn)海量日志的實(shí)時(shí)動(dòng)態(tài)采集、聚合和傳輸。Scribe是Facebook的開源日志采集系統(tǒng)項(xiàng)目,具有可擴(kuò)展性和高容錯(cuò)的特點(diǎn),可以實(shí)現(xiàn)日志的分布式采集和統(tǒng)一處理。Logstash部署使用相對(duì)簡(jiǎn)單,更加注重日志數(shù)據(jù)的預(yù)處理,可以為后續(xù)日志解析做好鋪墊。Fluentd的部署與Flume比較相似,擴(kuò)展性非常好,應(yīng)用也相當(dāng)廣泛。

3.物聯(lián)網(wǎng)數(shù)據(jù)采集

無論是消費(fèi)物聯(lián)網(wǎng)、產(chǎn)業(yè)物聯(lián)網(wǎng),還是智慧城市物聯(lián)網(wǎng),可能涉及RFID電子標(biāo)簽、定位裝置、紅外感應(yīng)裝置、激光雷達(dá)以及多種傳感器等裝置, 可以說物聯(lián)網(wǎng)終端設(shè)備的作用就是采集物聯(lián)網(wǎng)數(shù)據(jù),可能涉及對(duì)聲音、光照、熱度、電流、壓力、位置、生物特征等等各類數(shù)據(jù)的采集。 物聯(lián)網(wǎng)數(shù)據(jù)涉及范圍廣闊,數(shù)據(jù)相對(duì)分散,數(shù)據(jù)類型差異巨大,數(shù)據(jù)采集方法和采集手段也存在較大差異。

大數(shù)據(jù)預(yù)處理

大數(shù)據(jù)分析與挖掘需要的數(shù)據(jù)往往是通過多個(gè)渠道采集的多種類型的數(shù)據(jù),通過上述大數(shù)據(jù)采集技術(shù)采集到的數(shù)據(jù)往往存在數(shù)據(jù)冗余、數(shù)據(jù)缺值、數(shù)據(jù)沖突等數(shù)據(jù)質(zhì)量問題,需要通過大數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)更符合分析挖掘需要,以保證大數(shù)據(jù)分析的正確性和有效性,獲得高質(zhì)量的分析挖掘結(jié)果。 大數(shù)據(jù)預(yù)處理技術(shù)可以對(duì)采集到的原始數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及一致性檢查等操作,將雜亂無章的原始數(shù)據(jù)轉(zhuǎn)化為相對(duì)單一且便于處理的結(jié)構(gòu)類型,為后期的大數(shù)據(jù)分析挖掘奠定基礎(chǔ)。 大數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)規(guī)約四大部分。

1.數(shù)據(jù)清理

數(shù)據(jù)清理主要是通過檢測(cè)數(shù)據(jù)中存在冗余、錯(cuò)誤、不一致等問題,利用各種清洗技術(shù)去噪聲數(shù)據(jù),形成一致性數(shù)據(jù)集合,包括清除重復(fù)數(shù)據(jù)、填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等。 清除重復(fù)數(shù)據(jù)一般采用相似度計(jì)算等統(tǒng)計(jì)分析方法。針對(duì)缺失數(shù)據(jù)處理有兩種方式,一種是忽略不完整數(shù)據(jù)即清除缺失數(shù)據(jù),另外一種是通過統(tǒng)計(jì)學(xué)方法、分類或聚類方法填充缺失數(shù)據(jù)確保數(shù)據(jù)可用性。在實(shí)際應(yīng)用中,數(shù)據(jù)采集過程中還會(huì)因?yàn)槎喾N原因產(chǎn)生大量的噪聲數(shù)據(jù)(在合理的數(shù)據(jù)域之外),如果不加處理,會(huì)造成后續(xù)分析挖掘結(jié)果不準(zhǔn)確、不可靠。常用的消除噪聲數(shù)據(jù)的方法包括分箱、聚類、回歸等統(tǒng)計(jì)學(xué)和數(shù)學(xué)方法。

主要的數(shù)據(jù)清洗工具包括前述Sqoop、Kettle和Talend等開源ETL工具,以及Apache Camel、Apache Kafka、Apatar、Heka和Scriptella等開源ETL工具。此外Potter’s Wheel也應(yīng)用較多,此款數(shù)據(jù)清理工具交互性強(qiáng),還集成了偏差檢測(cè)和數(shù)據(jù)變換功能。

2.數(shù)據(jù)集成

數(shù)據(jù)集成是指將來源于多個(gè)數(shù)據(jù)源的異構(gòu)數(shù)據(jù)合并存放到一個(gè)一致的數(shù)據(jù)庫(kù)中。 這一過程主要涉及模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突的檢測(cè)與處理,主要工具仍是上述提到的開源ETL工具。模式匹配主要用于發(fā)現(xiàn)并映射兩個(gè)或多個(gè)異構(gòu)數(shù)據(jù)源之間的屬性對(duì)應(yīng)關(guān)系,樸素貝葉斯、stacking等機(jī)器學(xué)習(xí)算法在模式匹配中應(yīng)用較為廣泛。數(shù)據(jù)冗余可能來源于數(shù)據(jù)屬性命名的不一致,可以利用皮爾遜積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient)來衡量數(shù)據(jù)屬性命名的一致性,絕對(duì)值越大表明兩者之間相關(guān)性越強(qiáng)。數(shù)據(jù)值沖突主要表現(xiàn)為來源不同的同一實(shí)體具有不同的數(shù)據(jù)值,針對(duì)數(shù)據(jù)值沖突問題有時(shí)需要輔以人工確定規(guī)則加以處理。

3.數(shù)據(jù)變換

數(shù)據(jù)變換就是處理采集上來的數(shù)據(jù)中存在的不一致的過程,包括數(shù)據(jù)名稱、顆粒度、規(guī)則、數(shù)據(jù)格式、計(jì)量單位等的變換,也包括對(duì)新增數(shù)據(jù)字段進(jìn)行組合、分割等變換。 數(shù)據(jù)變換實(shí)際上也包含了數(shù)據(jù)清晰的相關(guān)工作,需要根據(jù)業(yè)務(wù)規(guī)則對(duì)不一致數(shù)據(jù)進(jìn)行清洗,以保證后續(xù)分析結(jié)果的準(zhǔn)確性。數(shù)據(jù)變換的主要目的在于將數(shù)據(jù)轉(zhuǎn)換后適合分析挖掘的形式,選用何種數(shù)據(jù)變換方法取決于大數(shù)據(jù)分析和挖掘算法。常用變換方法包括: 函數(shù)變換,使用數(shù)學(xué)函數(shù)對(duì)每個(gè)屬性值進(jìn)行映射;對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,按比例縮放數(shù)據(jù)的屬性值,盡量落入較小的特定區(qū)間。規(guī)范化既有助于各類分類、聚類算法的實(shí)施,又避免了對(duì)度量單位的過度依賴,同時(shí)可規(guī)避權(quán)重不平衡問題。

4.數(shù)據(jù)規(guī)約

數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,尋找最有用特征以縮減數(shù)據(jù)規(guī)模,最大限度精簡(jiǎn)數(shù)據(jù),涉及的技術(shù)和方法主要包括高維數(shù)據(jù)降維處理方法(維歸約)、實(shí)例規(guī)約、離散化技術(shù),以及不平衡學(xué)習(xí)等機(jī)器學(xué)習(xí)算法。 數(shù)據(jù)規(guī)約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,使得數(shù)據(jù)集變小,但同時(shí)仍然近于保持原數(shù)據(jù)的完整性,可以在保證分析挖掘準(zhǔn)確性的前提下提高分析挖掘的效率。目前基于海量數(shù)據(jù)的數(shù)據(jù)歸約技術(shù)已經(jīng)成為大數(shù)據(jù)預(yù)處理的重要問題之一。

大數(shù)據(jù)存儲(chǔ)計(jì)算

大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)是整個(gè)大數(shù)據(jù)系統(tǒng)的基礎(chǔ)。當(dāng)前的大數(shù)據(jù)系統(tǒng)架構(gòu)主要有兩種: 一種是MPP數(shù)據(jù)庫(kù)架構(gòu),另一種是Hadoop體系的分層架構(gòu)。 這兩種架構(gòu)各有優(yōu)勢(shì)和相應(yīng)的適用場(chǎng)景。另外,隨著光纖網(wǎng)絡(luò)通信技術(shù)的發(fā)展,大數(shù)據(jù)系統(tǒng)架構(gòu)正在向存儲(chǔ)與計(jì)算分離的架構(gòu)和云化架構(gòu)方發(fā)展。

1.MPP

MPP(Massively Parallel Processing,大規(guī)模并行處理)架構(gòu)。 MPP架構(gòu)是將多個(gè)處理節(jié)點(diǎn)通過網(wǎng)絡(luò)連接起來,每個(gè)節(jié)點(diǎn)是一臺(tái)獨(dú)立的機(jī)器,節(jié)點(diǎn)內(nèi)的處理單元獨(dú)占自己的資源, 包括內(nèi)存、硬盤、IO等,也就是每個(gè)節(jié)點(diǎn)內(nèi)的CPU不能訪問另一個(gè)節(jié)點(diǎn)的內(nèi)存,MPP架構(gòu)服務(wù)器需要通過軟件實(shí)現(xiàn)復(fù)雜的調(diào)度機(jī)制以及并行處理過程。重點(diǎn)面向行業(yè)大數(shù)據(jù),采用Shared Nothing架構(gòu),通過列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對(duì)分析類應(yīng)用的支撐,運(yùn)行環(huán)境多為低成本PC Server,具有高性能和高擴(kuò)展性的特點(diǎn),在企業(yè)分析類應(yīng)用領(lǐng)域獲得極其廣泛的應(yīng)用。

這類MPP產(chǎn)品可以有效支撐PB級(jí)別的結(jié)構(gòu)化數(shù)據(jù)分析,這是傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)無法勝任的。對(duì)于企業(yè)新一代的數(shù)據(jù)倉(cāng)庫(kù)和結(jié)構(gòu)化數(shù)據(jù)分析,目前最佳選擇是MPP數(shù)據(jù)庫(kù)。

2.Hadoop

Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。 用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。具有可靠、高效、可伸縮的特點(diǎn)。Hadoop的核心是HDFS和MapReduce。

HDFS(Hadoop分布式文件系統(tǒng)),是Hadoop體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。 它是一個(gè)高度容錯(cuò)的系統(tǒng),能檢測(cè)和應(yīng)對(duì)硬件故障,用于在低成本的通用硬件上運(yùn)行。HDFS簡(jiǎn)化了文件的一致性模型,通過流式數(shù)據(jù)訪問,提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。它提供了一次寫入多次讀取的機(jī)制,數(shù)據(jù)以塊的形式,同時(shí)分布在集群不同物理機(jī)器上。

MapReduce(分布式計(jì)算框架)是一種分布式計(jì)算模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。 它屏蔽了分布式計(jì)算框架細(xì)節(jié),將計(jì)算抽象成map和reduce兩部分,其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵-值對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。MapReduce非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。

圍繞Hadoop衍生出相關(guān)的大數(shù)據(jù)技術(shù),應(yīng)對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)較難處理的數(shù)據(jù)和場(chǎng)景,例如針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算等,充分利用Hadoop開源的優(yōu)勢(shì),伴隨相關(guān)技術(shù)的不斷進(jìn)步,其應(yīng)用場(chǎng)景也將逐步擴(kuò)大,目前最為典型的應(yīng)用場(chǎng)景就是通過擴(kuò)展和封裝Hadoop來實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。這里面有幾十種NoSQL技術(shù),也在進(jìn)一步的細(xì)分。對(duì)于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)處理、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型,Hadoop平臺(tái)更擅長(zhǎng)。 目前來說主流的選擇就是分布式架構(gòu),而在分布式架構(gòu)系統(tǒng)當(dāng)中,Hadoop可以說是經(jīng)過考驗(yàn)的比較成熟且穩(wěn)定的大數(shù)據(jù)平臺(tái)系統(tǒng), 因此很多企業(yè)大數(shù)據(jù)平臺(tái),都是基于Hadoop來搭建的。

大數(shù)據(jù)分析挖掘

大數(shù)據(jù)分析需要從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律提取新的知識(shí),是大數(shù)據(jù)價(jià)值挖掘的關(guān)鍵。數(shù)據(jù)分析主要有兩條技術(shù)路線:一是憑借先驗(yàn)知識(shí)人工建立數(shù)學(xué)模型來分析數(shù)據(jù);二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,讓機(jī)器代替人工獲得從數(shù)據(jù)中提取知識(shí)的能力。** 傳統(tǒng)數(shù)據(jù)挖掘?qū)ο蠖嗍墙Y(jié)構(gòu)化、單一對(duì)象的小數(shù)據(jù)集,挖掘更側(cè)重根據(jù)先驗(yàn)知識(shí)預(yù)先人工建立模型,然后依據(jù)既定模型進(jìn)行分析。對(duì)于非結(jié)構(gòu)化、多源異構(gòu)的大數(shù)據(jù)集的分析,往往缺乏先驗(yàn)知識(shí),很難建立顯式的數(shù)學(xué)模型,這就需要發(fā)展更加智能的數(shù)據(jù)挖掘技術(shù)。

1.傳統(tǒng)分析

數(shù)據(jù)挖掘的主要過程是從數(shù)據(jù)庫(kù)中提取數(shù)據(jù),然后通過ETL組織成適合分析挖掘算法的寬表,然后使用數(shù)據(jù)挖掘軟件進(jìn)行挖掘。 傳統(tǒng)的數(shù)據(jù)挖掘軟件一般只支持單機(jī)小規(guī)模數(shù)據(jù)處理。由于這種限制,傳統(tǒng)的數(shù)據(jù)分析挖掘通常采用抽樣方法來減少數(shù)據(jù)分析的規(guī)模。

數(shù)據(jù)挖掘的計(jì)算復(fù)雜性和靈活性遠(yuǎn)遠(yuǎn)超過前兩類要求。首先,由于數(shù)據(jù)挖掘問題的開放性,數(shù)據(jù)挖掘?qū)⑸婕按罅垦苌兞坑?jì)算,導(dǎo)致數(shù)據(jù)預(yù)處理計(jì)算的復(fù)雜性;其次,許多數(shù)據(jù)挖掘算法本身更復(fù)雜,計(jì)算量非常大,特別是大量的機(jī)器學(xué)習(xí)算法,是迭代計(jì)算,需要通過多次迭代,如K-means聚類算法、Pagerank算法等。在機(jī)器學(xué)習(xí)中,可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)等?;诶訉W(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法可細(xì)分為回歸分析(多回歸、自回歸)等。判斷分析(貝葉斯判斷、費(fèi)歇爾判斷、非參數(shù)判斷)等。聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類)等。探索性分析(主要分析、相關(guān)分析)等。

2.智能分析

與以前的眾多數(shù)據(jù)分析技術(shù)相比,人工智能技術(shù)立足于神經(jīng)網(wǎng)絡(luò),同時(shí)發(fā)展出多層神經(jīng)網(wǎng)絡(luò),從而可以進(jìn)行深度機(jī)器學(xué)習(xí)。 與以往傳統(tǒng)的算法相比,這一算法并無多余的假設(shè)前提(比如線性建模需要假設(shè)數(shù)據(jù)之間的線性關(guān)系),而是完全利用輸入的數(shù)據(jù)自行模擬和構(gòu)建相應(yīng)的模型結(jié)構(gòu)。 這一算法特點(diǎn)決定了它更為靈活的且可以根據(jù)不同的訓(xùn)練數(shù)據(jù)而擁有自優(yōu)化的能力。

大數(shù)據(jù)技術(shù)將與人工智能技術(shù)更緊密地結(jié)合,讓計(jì)算系統(tǒng)具備對(duì)數(shù)據(jù)的理解、推理、發(fā)現(xiàn)和決策能力,從而能從數(shù)據(jù)中獲取更準(zhǔn)確、更深層次的知識(shí),挖掘數(shù)據(jù)背后的價(jià)值。 隨著人工智能的發(fā)展,在海量數(shù)據(jù)中挖掘有用信息并形成知識(shí)將成為可能,機(jī)器系統(tǒng)將逐步獲得認(rèn)知能力,這推動(dòng)了認(rèn)知計(jì)算的發(fā)展。認(rèn)知計(jì)算是人工智能不斷發(fā)展的產(chǎn)物,包括自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、機(jī)器人技術(shù)等。只要人們認(rèn)識(shí)到大數(shù)據(jù)和分析學(xué)之間的緊密聯(lián)系,就會(huì)發(fā)現(xiàn)認(rèn)知計(jì)算和分析學(xué)一樣,都是大數(shù)據(jù)分析不可或缺的,認(rèn)知計(jì)算的重要性將越來越受到人們的認(rèn)可。

本文部分原載于《中國(guó)金融科技運(yùn)行報(bào)告》

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大數(shù)據(jù)技術(shù)經(jīng)驗(yàn)交流 場(chǎng)景化數(shù)據(jù)算法

    可視化數(shù)據(jù)指導(dǎo),讓每一個(gè)人看懂大數(shù)據(jù);多場(chǎng)景數(shù)據(jù)算法,讓所有數(shù)據(jù)都有跡可循;大數(shù)據(jù)技術(shù)經(jīng)驗(yàn)交流群
    發(fā)表于 06-01 17:12

    常用大數(shù)據(jù)處理技術(shù)歸類

    我們就來看看大數(shù)據(jù)1.HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集群。像Facebook,
    發(fā)表于 02-28 17:02

    常見大數(shù)據(jù)應(yīng)用有哪些?

    大數(shù)據(jù)技術(shù)為決策提供依據(jù),在***、企業(yè)、科研項(xiàng)目等決策中扮演著重要的角色,在社會(huì)治理和企業(yè)管理中起到了不容忽視的作用,很多國(guó)家,如中國(guó)、美國(guó)以及歐盟等都已將大數(shù)據(jù)列入國(guó)家發(fā)展戰(zhàn)略,微軟、谷歌、百度
    發(fā)表于 03-13 16:50

    大數(shù)據(jù)運(yùn)用的技術(shù)

    處理、集群、實(shí)時(shí)性計(jì)算等,匯集了當(dāng)前IT領(lǐng)域熱門流行的IT技術(shù)。想要學(xué)好大數(shù)據(jù)需掌握以下技術(shù)1. Java編程技術(shù)Java編程
    發(fā)表于 04-08 16:50

    大數(shù)據(jù)開發(fā)核心技術(shù)詳解

    數(shù)據(jù)的核心是云技術(shù)和BI。關(guān)于大數(shù)據(jù)和云計(jì)算的關(guān)系人們通常會(huì)有誤解,而且也會(huì)把它們混起來說,分別做一句話直白解釋就是:云計(jì)算就是硬件資源的虛擬化;大數(shù)據(jù)就是海量
    發(fā)表于 07-26 16:26

    DKHadoop大數(shù)據(jù)平臺(tái)架構(gòu)詳解

    不同,但在平臺(tái)架構(gòu)上相似,這里就以我比較熟悉的dkhadoop來介紹。 1、大快Dkhadoop,可以說是集成了整個(gè)HADOOP生態(tài)系統(tǒng)的全部組件,并對(duì)其進(jìn)行了深度優(yōu)化,重新編譯為一個(gè)完整的更高性能的大數(shù)據(jù)
    發(fā)表于 10-17 15:12

    大數(shù)據(jù)技術(shù)專家的學(xué)習(xí)歷程分享

    從小白到大數(shù)據(jù)技術(shù)專家的學(xué)習(xí)歷程,你準(zhǔn)備好了嗎
    發(fā)表于 04-22 14:37

    怎么才能編程大數(shù)據(jù)技術(shù)專家

    從小白到大數(shù)據(jù)技術(shù)專家的學(xué)習(xí)歷程
    發(fā)表于 04-24 09:06

    大數(shù)據(jù)的定義及其應(yīng)用

    目錄1大數(shù)據(jù)概述1.1. 概述1.2. 大數(shù)據(jù)定義1.3. 大數(shù)據(jù)技術(shù)發(fā)展2、大數(shù)據(jù)應(yīng)用2.1
    發(fā)表于 07-12 06:12

    什么是大數(shù)據(jù)大數(shù)據(jù)的特點(diǎn)有哪些

    大數(shù)據(jù)(big data)目錄1什么是大數(shù)據(jù)2大數(shù)據(jù)的定義3大數(shù)據(jù)的特點(diǎn)[1]4
    發(fā)表于 07-12 06:52

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)
    發(fā)表于 07-27 07:47

    大數(shù)據(jù)技術(shù)原理與應(yīng)用

    本文介紹了關(guān)于大數(shù)據(jù)的相關(guān)概念、大數(shù)據(jù)的結(jié)構(gòu)、大數(shù)據(jù)的特點(diǎn)以及大數(shù)據(jù)技術(shù)的十大原理及詳細(xì)的說明了
    發(fā)表于 12-19 14:29 ?11w次閱讀
    <b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>技術(shù)</b>原理與應(yīng)用

    大數(shù)據(jù)是什么_大數(shù)據(jù)技術(shù)和應(yīng)用的現(xiàn)狀與前景

    本文首先介紹大數(shù)據(jù)大數(shù)據(jù)技術(shù)與應(yīng)用的概念然后說明了大數(shù)據(jù)的優(yōu)勢(shì)和部分應(yīng)用前景最后分析了大數(shù)據(jù)
    發(fā)表于 07-30 15:04 ?2.4w次閱讀

    大數(shù)據(jù)技術(shù)及應(yīng)用介紹2

    大數(shù)據(jù)技術(shù)內(nèi)涵持續(xù)進(jìn)行延伸,經(jīng)過十三五的發(fā)展,已從面向海量數(shù)據(jù)的存儲(chǔ)、處理、分析等基礎(chǔ)技術(shù),延展到面向海量數(shù)據(jù)的管理治理、流通交易等新興關(guān)鍵
    的頭像 發(fā)表于 03-29 14:17 ?918次閱讀

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲(chǔ)海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具?,F(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對(duì)企業(yè)決策和業(yè)務(wù)發(fā)展起到了重
    的頭像 發(fā)表于 01-31 11:07 ?3873次閱讀