欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MapReduce和Spark概要介紹

RG15206629988 ? 來(lái)源:行業(yè)學(xué)習(xí)與研究 ? 2023-03-20 09:24 ? 次閱讀

一、MapReduce

(1)MapReduce概要介紹

MapReduce是一種編程模型,可用于大規(guī)模數(shù)據(jù)集(數(shù)據(jù)量大于1TB的數(shù)據(jù)集)的并行運(yùn)算(根據(jù)百度百科:并行運(yùn)算是一種一次可執(zhí)行多個(gè)指令的算法,可提高計(jì)算速度)。MapReduce可使程序的并行運(yùn)算更加簡(jiǎn)單。

Map(映射)是于各個(gè)節(jié)點(diǎn)對(duì)本地?cái)?shù)據(jù)的預(yù)處理操作。 Reduce(歸約)是將Map預(yù)處理操作后的數(shù)據(jù)匯總。Reduce可使編程人員不必關(guān)心如何實(shí)現(xiàn)分布式并行程序,基于Reduce,編程人員可只關(guān)注業(yè)務(wù)數(shù)據(jù)處理。

(2)處理模型

MapReduce框架負(fù)責(zé)處理并行計(jì)算中的復(fù)雜問(wèn)題,包括:分布式存儲(chǔ)、作業(yè)調(diào)度、負(fù)載均衡、容錯(cuò)處理、網(wǎng)絡(luò)通信等。

MapReduce的處理流程如圖一所示。

首先,數(shù)據(jù)在數(shù)據(jù)節(jié)點(diǎn)被劃分為數(shù)據(jù)塊(個(gè)人理解:數(shù)據(jù)塊即圖一中的split),MapReduce確定待處理的數(shù)據(jù)塊數(shù)量并確定每個(gè)記錄(個(gè)人理解:此處記錄可被理解關(guān)系數(shù)據(jù)庫(kù)的一行數(shù)據(jù))在數(shù)據(jù)塊中的位置;

然后,劃分后的數(shù)據(jù)塊作為Map的輸入;

再然后,Map的輸出數(shù)據(jù)需要經(jīng)過(guò)sort(個(gè)人理解:分類(lèi))、copy(個(gè)人理解:復(fù)制)、merge(個(gè)人理解:合并)操作成為Reduce的輸入,Reduce的輸入數(shù)據(jù)間沒(méi)有交集,系統(tǒng)中處于Reduce運(yùn)行的節(jié)點(diǎn)的數(shù)量等于merge操作后的數(shù)據(jù)數(shù)量;

最后,輸出Reduce運(yùn)行后的數(shù)據(jù)。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

圖一,圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

二、Spark

(1)Spark概要介紹

Spark是針對(duì)大規(guī)模數(shù)據(jù)處理的快速通用引擎,其功能是類(lèi)似MapReduce的計(jì)算引擎。

(2)Spark的特點(diǎn)

1)計(jì)算速度快。Spark計(jì)算速度是Hadoop計(jì)算速度的一百倍。

2)可用性高。Spark可使用Java、Python、R、SQL等編程語(yǔ)言。

3)通用性。Spark由一系列解決處理復(fù)雜問(wèn)題的組件構(gòu)成,可處理多種類(lèi)型有關(guān)數(shù)據(jù)庫(kù)的復(fù)雜問(wèn)題。

4)可運(yùn)行于多種環(huán)境中,運(yùn)行環(huán)境包括Hadoop等。

圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

(3)Spark的體系架構(gòu)

1)Cluster Manager:Cluster Manager是主節(jié)點(diǎn),控制整個(gè)集群,監(jiān)控 Worker Node。

2)Worker Node:Worker Node是從節(jié)點(diǎn),負(fù)責(zé)控制計(jì)算節(jié)點(diǎn),啟動(dòng)Executor 或者Driver

3)Driver:運(yùn)行Application(個(gè)人理解:此處Application指某一應(yīng)用)的main()函數(shù)

4)Executor:為Application運(yùn)行Worker Node上的一個(gè)進(jìn)程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

圖片來(lái)源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

(4)RDD

RDD(Resilient Distributed Dataset)被稱(chēng)為彈性分布式數(shù)據(jù)集,利用SparkContext實(shí)例(根據(jù)網(wǎng)絡(luò)資料理解:每個(gè)SparkContext實(shí)例是Spark的一個(gè)應(yīng)用)創(chuàng)建的對(duì)象均為RDD。RDD是不可變、可分區(qū)、其內(nèi)部元素可并行計(jì)算的集合,數(shù)據(jù)可在RDD中運(yùn)行RDD的自有函數(shù)。

RDD的函數(shù)被稱(chēng)為RDD算子,RDD算子分為T(mén)ransformation和Action兩種類(lèi)型。Transformation具有類(lèi)似于MapReduce的功能,Action的功能包括:觸發(fā)RDD計(jì)算、統(tǒng)計(jì)RDD元素個(gè)數(shù)等。

RDD的特點(diǎn)包括:自動(dòng)容錯(cuò)、位置感知性調(diào)度、可伸縮性(個(gè)人理解:數(shù)據(jù)量的多少對(duì)RDD的運(yùn)行影響較?。?、可在已有RDD的基礎(chǔ)上創(chuàng)建新的RDD、延遲執(zhí)行(延遲執(zhí)行即Transformation只有在Action被觸發(fā)后才執(zhí)行)。

另外,RDD允許用戶(hù)在執(zhí)行多個(gè)查詢(xún)時(shí)可將工作集緩存在內(nèi)存中,后續(xù)的查詢(xún)可重用工作集,可提升查詢(xún)速度。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    775

    瀏覽量

    44268
  • 編程語(yǔ)言
    +關(guān)注

    關(guān)注

    10

    文章

    1951

    瀏覽量

    35009
  • RDD
    RDD
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    7997
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    105

    瀏覽量

    19986
  • MapReduce
    +關(guān)注

    關(guān)注

    0

    文章

    45

    瀏覽量

    6314

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(22)——MapReduce和Spark

文章出處:【微信號(hào):行業(yè)學(xué)習(xí)與研究,微信公眾號(hào):行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    SHA105概要數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《SHA105概要數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 01-21 14:33 ?0次下載
    SHA105<b class='flag-5'>概要</b>數(shù)據(jù)手冊(cè)

    SHA106概要數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《SHA106概要數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 01-21 14:31 ?0次下載
    SHA106<b class='flag-5'>概要</b>數(shù)據(jù)手冊(cè)

    ECC206概要數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《ECC206概要數(shù)據(jù)手冊(cè).pdf》資料免費(fèi)下載
    發(fā)表于 01-21 14:05 ?0次下載
    ECC206<b class='flag-5'>概要</b>數(shù)據(jù)手冊(cè)

    IEEE2030.5概要

    IEEE 2030.5IEEE 2030.5(Smart Energy Profile 2.0,SEP2)是一種智慧能源管理通信協(xié)議,最早由ZigBee聯(lián)盟開(kāi)發(fā)。2013年IEEE在SEP2基礎(chǔ)上開(kāi)發(fā)了IEEE2030.5。IEEE2030.5是一個(gè)應(yīng)用層協(xié)議,支持TCP/IP。IEEE2030.5支持多種物理層接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 從Phase 2開(kāi)始規(guī)定:電網(wǎng)運(yùn)營(yíng)商和分布式能源之間互操作需要通信支持,以保障公用事業(yè)單位能夠遠(yuǎn)程管理和控制分布式能源。加州 Rule 21規(guī)定采用IEEE2030.5協(xié)議進(jìn)行通信。IEEE2030.5 CSIP為采用IEEE230.5的詳細(xì)實(shí)施指南。SunSpec Alliance負(fù)責(zé)CA Rule 21 Certification Program,即IEEE2030.5 CSIP實(shí)施指南的認(rèn)證。
    的頭像 發(fā)表于 11-21 14:44 ?453次閱讀
    IEEE2030.5<b class='flag-5'>概要</b>

    spark為什么比mapreduce快?

    spark為什么比mapreduce快? 首先澄清幾個(gè)誤區(qū): 1:兩者都是基于內(nèi)存計(jì)算的,任何計(jì)算框架都肯定是基于內(nèi)存的,所以網(wǎng)上說(shuō)的spark是基于內(nèi)存計(jì)算所以快,顯然是錯(cuò)誤的 2;DAG計(jì)算模型
    的頭像 發(fā)表于 09-06 09:45 ?325次閱讀

    PGA309正常只校準(zhǔn)一個(gè)溫度點(diǎn)大概要多久時(shí)間呢?

    目前我采用的PGA309USB-EVM單個(gè)校準(zhǔn)壓力傳感器,我只校準(zhǔn)一個(gè)常溫25攝氏度的溫度,我發(fā)現(xiàn)校準(zhǔn)的時(shí)候全部過(guò)程都要跑一遍,這樣時(shí)間需要花費(fèi)幾分鐘(不需要等溫度達(dá)到25 的時(shí)間),請(qǐng)問(wèn)正常只校準(zhǔn)一個(gè)溫度點(diǎn)大概要多久時(shí)間呢?盼回復(fù)。感謝!
    發(fā)表于 08-16 07:13

    廣汽能源與泰國(guó)Spark EV簽訂合作框架協(xié)議

    近日,廣汽能源科技(泰國(guó))有限公司與Spark EV Co.Ltd.宣布達(dá)成重要合作,雙方共同簽署了一項(xiàng)合作框架協(xié)議,旨在泰國(guó)境內(nèi)全面布局并運(yùn)營(yíng)超級(jí)充電場(chǎng)站,為新能源汽車(chē)的普及與發(fā)展注入強(qiáng)勁動(dòng)力。
    的頭像 發(fā)表于 07-19 17:08 ?913次閱讀

    spark運(yùn)行的基本流程

    前言: 由于最近對(duì)spark的運(yùn)行流程非常感興趣,所以閱讀了《Spark大數(shù)據(jù)處理:技術(shù)、應(yīng)用與性能優(yōu)化》一書(shū)。通過(guò)這本書(shū)的學(xué)習(xí),了解了spark的核心技術(shù)、實(shí)際應(yīng)用場(chǎng)景以及性能優(yōu)化的方法。本文旨在
    的頭像 發(fā)表于 07-02 10:31 ?489次閱讀
    <b class='flag-5'>spark</b>運(yùn)行的基本流程

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡(jiǎn)稱(chēng)Spark)是一個(gè)開(kāi)源的分布式計(jì)算框架,由UC Berkeley AMP Lab開(kāi)發(fā),可用于批處理、交互式查詢(xún)(Spark SQL)、實(shí)
    的頭像 發(fā)表于 06-28 17:12 ?769次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    關(guān)于Spark的從0實(shí)現(xiàn)30s內(nèi)實(shí)時(shí)監(jiān)控指標(biāo)計(jì)算

    前言 說(shuō)起Spark,大家就會(huì)自然而然地想到Flink,而且會(huì)不自覺(jué)地將這兩種主流的大數(shù)據(jù)實(shí)時(shí)處理技術(shù)進(jìn)行比較。然后最終得出結(jié)論:Flink實(shí)時(shí)性大于Spark。 的確,F(xiàn)link中的數(shù)據(jù)計(jì)算
    的頭像 發(fā)表于 06-14 15:52 ?519次閱讀

    Spark+Hive”在DPU環(huán)境下的性能測(cè)評(píng) | OLAP數(shù)據(jù)庫(kù)引擎選型白皮書(shū)(24版)DPU部分節(jié)選

    在奇點(diǎn)云2024年版《OLAP數(shù)據(jù)庫(kù)引擎選型白皮書(shū)》中,中科馭數(shù)聯(lián)合奇點(diǎn)云針對(duì)Spark+Hive這類(lèi)大數(shù)據(jù)計(jì)算場(chǎng)景下的主力引擎,測(cè)評(píng)DPU環(huán)境下對(duì)比CPU環(huán)境下的性能提升效果。特此節(jié)選該章節(jié)內(nèi)容,與大家共享。
    的頭像 發(fā)表于 05-30 16:09 ?592次閱讀
    “<b class='flag-5'>Spark</b>+Hive”在DPU環(huán)境下的性能測(cè)評(píng) | OLAP數(shù)據(jù)庫(kù)引擎選型白皮書(shū)(24版)DPU部分節(jié)選

    如何利用DPU加速Spark大數(shù)據(jù)處理? | 總結(jié)篇

    一、總體介紹 1.1 背景介紹 近年來(lái),隨著存儲(chǔ)硬件的革新與網(wǎng)絡(luò)技術(shù)的突飛猛進(jìn),如NVMe SSD和超高速網(wǎng)絡(luò)接口的普及應(yīng)用,I/O性能瓶頸已得到顯著改善。然而,在2020年及以后的技術(shù)背景下,盡管
    的頭像 發(fā)表于 04-02 13:45 ?1126次閱讀
    如何利用DPU加速<b class='flag-5'>Spark</b>大數(shù)據(jù)處理? | 總結(jié)篇

    Spark基于DPU Snappy壓縮算法的異構(gòu)加速方案

    一、總體介紹 1.1 背景介紹 Apache Spark是專(zhuān)為大規(guī)模數(shù)據(jù)計(jì)算而設(shè)計(jì)的快速通用的計(jì)算引擎,是一種與 Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些不同之處使
    的頭像 發(fā)表于 03-26 17:06 ?871次閱讀
    <b class='flag-5'>Spark</b>基于DPU Snappy壓縮算法的異構(gòu)加速方案

    RDMA技術(shù)在Apache Spark中的應(yīng)用

    背景介紹 在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,Apache?Spark已經(jīng)成為了處理大規(guī)模數(shù)據(jù)集的首選框架。作為一個(gè)開(kāi)源的分布式計(jì)算系統(tǒng),Spark因其高效的大數(shù)據(jù)處理能力而在各行各業(yè)中廣受歡迎。無(wú)論是金融服務(wù)
    的頭像 發(fā)表于 03-25 18:13 ?1608次閱讀
    RDMA技術(shù)在Apache <b class='flag-5'>Spark</b>中的應(yīng)用

    基于DPU和HADOS-RACE加速Spark 3.x

    背景簡(jiǎn)介 Apache Spark(下文簡(jiǎn)稱(chēng)Spark)是一種開(kāi)源集群計(jì)算引擎,支持批/流計(jì)算、SQL分析、機(jī)器學(xué)習(xí)、圖計(jì)算等計(jì)算范式,以其強(qiáng)大的容錯(cuò)能力、可擴(kuò)展性、函數(shù)式API、多語(yǔ)言支持(SQL
    的頭像 發(fā)表于 03-25 18:12 ?1429次閱讀
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x