大數(shù)據(jù)時代,以Oracle為代表的數(shù)據(jù)庫中間件已經(jīng)逐漸無法適應(yīng)企業(yè)數(shù)字化轉(zhuǎn)型的需求,Spark將會是比較好的大數(shù)據(jù)批處理引擎。而隨著Kubernetes越來越火,很多數(shù)字化企業(yè)已經(jīng)把在線業(yè)務(wù)搬到了Kubernetes之上,并希望在此之上建設(shè)一套統(tǒng)一的、完整的大數(shù)據(jù)基礎(chǔ)架構(gòu)。那么Spark on Kubernetes面臨哪些挑戰(zhàn)?又該如何解決?
云原生背景介紹與思考
“數(shù)據(jù)湖”正在被越來越多人提起,盡管定義并不統(tǒng)一,但企業(yè)已紛紛投入實(shí)踐,無論是在云上自建還是使用云產(chǎn)品。
阿里云大數(shù)據(jù)團(tuán)隊認(rèn)為:數(shù)據(jù)湖是大數(shù)據(jù)和AI時代融合存儲和計算的全新體系。為什么這么說?在數(shù)據(jù)量爆發(fā)式增長的今天,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點(diǎn),數(shù)據(jù)需要更深度的價值挖掘,因此確保數(shù)據(jù)中保留的原始信息不丟失,應(yīng)對未來不斷變化的需求。當(dāng)前以O(shè)racle為代表的數(shù)據(jù)庫中間件已經(jīng)逐漸無法適應(yīng)這樣的需求,于是業(yè)界也不斷地產(chǎn)生新的計算引擎,以便應(yīng)對大數(shù)據(jù)時代的到來。企業(yè)開始紛紛自建開源Hadoop數(shù)據(jù)湖架構(gòu),原始數(shù)據(jù)統(tǒng)一存放在對象存儲OSS或HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲和計算一體。
圖1是基于ECS底座的EMR架構(gòu),這是一套非常完整的開源大數(shù)據(jù)生態(tài),也是近10年來每個數(shù)字化企業(yè)必不可少的開源大數(shù)據(jù)解決方案。
圖1 基于ECS的開源大數(shù)據(jù)解決方案
主要分為以下幾層:
ECS物理資源層,也就是Iaas層。
數(shù)據(jù)接入層,例如實(shí)時的Kafka,離線的Sqoop。
存儲層,包括HDFS和OSS,以及EMR自研的緩存加速JindoFS。
計算引擎層,包括熟知的Spark,Presto、Flink等這些計算引擎。
數(shù)據(jù)應(yīng)用層,如阿里自研的Dataworks、PAI以及開源的Zeppelin,Jupyter。
每一層都有比較多的開源組件與之對應(yīng),這些層級組成了最經(jīng)典的大數(shù)據(jù)解決方案,也就是EMR的架構(gòu)。我們對此有以下思考:
是否能夠做到更好用的彈性,也就是客戶可以完全按照自己業(yè)務(wù)實(shí)際的峰值和低谷進(jìn)行彈性擴(kuò)容和縮容,保證速度足夠快,資源足夠充足。
不考慮現(xiàn)有狀況,看未來幾年的發(fā)展方向,是否還需要支持所有的計算引擎和存儲引擎。這個問題也非常實(shí)際,一方面是客戶是否有能力維護(hù)這么多的引擎,另一方面是某些場景下是否用一種通用的引擎即可解決所有問題。舉個例子來說,Hive和Mapreduce,誠然現(xiàn)有的一些客戶還在用Hive on Mapreduce,而且規(guī)模也確實(shí)不小,但是未來Spark會是一個很好的替代品。
存儲與計算分離架構(gòu),這是公認(rèn)的未來大方向,存算分離提供了獨(dú)立的擴(kuò)展性,客戶可以做到數(shù)據(jù)入湖,計算引擎按需擴(kuò)容,這樣的解耦方式會得到更高的性價比。
基于以上這些思考,我們考慮一下云原生的這個概念,云原生比較有前景的實(shí)現(xiàn)就是Kubernetes,所以有時候我們一提到云原生,幾乎就等價于是Kubernetes。隨著Kubernetes的概念越來越火,客戶也對該技術(shù)充滿了興趣,很多客戶已經(jīng)把在線的業(yè)務(wù)搬到了Kubernetes之上,并且希望在這種類似操作系統(tǒng)上,建設(shè)一套統(tǒng)一的、完整的大數(shù)據(jù)基礎(chǔ)架構(gòu)。所以我們總結(jié)為以下幾個特征:
希望能夠基于Kubernetes來包容在線服務(wù)、大數(shù)據(jù)、AI等基礎(chǔ)架構(gòu),做到運(yùn)維體系統(tǒng)一化。
存算分離架構(gòu),這個是大數(shù)據(jù)引擎可以在Kubernetes部署的前提,未來的趨勢也都在向這個方向走。
通過Kubernetes的天生隔離特性,更好的實(shí)現(xiàn)離線與在線混部,達(dá)到降本增效目的。
Kubernetes生態(tài)提供了非常豐富的工具,我們可以省去很多時間搞基礎(chǔ)運(yùn)維工作,從而可以專心來做業(yè)務(wù)。
EMR計算引擎 on ACK
圖2是EMR計算引擎 on ACK的架構(gòu)。ACK就是阿里云版本的Kubernetes,在兼容社區(qū)版本的API同時,做了大量的優(yōu)化。在本文中不會區(qū)分ACK和Kubernetes這兩個詞,可以認(rèn)為代表同一個概念。
圖2 計算引擎Kubernetes化
基于最開始的討論,我們認(rèn)為比較有希望的大數(shù)據(jù)批處理引擎是Spark和Presto,當(dāng)然我們也會隨著版本迭代逐步的加入一些比較有前景的引擎。
EMR計算引擎提供以Kubernetes為底座的產(chǎn)品形態(tài),本質(zhì)上來說是基于CRD+Operator的組合,這也是云原生最基本的哲學(xué)。我們針對組件進(jìn)行分類,分為service組件和批處理組件,比如Hive Metastore就是service組件,Spark就是批處理組件。
圖中綠色部分是各種Operator,技術(shù)層面在開源的基礎(chǔ)上進(jìn)行了多方面的改進(jìn),產(chǎn)品層面針對ACK底座進(jìn)行了各方面的兼容,能夠保證用戶在集群中很方便的進(jìn)行管控操作。右邊的部分,包括Log、監(jiān)控、數(shù)據(jù)開發(fā)、ECM管控等組件,這里主要是集成了阿里云的一些基礎(chǔ)設(shè)施。我們再來看下邊的部分:
引入了JindoFS作為OSS緩存加速層,做計算與存儲分離的架構(gòu)。
打通了現(xiàn)有EMR集群的HDFS,方便客戶利用已有的EMR集群數(shù)據(jù)。
引入Shuffle Service來做Shuffle 數(shù)據(jù)的解耦,這也是EMR容器化區(qū)別于開源方案的比較大的亮點(diǎn),之后會重點(diǎn)講到。
這里明確一下,由于本身Presto是無狀態(tài)的MPP架構(gòu),在ACK中部署是相對容易的事情,本文主要討論Spark on ACK的解決方案。
Spark on Kubernetes的挑戰(zhàn)
整體看,Spark on Kubernetes面臨以下問題:
我個人認(rèn)為最重要的,就是Shuffle的流程,按照目前的Shuffle方式,我們是沒辦法打開動態(tài)資源特性的。而且還需要掛載云盤,云盤面臨著Shuffle數(shù)據(jù)量的問題,掛的比較大會很浪費(fèi),掛的比較小又支持不了Shuffle Heavy的任務(wù)。
調(diào)度和隊列管理問題,調(diào)度性能的衡量指標(biāo)是,要確保當(dāng)大量作業(yè)同時啟動時,不應(yīng)該有性能瓶頸。作業(yè)隊列這一概念對于大數(shù)據(jù)領(lǐng)域的同學(xué)應(yīng)該非常熟悉,他提供了一種管理資源的視圖,有助于我們在隊列之間控制資源和共享資源。
讀寫數(shù)據(jù)湖相比較HDFS,在大量的Rename,List等場景下性能會有所下降,同時OSS帶寬也是一個不可避免的問題。
針對以上問題,我們分別來看下解決方案。
Spark on Kubernetes的解決方案
Remote Shuffle Service架構(gòu)
Spark Shuffle的問題,我們設(shè)計了Shuffle 讀寫分離架構(gòu),稱為Remote Shuffle Service。首先探討一下為什么Kubernetes不希望掛盤呢,我們看一下可能的選項(xiàng):
如果用是Docker的文件系統(tǒng),問題是顯而易見的,因?yàn)樾阅苈徽f,容量也是極其有限,對于Shuffle過程是十分不友好的。
如果用Hostpath,熟悉Spark的同學(xué)應(yīng)該知道,是不能夠啟動動態(tài)資源特性的,這個對于Spark資源是一個很大的浪費(fèi),而且如果考慮到后續(xù)遷移到Serverless K8s,那么從架構(gòu)上本身就是不支持Hostpath的。
如果是Executor掛云盤的PV,同樣道理,也是不支持動態(tài)資源的,而且需要提前知道每個Executor的Shuffle數(shù)據(jù)量,掛的大比較浪費(fèi)空間,掛的小Shuffle數(shù)據(jù)又不一定能夠容納下。
所以Remote Shuffle架構(gòu)針對這一痛點(diǎn)、對現(xiàn)有的Shuffle機(jī)制有比較大的優(yōu)化,圖3中間有非常多的控制流,我們不做具體的討論。主要來看數(shù)據(jù)流,對于Executor所有的Mapper和Reducer,也就是圖中的藍(lán)色部分是跑在了K8s容器里,中間的架構(gòu)是Remote Shuffle Service,藍(lán)色部分的Mapper將Shuffle數(shù)據(jù)遠(yuǎn)程寫入service里邊,消除了Executor的Task對于本地磁盤的依賴。Shuffle Service會對來自不同Mapper的同一partition的數(shù)據(jù)進(jìn)行merge操作,然后寫入到分布式文件系統(tǒng)中。等到Reduce階段,Reducer通過讀取順序的文件,可以很好地提升性能。這套系統(tǒng)最主要的實(shí)現(xiàn)難點(diǎn)就是控制流的設(shè)計,還有各方面的容錯,數(shù)據(jù)去重,元數(shù)據(jù)管理等等工作。
圖3 Remote Shuffle Service架構(gòu)圖
簡而言之,我們總結(jié)為以下3點(diǎn):
Shuffle數(shù)據(jù)通過網(wǎng)絡(luò)寫出,中間數(shù)據(jù)計算與存儲分離架構(gòu)
DFS 2副本,消除Fetch Failed引起的重算,Shuffle Heavy作業(yè)更加穩(wěn)定
Reduce階段順序讀磁盤,避免現(xiàn)有版本的隨機(jī)IO,大幅提升性能
Remote Shuffle Service性能
我們在這里展示一下關(guān)于性能的成績,圖4和圖5是Terasort Benchmark。之所以選取Terasrot這種workload來測試,是因?yàn)樗挥?個stage,而且是一個大Shuffle的任務(wù),大家可以非常有體感的看出關(guān)于Shuffle性能的變化。
圖4中,藍(lán)色部分是Shuffle Service版本的運(yùn)行時間,橙色部分是原版Shuffle的運(yùn)行時間。我們測試了2T,4T,10T的數(shù)據(jù),可以觀察到隨著數(shù)據(jù)量越來越大,Shuffle Service優(yōu)勢就越來越明顯。圖5紅框部分說明了作業(yè)的性能提升主要體現(xiàn)在Reduce階段,可見10T的Reduce Read從1.6小時下降到了1小時。原因前邊已經(jīng)解釋的很清楚了,熟悉Spark shuffle機(jī)制的同學(xué)知道,原版的sort shuffle是M*N次的隨機(jī)IO,在這個例子中,M是12000,N是8000,而Remote Shuffle就只有N次順序IO,這個例子中是8000次,所以這是提升性能的根本所在。
圖4 Remote Shuffle Service性能
圖5 Terasort作業(yè)的stage圖
其他方面的重點(diǎn)優(yōu)化
這里講一下EMR在其他方面做的優(yōu)化。
調(diào)度性能優(yōu)化,我們解決了開源的Spark Operator的一些不足,對于Executor pod的很多配置Spark Operator把他做到了Webhook里邊,這個對調(diào)度來說是十分不友好的,因?yàn)橄喈?dāng)于在API Server上繞了一圈,實(shí)際測試下來性能損耗很大。我們把這些工作直接做到Spark內(nèi)核里邊,這樣避免了這方面的調(diào)度性能瓶頸。然后從調(diào)度器層面上,我們保留了兩種選擇給客戶,包括ACK提供的Scheduler FrameworkV2實(shí)現(xiàn)方式和Yunicorn實(shí)現(xiàn)方式。
讀寫OSS性能優(yōu)化,我們這里引入了JindoFS作為緩存,解決帶寬問題,同時EMR為OSS場景提供了Jindo Job Committer,專門優(yōu)化了job commit的過程,大大減少了Rename和List等耗時操作。
針對Spark本身,EMR積累了多年的技術(shù)優(yōu)勢,也在TPCDS官方測試中,取得了很好的成績,包括Spark性能、穩(wěn)定性,還有Delta lake的優(yōu)化也都有集成進(jìn)來。
我們提供了一站式的管控,包括Notebook作業(yè)開發(fā),監(jiān)控日志報警等服務(wù),還繼承了NameSpace的ResourceQuota等等。
總體來說,EMR版本的Spark on ACK,無論在架構(gòu)上、性能上、穩(wěn)定性上、易用性方面都有著很大的提升。
Spark云原生后續(xù)展望
從我的視角來觀察,Spark云原生容器化后續(xù)的方向,一方面是達(dá)到運(yùn)維一體化,另一方面主要希望做到更好的性價比。我們總結(jié)為以下幾點(diǎn):
可以將Kubernetes計算資源分為固定集群和Serverless集群的混合架構(gòu),固定集群主要是一些包年包月、資源使用率很高的集群,Serverless是做到按需彈性。
可以通過調(diào)度算法,靈活的把一些SLA不高的任務(wù)調(diào)度到Spot實(shí)例上,就是支持搶占式ECI容器,這樣可以進(jìn)一步降低成本。
由于提供了Remote Shuffle Service集群,充分讓Spark在架構(gòu)上解耦本地盤,只要Executor空閑就可以銷毀。配合上OSS提供的存算分離,必定是后續(xù)的主流方向。
對于調(diào)度能力,這方面需要特別的增強(qiáng),做到能夠讓客戶感受不到性能瓶頸,短時間內(nèi)調(diào)度起來大量的作業(yè)。同時對于作業(yè)隊列管理方面,希望做到更強(qiáng)的資源控制和資源共享。
圖6 Spark on Kubernetes混合架構(gòu)
隨著阿里云2.0時代的到來,云原生已經(jīng)逐漸成為新的主角,越來越多的企業(yè)將會享受到云原生所帶來的紅利。數(shù)據(jù)湖計算引擎云原生容器化,能夠極大地方便客戶上云,提升性價比。但是整體上來講:大數(shù)據(jù)云原生的落地是十分具有挑戰(zhàn)性的,阿里云EMR團(tuán)隊會和社區(qū)同伴、合作伙伴一起打造技術(shù)和生態(tài),共同打造“存算分離,按需擴(kuò)展”、“極致彈性,隨用隨得”、“運(yùn)維閉環(huán),高性價比”的愿景。
編輯:hfy
-
阿里云
+關(guān)注
關(guān)注
3文章
978瀏覽量
43257 -
SPARK
+關(guān)注
關(guān)注
1文章
105瀏覽量
19992 -
云原生
+關(guān)注
關(guān)注
0文章
252瀏覽量
7995
發(fā)布評論請先 登錄
相關(guān)推薦
Kubernetes:構(gòu)建高效的容器化應(yīng)用平臺
使用 Flexus 云服務(wù)器 X 實(shí)例部署 Kubernetes 圖形化管理平臺
![使用 Flexus 云服務(wù)器 X 實(shí)例部署 <b class='flag-5'>Kubernetes</b> 圖形化管理平臺](https://file1.elecfans.com//web3/M00/04/9F/wKgZPGd2io-AJt67AAFCdu5cZ2o190.png)
Kubernetes的CNI網(wǎng)絡(luò)插件之flannel
艾體寶與Kubernetes原生數(shù)據(jù)平臺AppsCode達(dá)成合作
Kubernetes集群搭建容器云需要幾臺服務(wù)器?
spark為什么比mapreduce快?
基于DPU與SmartNIC的K8s Service解決方案
![基于DPU與SmartNIC的K8s Service解決<b class='flag-5'>方案</b>](https://file1.elecfans.com/web2/M00/05/DB/wKgaombVfKSADTRAAAEh7sOTYlY884.png)
如何使用Kubeadm命令在PetaExpress Ubuntu系統(tǒng)上安裝Kubernetes集群
![如何使用Kubeadm命令在PetaExpress Ubuntu系統(tǒng)上安裝<b class='flag-5'>Kubernetes</b>集群](https://file1.elecfans.com/web2/M00/FD/6F/wKgaomaUsqyADbxmAAETUApXpYI091.png)
spark運(yùn)行的基本流程
![<b class='flag-5'>spark</b>運(yùn)行的基本流程](https://file1.elecfans.com//web2/M00/F7/E3/wKgaomaDZoeAbeQsAAGiJ2LbwGw750.png)
Spark基于DPU的Native引擎算子卸載方案
![<b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載<b class='flag-5'>方案</b>](https://file1.elecfans.com/web2/M00/F5/20/wKgZomZ-fKiAAsUcAAFEwmESLqQ755.png)
關(guān)于Spark的從0實(shí)現(xiàn)30s內(nèi)實(shí)時監(jiān)控指標(biāo)計算
Spark基于DPU Snappy壓縮算法的異構(gòu)加速方案
![<b class='flag-5'>Spark</b>基于DPU Snappy壓縮算法的異構(gòu)加速<b class='flag-5'>方案</b>](https://file1.elecfans.com/web2/M00/C5/B1/wKgZomYBSXOAHfkiAAL8llhFqoo690.png)
RDMA技術(shù)在Apache Spark中的應(yīng)用
![RDMA技術(shù)在Apache <b class='flag-5'>Spark</b>中的應(yīng)用](https://file1.elecfans.com/web2/M00/C3/6A/wKgaomXlNumAD4qkAAKXD6F2opA173.png)
基于DPU和HADOS-RACE加速Spark 3.x
![基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x](https://file1.elecfans.com//web2/M00/C1/12/wKgZomXcZN2AYm7rAAIEZvTT08A684.png)
評論