最新版本的Cloudera Data Platform采用通過NVIDIA技術(shù)加速的Spark 3.0,能夠幫助操作團(tuán)隊(duì)實(shí)現(xiàn)8倍性能提升,從而成功運(yùn)行一項(xiàng)原本不可能完成的工作。
Deborah Tylor憑借堅(jiān)持不懈的精神以及正確的的工具,完成了一項(xiàng)原本不可能完成的任務(wù)。
作為一名數(shù)據(jù)科學(xué)家,Tylor的任務(wù)是整理美國國家稅務(wù)局超過300 TB的數(shù)據(jù)庫,尋找可能有助于識別身份盜竊和其他欺詐行為的規(guī)律。但即使她讓一大批CPU服務(wù)器工作了一整夜,也無法完成這項(xiàng)數(shù)據(jù)整理工作。
她在早上回來時發(fā)現(xiàn)這項(xiàng)工作失敗了,于是她再次嘗試,但再次失敗了。
就在這時候,Cloudera的解決方案工程師Nasheb Ismaily敲開了Tylor的老板——Rahul Tikekar的門。Rahul Tikekar是美國國稅局?jǐn)?shù)據(jù)分析師技術(shù)支持團(tuán)隊(duì)的經(jīng)理。Ismaily詢問Tikekar的團(tuán)隊(duì)是否需要使用自帶GPU加速Apache Spark 3.0軟件的Cloudera Data Platform(CDP)。
Tikekar表示:“我抓住了這次機(jī)會。雖然我們的獨(dú)立服務(wù)器配備了NVIDIA顯卡,但我們卻無法在分布式集群上使用Spark來運(yùn)行它們,所以這對我們來說是一個絕佳的機(jī)會?!?/p>
突破障礙
對軟件進(jìn)行快速測試后,在沒有修改任何代碼的情況下,Tylor在這項(xiàng)工作中的許多步驟就立即加快了5倍,但有幾個部分仍然滯后。
Ismaily召集了NVIDIA數(shù)據(jù)科學(xué)家團(tuán)隊(duì)來檢查代碼的核心內(nèi)容。他們很快就發(fā)現(xiàn)一些數(shù)據(jù)結(jié)構(gòu)非常糟糕的任務(wù)仍在CPU上運(yùn)行。于是他們編寫了代碼來處理這些工作并將其插入Spark的RAPIDS軟件接口中。RAPIDS是一個在GPU上運(yùn)行數(shù)據(jù)分析的開放資源庫。
Tylor又進(jìn)行了一次測試,結(jié)果發(fā)現(xiàn)一切都能在分布式Spark集群的GPU上順利運(yùn)行,而且速度提升非常明顯。她在一個四節(jié)點(diǎn)的集群上運(yùn)行了整個程序。
美國國稅局研究和應(yīng)用分析與統(tǒng)計部門技術(shù)主管Joe Ansaldi表示:“通過Cloudera和NVIDIA的這一技術(shù)整合,我們能夠利用以數(shù)據(jù)為依據(jù)的洞察來推動關(guān)鍵任務(wù)用例?!?/p>
“我們目前正在應(yīng)用這一技術(shù)整合,這使得我們的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)工作流程以一半的成本獲得了超過10倍的速度提升?!?Ansaldi補(bǔ)充道。
Spark 3.0 + GPU = 新視野
美國國稅局團(tuán)隊(duì)正在探索這項(xiàng)技術(shù)應(yīng)用可能帶來的一些回報。
憑借由GPU驅(qū)動的服務(wù)器所組成的Spark集群,該團(tuán)隊(duì)能夠加速目前所有的工作并運(yùn)行其他以前被認(rèn)為不可能實(shí)現(xiàn)的工作。并且這些工作可以幫助該團(tuán)隊(duì)處理他們所掌握的大數(shù)據(jù)集。
Tikekar表示:“在Spark 3.0之前,我們不可能完成這些工作,但現(xiàn)在我們通過GPU大幅提升了速度并且可以期待以此解決之前無法解決的問題?!?/p>
繪制AI路線圖
該團(tuán)隊(duì)計劃把其成功經(jīng)驗(yàn)運(yùn)用在數(shù)據(jù)準(zhǔn)備,也就是數(shù)據(jù)分析中的提取/轉(zhuǎn)換/加載(ETL)方面的工作上。下一步重大計劃是加速各類AI推理工作。
Tikekar表示:“與Cloudera和NVIDIA的這一合作幫助我們能夠在集群中駕馭GPU。當(dāng)出現(xiàn)此類技術(shù)進(jìn)步時,需要一段時間來認(rèn)識它們的力量并開發(fā)可以使用它們的應(yīng)用,所以Deborah Tylor確實(shí)為我們制定了新的路線圖——她是整件事中的主角?!?/p>
具體而言,該團(tuán)隊(duì)接下來致力于通過建立大型深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來進(jìn)行自然語言處理和分析。
豐富的機(jī)器學(xué)習(xí)應(yīng)用
這正是許多企業(yè)今天在尋求的機(jī)器學(xué)習(xí)轉(zhuǎn)型。
“我個人認(rèn)為機(jī)器學(xué)習(xí)具有令人難以置信的潛力,使過去難以實(shí)現(xiàn)的事情成為可能?!盩ikekar表示。作為一位計算機(jī)科學(xué)博士,他于13年前加入國稅局,此前曾在南俄勒岡大學(xué)任教十年。
“例如,現(xiàn)在我們可以掃描表格,然后使用光學(xué)字符識別來閱讀其中的片段。但有了AI之后,我們可以更加高效地閱讀表格并找到有助于識別身份盜竊或減少浪費(fèi)的規(guī)律。很多應(yīng)用在許多方面都受益于AI?!?他補(bǔ)充道。
如想進(jìn)一步了解使用NVIDIA GPU加速Cloudera的CDP 7.1.6,請觀看2020年10月發(fā)布的GTC演講(注冊后可免費(fèi)觀看)。兩家公司也是在那時宣布了合作關(guān)系。
評論