一種在分布式環(huán)境下實(shí)現(xiàn)冪迭代聚類的方法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
為解決冪迭代聚類算法并行實(shí)現(xiàn)中存在的編程繁瑣、效率低下等問題,基于Spark大規(guī)模數(shù)據(jù)通用計(jì)算引擎及其GraphX組件,提出了一種在分布式環(huán)境下實(shí)現(xiàn)冪迭代聚類的方法。首先,利用某種相似性度量方法,將原始數(shù)據(jù)轉(zhuǎn)換成一個(gè)可以視為圖的親和矩陣;然后,通過頂點(diǎn)切割,把行歸一化后的親和矩陣切分成若干個(gè)小圖,分別存儲(chǔ)在不同的機(jī)器上;最后,利用Spark基于內(nèi)存計(jì)算的特點(diǎn),對(duì)存儲(chǔ)在集群中的圖進(jìn)行多次迭代計(jì)算,得到這個(gè)圖的一個(gè)切割,圖的每一個(gè)劃分子圖對(duì)應(yīng)一個(gè)類簇。在不同規(guī)模的數(shù)據(jù)集和不同executor個(gè)數(shù)下進(jìn)行的實(shí)驗(yàn)結(jié)果表明,基于GraphX的分布式冪迭代聚類算法具有良好的可擴(kuò)展性,算法運(yùn)行時(shí)間與executor個(gè)數(shù)呈負(fù)相關(guān)的線性關(guān)系,在6個(gè)executor下,與單個(gè)executor相比,算法的加速比達(dá)到了2.09到3.77。同時(shí),通過與基于Hadoop的冪迭代聚類進(jìn)行對(duì)比,在新聞數(shù)量為40000篇時(shí),運(yùn)行時(shí)間降低了6l%。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
一種在分布式環(huán)境下實(shí)現(xiàn)冪迭代聚類的方法下載
相關(guān)電子資料下載
- 隆基全球分布式研發(fā)中心揭牌 265
- 故障排查小能手:輸電線路分布式故障定位裝置大解析 63
- 浪潮信息推出基于新一代分布式存儲(chǔ)平臺(tái)AS13000G7的AIGC存儲(chǔ)解決方案 816
- 黑龍江電力高性能WDS分布式存儲(chǔ)系統(tǒng)解決方案 62
- 雷拓科技云廣播助力江西省蘆溪縣新圖書館打造沉浸式觀展體驗(yàn)! 97
- 分布式光纖測(cè)溫系統(tǒng)DTS 143
- 天合光能致力于加強(qiáng)全球綠色轉(zhuǎn)型協(xié)作 239
- 安科瑞防孤島保護(hù)裝置AM5SE-IS 在布式光伏監(jiān)控系統(tǒng)中的應(yīng)用 93
- 得瑞領(lǐng)新參編《高性能計(jì)算助推分布式存儲(chǔ)發(fā)展白皮書》正式發(fā)布,助力推動(dòng)產(chǎn) 112
- 基于智慧醫(yī)療系統(tǒng)的存儲(chǔ)解決方案,助力高性能存儲(chǔ)需求 143