互聯(lián)網(wǎng)時期,大數(shù)據(jù)的概念便被提出來。但在大部分人看來,大數(shù)據(jù)就如同“烏托邦”一樣,是渴望創(chuàng)新的人打造的假想國。當在這前面加上區(qū)塊鏈,這一切看來似乎就更虛無縹緲。
但實際上,大數(shù)據(jù)的產(chǎn)業(yè)價值已經(jīng)影響到人們生活的方方面面。區(qū)塊鏈+大數(shù)據(jù)兩種看似牛馬不相及的技術(shù),卻在解決數(shù)據(jù)分散、非對稱持有方面有著更多價值,可以更好實現(xiàn)互聯(lián)網(wǎng)信息的互聯(lián)互通。
隨著區(qū)塊鏈發(fā)展至今,這一結(jié)合到底是科技進步還是癡人說夢?關(guān)于區(qū)塊鏈+大數(shù)據(jù)背后的技術(shù)研究,大眾又知幾何?
OK區(qū)塊鏈聯(lián)合OKLink技術(shù)副總裁梁福坤,他從區(qū)塊鏈瀏覽器這一方向入手,闡述了區(qū)塊鏈和大數(shù)據(jù)的可結(jié)合之處以及區(qū)塊鏈技術(shù)與傳統(tǒng)互聯(lián)網(wǎng)技術(shù)的不同之處,希望能對讀者有所啟發(fā)。
目前來說,OKLink區(qū)塊鏈瀏覽器聚焦定位三大技術(shù)方向:區(qū)塊鏈、大數(shù)據(jù)和人工智能(AI方向),三者之間緊密協(xié)作,打造區(qū)塊鏈數(shù)據(jù)門戶的整體生態(tài)。
下面闡述三大技術(shù)在瀏覽器中的位置和作用,以及面臨的架構(gòu)技術(shù)挑戰(zhàn)。
1. 區(qū)塊鏈技術(shù)
區(qū)塊鏈角色更多關(guān)注全節(jié)點作為數(shù)據(jù)源提供方,依賴區(qū)塊鏈技術(shù)的分布式、公開透明、可追溯、不可篡改等特征,同時結(jié)合數(shù)據(jù)分布式存儲、點對點傳輸、共識機制、加密算法等多種技術(shù)融合形成的區(qū)塊鏈創(chuàng)新應(yīng)用模式。
在區(qū)塊鏈瀏覽器的整體架構(gòu)中,區(qū)塊鏈作為數(shù)據(jù)源存在的挑戰(zhàn)與傳統(tǒng)大數(shù)據(jù)進行ETL(Extract-Transform-Load)比較。
多幣種主鏈數(shù)據(jù)組織差異大,在眾多主鏈數(shù)據(jù)持有能力上,需要思考如何在系統(tǒng)架構(gòu)上提出能夠保證通用結(jié)構(gòu)復用,又要兼顧多主鏈個性化靈活支持的需求。同時,理解區(qū)塊鏈全節(jié)點數(shù)據(jù)的業(yè)務(wù)特征、不同版本之間差異、分叉對不同高度的解析細節(jié)上在研發(fā)周期中占用較大比重。
以往大數(shù)據(jù)架構(gòu)不需要太多的關(guān)注數(shù)據(jù)業(yè)務(wù)本身涵義,更多聚焦在數(shù)據(jù)流轉(zhuǎn)、計算、存儲,而區(qū)塊鏈則需要對業(yè)務(wù)了解放在首位,起點較高。
2. 大數(shù)據(jù)技術(shù)
在OKLink區(qū)塊鏈瀏覽器上,大數(shù)據(jù)聚焦在區(qū)塊鏈數(shù)據(jù)源解析之后,推送到Kafka消息隊列后續(xù),對數(shù)據(jù)進行統(tǒng)計分析,實時計算和離線計算部分。
同時,在瀏覽器前端展示ToC提供線上檢索服務(wù)和對不同的數(shù)據(jù)應(yīng)用放提供ToB(面向商業(yè))的API訪問方式。
當然,區(qū)塊鏈瀏覽器中大數(shù)據(jù)的實踐和傳統(tǒng)互聯(lián)網(wǎng)大數(shù)據(jù)有著較為明顯區(qū)分特征,下面逐一說明:
A) 數(shù)據(jù)中臺
區(qū)塊鏈大數(shù)據(jù)更加側(cè)重數(shù)據(jù)中臺的角色,而不是傳統(tǒng)的后臺提供數(shù)據(jù)分析、離線計算的位置。之所以在數(shù)據(jù)中臺委以重任,是需要更快、更為靈活的交付用戶數(shù)據(jù)。
所以查詢快是OKLink的一大亮點,要提供區(qū)塊鏈數(shù)據(jù)的快速交付,需要在數(shù)據(jù)解析到流轉(zhuǎn)、計算存儲、查詢4個方面整個鏈路做全方面的優(yōu)化,整體協(xié)作來完成快速交付。
時效性在區(qū)塊鏈對ToB方面至關(guān)重要,ms級別的先機會對類似量化交易及時做出預判,類似傳統(tǒng)意義提到的時間就是金錢,唯快不破。
B) 數(shù)據(jù)弱化分區(qū)特征
在互聯(lián)網(wǎng)等傳統(tǒng)大數(shù)據(jù)進行存儲,一般會對數(shù)據(jù)按照日期進行一級分區(qū),對于數(shù)據(jù)進行分布式存儲和計算在MPP架構(gòu)中應(yīng)用非常嫻熟,數(shù)據(jù)可以根據(jù)使用情況做熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)處理分層Cache、歸檔等處理。
而區(qū)塊鏈大數(shù)據(jù)存儲在業(yè)務(wù)層面需要時刻準備交付,即數(shù)據(jù)可以理解均為熱點數(shù)據(jù),例如按照地址檢索交易記錄,即便較久交易也需要實時交付。
同時,時間維度在做區(qū)塊鏈的業(yè)務(wù)場景應(yīng)用中不重要,反而區(qū)塊高度、交易Hash、地址等維度命中率在大部分場景下有較多應(yīng)用。
在架構(gòu)層面,滿足弱化分區(qū)特征,需要實現(xiàn)索引和數(shù)據(jù)的異構(gòu)引擎配合存儲和計算,在服務(wù)層面需要做到數(shù)據(jù)一致性、檢索過程業(yè)務(wù)透明、新增索引項靈活配置、熱部署等工程方面挑戰(zhàn)。
C) 流批處理
流批處理指的是區(qū)塊鏈計算指標需要結(jié)合歷史的統(tǒng)計信息和當前的實時數(shù)據(jù)做更新,例如地址的累計交易金額=歷史累計交易金額+當前交易金額。
前面提到如果大數(shù)據(jù)處于后臺角色,可以完全通過離線計算批處理的方式進行統(tǒng)計,這樣的方式即保證了準確性,又相對保險,但在時間上會有滯后。而作為數(shù)據(jù)中臺能快速準確交付用戶信息,這里需要歷史聚合數(shù)據(jù)和當前變更數(shù)據(jù)做實時計算。
這種場景最大的挑戰(zhàn)是數(shù)據(jù)指標的冷啟動+實時計算結(jié)合,并且一個指標從定義到交付更為靈活,就需要在架構(gòu)設(shè)計上支持配置化的指標定義,而非Case by Case的定制開發(fā)。
OKLink實時計算平臺“閃電”中采用Flink作為流批數(shù)據(jù)計算的架構(gòu)選型,支持靈活定義Source數(shù)據(jù)源、ETL數(shù)據(jù)上下游銜接和靈活定義Sink輸出。在存儲方面借助HBase存儲滿足實時更新和按照Key檢索,歷史聚合信息計算結(jié)果存儲在HBase,并且記錄歷史截止交易高度,閃電平臺敏銳察覺數(shù)據(jù)變更并且延續(xù)后續(xù)實時計算過程。
D) 數(shù)據(jù)補償機制
即當線上數(shù)據(jù)出現(xiàn)問題之后,如何能夠快速修正數(shù)據(jù)。一般來說,數(shù)據(jù)出現(xiàn)問題的原因包括:計算邏輯變更、數(shù)據(jù)解析bug、區(qū)塊分叉、數(shù)據(jù)延遲交付等因素。
這些因素雖然在瀏覽器上線后出現(xiàn)的頻率較低,但是每次出現(xiàn)人工處理成本較高,主要表現(xiàn)在處理時間、人工核驗的質(zhì)量參差不齊。
數(shù)據(jù)補償機制是數(shù)據(jù)質(zhì)量保證重要的途徑,可以滿足數(shù)據(jù)的最終一致性需求。數(shù)據(jù)補償?shù)奶幚聿襟E可以歸納為識別壞數(shù)據(jù)、定位數(shù)據(jù)源、清理目標寫入、數(shù)據(jù)重計算四個部分,因為針對不同的數(shù)據(jù)源處理步驟大同小異,所以非常適合工程化方案解決。
當前這里面也存在一些挑戰(zhàn),比如壞數(shù)據(jù)出現(xiàn)位置監(jiān)控與定位、已寫入引擎數(shù)據(jù)識別和清楚、修正補?。≒atch)熱部署熱加載避免停服、旁路數(shù)據(jù)修正等。
E) 新數(shù)據(jù)頻繁變更
數(shù)據(jù)變更在互聯(lián)網(wǎng)場景更多體現(xiàn)在OLTP數(shù)據(jù)庫中,而在OLAP場景下更多為沉淀數(shù)據(jù),追加較多變更非常少。
頻繁變更帶來的問題是數(shù)據(jù)碎片化嚴重、標記刪除和定期歸檔工程化較為復雜,目標存儲引擎支持更新,同時如果支持冪等性業(yè)務(wù)操作,還需要識別已寫入數(shù)據(jù)哪些是覆蓋想,哪些是刪除項。
3. 人工智能技術(shù)
人工智能(AI)技術(shù)在區(qū)塊鏈瀏覽器場景下,落地存在較多場景。從公開、透明、不可篡改的數(shù)據(jù)中,發(fā)現(xiàn)數(shù)據(jù)背后更多的價值挖掘,例如地址畫像、量化交易都是從已有區(qū)塊數(shù)據(jù)中發(fā)現(xiàn)相關(guān)性。
AI技術(shù)和區(qū)塊鏈技術(shù)均存在擅長的發(fā)揮領(lǐng)域,但是也避免不了有各自的短板,而取長補短融合才能發(fā)揮更大的空間。
區(qū)塊鏈數(shù)據(jù)去中心化和分布式存儲給AI帶來公開透明的大數(shù)據(jù)生態(tài)市場、更加豐富AI的數(shù)據(jù)特征工程、模型與算法提升。同時,把AI技術(shù)應(yīng)用到區(qū)塊鏈,可以讓區(qū)塊鏈智能合約、工作量證明、自治組織等更加智能、高效、安全、未來精準評估。
首先在數(shù)據(jù)公開對稱層面,區(qū)塊鏈數(shù)據(jù)不像傳統(tǒng)大數(shù)據(jù)掌握在BAT等大公司手中,相對數(shù)據(jù)使用者是對等的關(guān)系。
因為區(qū)塊鏈數(shù)據(jù)對使用者更加開放和對等的信息公開性,基于區(qū)塊鏈數(shù)據(jù)的應(yīng)用在數(shù)據(jù)層面讓使用者站在同一個起點和基礎(chǔ)。而人工智能的核心算法層、模型層面,更為適應(yīng)業(yè)務(wù)需求開展深度發(fā)揮,在數(shù)據(jù)應(yīng)用層面百花齊放。
其次是合作共贏方面,因為是相同數(shù)據(jù)樣本產(chǎn)出的結(jié)果,后期產(chǎn)業(yè)融合、成果融合方面更為開放和流暢。
這其中代表性的例子類似地址的標簽畫像,不同的應(yīng)用放可以針對標簽構(gòu)建特征工程和描繪,最后成果可以根據(jù)地址的ID-Mapping可以實現(xiàn)融合共享。
類似業(yè)界安全方面比較注重的黑產(chǎn)地址、博彩地址、富豪地址、礦池和交易所地址的多角度識別,未來AI、區(qū)塊鏈技術(shù)在相互調(diào)用、促進方面會有更多想象空間等待發(fā)現(xiàn)。
評論