如今的企業(yè)正在使用新技術(shù)來存儲和管理他們的數(shù)據(jù)。對于金融部門、電信、廣告和零售行業(yè),以及政府機(jī)構(gòu)來說,從各種來源收集信息并將其轉(zhuǎn)化為實(shí)際成果是最重要的。
可以在數(shù)據(jù)庫層面實(shí)施只是流程的一個要素,但其影響非常重要,因?yàn)榻M織可以存儲和管理數(shù)據(jù)的方式差別很大。
首先,區(qū)分不同類型的數(shù)據(jù)庫管理系統(tǒng)(DBMS)是很重要的。
NoSQL是未來
根據(jù)定義,誕生于20世紀(jì)70年代的結(jié)構(gòu)化查詢語言(SQL)數(shù)據(jù)庫以標(biāo)準(zhǔn)化代碼進(jìn)行查詢。大多數(shù)傳統(tǒng)的DBMS都基于SQL,并遵循關(guān)系模型,這意味著它們在查詢規(guī)范中的結(jié)構(gòu)化非常高。
更重要的是,到目前為止,大多數(shù)數(shù)據(jù)庫都被集中、存儲和維護(hù)在一個單一的位置,通常是桌面服務(wù)器或大型機(jī)。
SQL數(shù)據(jù)庫最流行的例子之一是MySQL,這是一個開源的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)實(shí)現(xiàn),于1995年開發(fā),并在互聯(lián)網(wǎng)巨頭中廣泛采用。
最近,人們已經(jīng)看到了NoSQL模型的出現(xiàn),這些數(shù)據(jù)庫是非關(guān)系數(shù)據(jù)庫,這意味著它們的結(jié)構(gòu)可以支持?jǐn)?shù)據(jù)集之間的多對多關(guān)系,并且可以在不需要硬件升級的情況下進(jìn)行擴(kuò)展。
與此同時(shí),越來越多的企業(yè)轉(zhuǎn)向采用分布式方法,這使得他們可以在多個地理獨(dú)立的位置運(yùn)行復(fù)制的數(shù)據(jù)庫。
現(xiàn)代數(shù)據(jù)庫必須是可擴(kuò)展的、分散的,并且允許不同數(shù)據(jù)類型的聚合。因此,關(guān)系數(shù)據(jù)庫已經(jīng)失去了一些吸引力,并且NoSQL數(shù)據(jù)庫已經(jīng)從行業(yè)的邊緣涌現(xiàn)出來,在市場中占有重要的份額。
事實(shí)上,根據(jù)Allied Market Research公司的調(diào)查數(shù)據(jù),到2020年,NoSQL市場預(yù)計(jì)價(jià)值為42億美元。在過去的十年里,這些數(shù)據(jù)庫的涌入已經(jīng)取代了傳統(tǒng)的引擎,對新的運(yùn)營模式做出了回應(yīng)。其流行的例子包括MongoDB、Redis、HBase、MarkLogic和Cassandra。
如今,企業(yè)收集的數(shù)據(jù)比以往任何時(shí)候都要多,因此速度是數(shù)據(jù)庫管理系統(tǒng)提供商需要改進(jìn)的另一個特點(diǎn)。出于這個原因,另一個背離傳統(tǒng)的情況是內(nèi)存數(shù)據(jù)庫的使用迅速增加。
內(nèi)存數(shù)據(jù)庫管理系統(tǒng)的出現(xiàn)
而在以前,磁盤基礎(chǔ)架構(gòu)需要單獨(dú)的數(shù)據(jù)倉庫(Teradata、Informatica、Redshift)和運(yùn)行數(shù)據(jù)庫(Hadoop、Cloudera)之間的交互以及內(nèi)存,因此可以將分析、機(jī)器學(xué)習(xí)、人工智能和操作合并為一個地方。
通過完全依賴系統(tǒng)內(nèi)存,可以消除對磁盤I/O查詢或更新數(shù)據(jù)的需求,并且不再需要額外的緩存副本。
內(nèi)存數(shù)據(jù)庫的主要缺點(diǎn)是它們歷來受限于內(nèi)存的高成本。隨著內(nèi)存價(jià)格的下降,內(nèi)存數(shù)據(jù)庫的普及度越來越高,實(shí)時(shí)分析的期望也越來越普遍。
內(nèi)存系統(tǒng)的速度比基于磁盤的數(shù)據(jù)庫管理系統(tǒng)快10到100倍(相差幾毫秒),因此可以解決物聯(lián)網(wǎng)數(shù)據(jù)分析、自動駕駛汽車、現(xiàn)代零售平臺、交易處理和欺詐檢測等問題。
事實(shí)上,根據(jù)研究機(jī)構(gòu)Markets and Markets公司的報(bào)告,2018年內(nèi)存市場的市場規(guī)??赡苓_(dá)到132.3億美元。傳統(tǒng)上使用磁盤的大型公司已經(jīng)開發(fā)了自己的內(nèi)存系統(tǒng),其中包括甲骨文、微軟和SAP公司。
一些數(shù)據(jù)庫管理系統(tǒng)(DBMS)都有不同的數(shù)據(jù)庫技術(shù)方法。Aerospike公司的閃存優(yōu)化NoSQL數(shù)據(jù)庫成立于2009年,采用混合內(nèi)存架構(gòu)(結(jié)合內(nèi)存和SSD硬盤)直接連接到應(yīng)用程序數(shù)據(jù)庫,并承諾提供低延遲的應(yīng)用程序規(guī)模。出于不同的原因,開源關(guān)鍵值存儲系統(tǒng)被設(shè)計(jì)成提供一種解決延遲關(guān)鍵應(yīng)用的解決方案,無論是在實(shí)時(shí)事務(wù)處理和實(shí)時(shí)分析(通常依賴于不同的數(shù)據(jù)庫)。
Aerospike公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Brian Bulkowski解釋說,兩者之間的主要區(qū)別之一是交易需要書寫和讀取的平衡,而分析往往是讀取密集型的。
Aerospike公司聯(lián)合創(chuàng)始人兼首席發(fā)展官Srini Srinivasan補(bǔ)充說,企業(yè)傾向于使用不同的技術(shù)來處理客戶數(shù)據(jù)、預(yù)訂和財(cái)務(wù)風(fēng)險(xiǎn),其中一致性和準(zhǔn)確性是關(guān)鍵,例如實(shí)時(shí)出價(jià)、網(wǎng)絡(luò)安全和欺詐檢測,其中性能和可用性是重中之重。
Aerospike公司表示,通過有效替換緩存層,并結(jié)合使用固態(tài)硬盤和內(nèi)存,可確保低延遲和高吞吐量。更重要的是,其集群功能也可以滿足分布式應(yīng)用的需求。
為了改善磁盤I/O,Aerospike公司將索引放置在內(nèi)存中而不是SSD硬盤上。它通過在同一節(jié)點(diǎn)上同步用戶和索引數(shù)據(jù)來優(yōu)化網(wǎng)絡(luò),以避免它們之間的過度跳躍,自動執(zhí)行客戶端請求的路由,并自動平衡工作負(fù)載。最后,它提供跨多個SSD硬盤的多線程和并行處理,以促進(jìn)擴(kuò)展。
對于Bulkowski而言,該公司的任務(wù)是將互聯(lián)網(wǎng)巨頭所使用的專有技術(shù),他堅(jiān)持認(rèn)為與Aerospike公司的產(chǎn)品類似,用于實(shí)時(shí)大數(shù)據(jù)應(yīng)用。
速度和規(guī)模是基于Foster-city公司的GridGain共享的兩個優(yōu)先事項(xiàng),其內(nèi)存中軟件可以位于應(yīng)用程序和數(shù)據(jù)庫(或數(shù)據(jù)湖)之間,也可以作為內(nèi)存中的SQL數(shù)據(jù)庫部署。
GridGain是為支持事務(wù)和分析應(yīng)用程序而構(gòu)建的,它基于Foster-city公司創(chuàng)建的Apache Ignite開源項(xiàng)目(并且仍然是其主要貢獻(xiàn)者)。像Aerospike公司一樣,它消除了將操作與分析和機(jī)器學(xué)習(xí)功能分開的需求,彌補(bǔ)了數(shù)據(jù)倉庫和操作數(shù)據(jù)庫之間的差距。
因此,該公司總裁兼首席執(zhí)行官Abe Kleinfeld解釋說,該系統(tǒng)沒有數(shù)據(jù)集成和反饋回路交互。所有功能都保存在統(tǒng)一的內(nèi)存數(shù)據(jù)存儲中,并且該平臺具有統(tǒng)一的API,這意味著它可以匯集不同格式和結(jié)構(gòu)的數(shù)據(jù)。
內(nèi)存系統(tǒng)在金融服務(wù)領(lǐng)域非常流行,在過去一年Aerospike公司的收入翻了一番,擁有ING、SociétéGénérale、蘋果、華為、微軟等客戶。
GridGain最大的項(xiàng)目是俄羅斯聯(lián)邦儲蓄銀行委托開發(fā)的2150 Teraflop集群,總計(jì)采用56000個CPU和1536TB內(nèi)存。
Aerospike和GridGain都專注于“擴(kuò)展”方法,增加節(jié)點(diǎn)數(shù)量以提高數(shù)據(jù)庫性能。
GPU加速數(shù)據(jù)庫
MapD選擇改善每個單獨(dú)節(jié)點(diǎn)的性能,而采用開源內(nèi)存數(shù)據(jù)庫,每個服務(wù)器上運(yùn)行1到16個GPU。
這是一個希望實(shí)現(xiàn)可視化并與數(shù)據(jù)實(shí)時(shí)交互而產(chǎn)生的MapD的產(chǎn)品,它有兩個并行推出的產(chǎn)品:GPU加速的SQL數(shù)據(jù)庫MapD Core,以及基于Web的視覺分析平臺MapD Immerse,它位于SQL引擎之上,可以在單個壓縮映像中呈現(xiàn)數(shù)十億條數(shù)據(jù)記錄。該引擎不需要預(yù)先索引或預(yù)先聚合:所有事情都是實(shí)時(shí)完成的,而且可能超過數(shù)十億行數(shù)據(jù)記錄。
MapD公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人Todd Mostak表示,受限于結(jié)構(gòu)化數(shù)據(jù),MapD Core不像其他一些NoSQL產(chǎn)品具有那樣多的功能,它不能取代數(shù)據(jù)倉庫。
“我們就像存儲記錄中的熱門緩存。這可能會將數(shù)據(jù)從數(shù)據(jù)湖或Hadoop系統(tǒng)中提取出來,也會將數(shù)據(jù)從Teradata等傳統(tǒng)數(shù)據(jù)倉庫中提取出來。企業(yè)可以選擇第三方商業(yè)智能工具,我們推出了一個很好的符合DBI標(biāo)準(zhǔn)的Python連接器,當(dāng)然,我們的許多客戶都使用MapD Immerse。盡管它不如Tableau功能完整,但它可以通過SQL和呈現(xiàn)功能非常靈活地探索非常大的數(shù)據(jù)集?!?/p>
該系統(tǒng)可用于模型生成中的欺詐、風(fēng)險(xiǎn)和異常檢測,地理分析和網(wǎng)絡(luò)安全,實(shí)時(shí)車隊(duì)管理和激勵型保險(xiǎn)。
2014年,MapD公司獲得了芯片制造商N(yùn)vidia公司所頒發(fā)的10萬美元初期挑戰(zhàn)獎勵,該獎項(xiàng)每年頒發(fā)給利用GPU的最佳創(chuàng)業(yè)公司,Nvidia公司隨后參與了MapD公司的三輪融資。
MapD公司最近推出了一種軟件即服務(wù)(SaaS)產(chǎn)品,它在NVIDIA GPU上運(yùn)行于行業(yè)領(lǐng)先的云計(jì)算基礎(chǔ)設(shè)施提供商的數(shù)據(jù)中心,并提供自動配置、優(yōu)化、支持和升級等服務(wù)。
MapD最近與其合作伙伴Continuum Analytics和H2O.ai合作成立了GPU Open Analytics Initiative(GOAI),以將其平臺與其他基于GPU的項(xiàng)目相集成。
該聯(lián)盟的希望從GPU原生數(shù)據(jù)格式和API的框架開始,結(jié)合使用基于GPU的分析工具。
“這種工具組合的想法是都在GPU上運(yùn)行,所以可以有一個零拷貝框架,這樣我們就可以無縫地通過這些不同的進(jìn)程傳遞數(shù)據(jù),而無需再次封送或采用CPU的資源?!盡ostak解釋說。
責(zé)任編輯:ct
評論