若說(shuō)2018年9月在杭州召開的云棲大會(huì)期間,活躍著多少匹“黑馬”,連同參展的、演講的、參觀的……各色人等一時(shí)很難統(tǒng)計(jì)出來(lái),但是,不起眼的TigerGraph,一定會(huì)是其中最有亮點(diǎn)、最有故事的黑馬之一。
這家成立2012年,在大數(shù)據(jù)圖分析領(lǐng)域默默耕耘了6年的公司,一直低調(diào)從事市場(chǎng)調(diào)研和產(chǎn)品研發(fā)迭代。
直到2017年11月8日,TigerGraph的下一代圖數(shù)據(jù)庫(kù)在美國(guó)正式發(fā)布,在市場(chǎng)上引起了軒然大波后才為眾人所知。這家總部位于硅谷的公司憑借成熟的技術(shù),贏得了啟明創(chuàng)投、百度、螞蟻金融、華創(chuàng)資本、AME云創(chuàng)投、莫拉多風(fēng)險(xiǎn)投資公司、佐德?納齊姆、丹華資本和DCVC風(fēng)投基金公司3100萬(wàn)美元A輪資金投資。
從大數(shù)據(jù)中掘金
有統(tǒng)計(jì)報(bào)告顯示,1分鐘之內(nèi),美國(guó)數(shù)億封郵件被發(fā)送,谷歌平臺(tái)上發(fā)起400萬(wàn)次搜索,F(xiàn)acebook上有246萬(wàn)條信息被分享……在中國(guó),類似的數(shù)據(jù)量更大。例如,在中國(guó)約有7000多萬(wàn)家注冊(cè)企業(yè),由于數(shù)據(jù)量比較大,要想理清這些公司之間的關(guān)系,如企業(yè)的持股人、投資關(guān)系、訴訟關(guān)系至辦公地址等類似的關(guān)系,是一件很困難的事情;通過(guò)檢索可以查出一度內(nèi)有關(guān)系的人,也就是控股人控股關(guān)系,再深入到兩層、三層的關(guān)系就不太現(xiàn)實(shí)了。
萬(wàn)物互聯(lián)的時(shí)代,社交網(wǎng)絡(luò)實(shí)時(shí)在線,物聯(lián)網(wǎng)7*24小時(shí)運(yùn)行,每天大量的數(shù)據(jù)還在持續(xù)不斷的生成。在這樣的情況下,該如何挖掘數(shù)據(jù)的價(jià)值,數(shù)據(jù)關(guān)聯(lián)背后隱藏著什么關(guān)系?
TigerGraph創(chuàng)始人兼CEO許昱博士TigerGraph公司的創(chuàng)始人許昱博士從事數(shù)據(jù)庫(kù)和并行系統(tǒng)研發(fā)已經(jīng)二十年,創(chuàng)辦TigerGraph之前在Teradata負(fù)責(zé)大數(shù)據(jù)面向業(yè)界和未來(lái)五年的方向研究,領(lǐng)導(dǎo)Teradata和Big Data、Hadoop系統(tǒng)的集成,并且與一些大企業(yè)合作解決報(bào)表的查詢與合并技術(shù)。稍早在Twitter工作,作為一個(gè)社交網(wǎng)絡(luò),圖的分析對(duì)于Twitter意義重大,Twitter自行開發(fā)了一套單機(jī)版的純內(nèi)存的系統(tǒng)。再早則是在加州大學(xué)圣地亞哥分校、在中科院計(jì)算所從事數(shù)據(jù)庫(kù)方面的研發(fā)工作。
可以說(shuō),許昱博士是個(gè)“不折不扣”的數(shù)據(jù)庫(kù)專家,在他的周圍聚集的也是來(lái)自硅谷等地高科技公司的數(shù)據(jù)庫(kù)專家。
為什么會(huì)從事圖數(shù)據(jù)庫(kù)研究?
發(fā)掘大數(shù)據(jù)關(guān)聯(lián)和關(guān)聯(lián)后面隱藏的商業(yè)價(jià)值,是一個(gè)技術(shù)難題,但是它的解決無(wú)疑具有極大的商業(yè)價(jià)值。如何解決?
始于Hadoop技術(shù)的大數(shù)據(jù)時(shí)代迄今已經(jīng)過(guò)去了十年,一些簡(jiǎn)單的技術(shù)問(wèn)題如存儲(chǔ)、離線處理等問(wèn)題都得到了解決。十五年前,業(yè)界也開始了一些圖數(shù)據(jù)庫(kù)的嘗試。許昱博士指出,圖是以數(shù)學(xué)上點(diǎn)和邊的關(guān)系把所有的數(shù)據(jù)自然存在一起,成為自然的存儲(chǔ)數(shù)據(jù)關(guān)聯(lián)模型。TigerGraph之所以采用知識(shí)圖譜(歐拉圖),是因?yàn)閳D是解決大數(shù)據(jù)互聯(lián)最好的方法。
從計(jì)算角度,歐拉圖更合適大數(shù)據(jù)的機(jī)器學(xué)習(xí)、人工智能。但由于每前進(jìn)一步,接觸數(shù)據(jù)量指數(shù)性增長(zhǎng),又能帶來(lái)更多關(guān)聯(lián)信息,所以計(jì)算能力至關(guān)重要,而技術(shù)上的限制,比如缺乏大數(shù)據(jù)、并行技術(shù)、多核計(jì)算機(jī)等的能力,所以在TigerGraph之前一些圖計(jì)算的工具計(jì)算能力很差。
雖然歐拉圖理論已經(jīng)問(wèn)世有兩百多年,也是最合適的存儲(chǔ)和計(jì)算互聯(lián)數(shù)據(jù)的模型,但現(xiàn)在仍然沒(méi)有企業(yè)中得到最廣泛的使用。一方面,圖數(shù)據(jù)庫(kù)是較為高級(jí)的研究方向,從高深的理論到真正商業(yè)化,大規(guī)模應(yīng)用還是很有難度分不開;另一方面,關(guān)系數(shù)據(jù)庫(kù)一直以來(lái)都是最大的市場(chǎng),這也是制約圖數(shù)據(jù)庫(kù)發(fā)展的另外一個(gè)原因。同樣的道理,雖然關(guān)系型數(shù)據(jù)庫(kù)時(shí)下正大行其道,但在剛開始的前十年,甲骨文的產(chǎn)品和市場(chǎng)都是經(jīng)過(guò)了漫長(zhǎng)的迭代。
許昱博士總結(jié)了圖數(shù)據(jù)庫(kù)和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的三大區(qū)別。
一是存儲(chǔ)模型不一樣,關(guān)系型數(shù)據(jù)庫(kù)數(shù)學(xué)模型是表格,一個(gè)最簡(jiǎn)單例子,一個(gè)人有一個(gè)身份證號(hào)、一個(gè)住址表、一個(gè)工資表、一個(gè)上學(xué)記錄表等存在幾個(gè)不同的表里,但是物理上、邏輯上都分開了,想知道這個(gè)人住在哪個(gè)地方,讀過(guò)哪所學(xué)校,要把表合起來(lái),根據(jù)值一個(gè)個(gè)去拼才能找出來(lái)。而圖里,身份證號(hào)碼是唯一節(jié)點(diǎn),學(xué)校也是唯一節(jié)點(diǎn),馬上與全校學(xué)生聯(lián)系起來(lái)了。另外,圖數(shù)據(jù)庫(kù)的壓縮率是關(guān)系型數(shù)據(jù)庫(kù)的2倍至10倍,雖然儲(chǔ)存的變化不算太重要,但是計(jì)算、內(nèi)存和對(duì)緩存的利用度就不一樣,存儲(chǔ)模型不一樣。
關(guān)系型數(shù)據(jù)庫(kù)是人為打亂成很多表,然后通過(guò)計(jì)算“拼湊”起來(lái)才能建立起關(guān)系來(lái)。它雖然叫關(guān)系型數(shù)據(jù)庫(kù),但這個(gè)名字并不恰當(dāng),圖數(shù)據(jù)庫(kù)才是真正針對(duì)關(guān)系的一個(gè)數(shù)據(jù)庫(kù)。
第二,計(jì)算模型不一樣。在關(guān)系型數(shù)據(jù)庫(kù)的計(jì)算模型本質(zhì)上是“野蠻”的掃描,如兩個(gè)表之間值的比較,是否同一個(gè)人、同一個(gè)產(chǎn)品、同一個(gè)城市,城市有多少人口以及公司在哪個(gè)城市注冊(cè)等。這種方式性能很差,因?yàn)橐^(guò)濾很多無(wú)關(guān)的數(shù)據(jù)。圖就不一樣了,從一個(gè)人出發(fā),幾步關(guān)聯(lián),就能準(zhǔn)確定位。
第三,查詢方式的不同。關(guān)系型數(shù)據(jù)庫(kù)的SQL語(yǔ)言比較簡(jiǎn)單,不支持復(fù)雜關(guān)系的發(fā)掘和預(yù)測(cè)。TigerGraph采取類似于SQL但功能更強(qiáng)的GSQL語(yǔ)言,允許動(dòng)態(tài)生成各種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)動(dòng)態(tài)生成的證據(jù),支持用戶的推薦和打分,這在人工智能、機(jī)器學(xué)習(xí)的時(shí)代更有價(jià)值。
其實(shí),這些不同點(diǎn)恰恰也是TigerGraph新產(chǎn)品發(fā)布之前“沉寂”了五年多時(shí)間不為人知的原因,因?yàn)樗麄兺耆珴撔脑陉P(guān)系型數(shù)據(jù)庫(kù)領(lǐng)域外“另辟蹊徑”。
TigerGraph的優(yōu)勢(shì):“原生”與“并行”
近六年潛心研發(fā)與精心打磨的TigerGraph有哪些優(yōu)勢(shì)?
TigerGraph的技術(shù)突破代表著圖數(shù)據(jù)庫(kù)演進(jìn)的下一個(gè)里程碑——一個(gè)完整的、分布式的并行圖計(jì)算平臺(tái),能夠支持網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的實(shí)時(shí)分析。TigerGraph通用版本是服務(wù)于企業(yè)級(jí)應(yīng)用、世界上第一個(gè)也是唯一的企業(yè)級(jí)原生并行圖數(shù)據(jù)庫(kù)以及圖數(shù)據(jù)庫(kù)云服務(wù),一同發(fā)布的還有GraphStudio——TigerGraph的可視化軟件開發(fā)工具包。
TigerGraph是基于原生并行圖(NPG)技術(shù)的全球首個(gè)實(shí)時(shí)圖分析平臺(tái),通過(guò)為具有復(fù)雜和海量數(shù)據(jù)的企業(yè)提供實(shí)時(shí)深度鏈接分析支持,TigerGraph實(shí)現(xiàn)了圖平臺(tái)的真正承諾和好處。
TigerGraph用C++從頭到尾做了一套基于對(duì)圖的存儲(chǔ)引擎,并開發(fā)了一個(gè)大規(guī)模并行的圖計(jì)算引擎,而且對(duì)圖進(jìn)行了大量界面可視化工作,包括可視化的開發(fā)環(huán)境與探索、挖掘環(huán)境,成為業(yè)界唯一原生并行圖數(shù)據(jù)庫(kù)平臺(tái),其核心之處就是“原生”和“并行”。
原生,是基于圖的理論、基于圖的存儲(chǔ)、基于圖的計(jì)算,從底層開始開發(fā)的一套系統(tǒng),這是一條性能非常高,但開發(fā)周期比較長(zhǎng)的一條路徑。不像用關(guān)系數(shù)據(jù)庫(kù)做存儲(chǔ)或者用文檔數(shù)據(jù)庫(kù)做存儲(chǔ),在上面做一個(gè)圖的API,馬上就有圖數(shù)據(jù)庫(kù)了。
并行,就是多臺(tái)機(jī)器并行處理,時(shí)下數(shù)據(jù)量這么大,一臺(tái)服務(wù)器再?gòu)?qiáng)大也不能解決用戶一些計(jì)算問(wèn)題。
TigerGraph三大技術(shù)優(yōu)勢(shì)
圖數(shù)據(jù)庫(kù)從最近十年的表現(xiàn)來(lái)看已經(jīng)成為關(guān)注度最高,也是發(fā)展趨勢(shì)最明顯的數(shù)據(jù)庫(kù)類型。那從市場(chǎng)上產(chǎn)品的比較看,TigerGraph有哪些技術(shù)優(yōu)勢(shì)呢?
一是實(shí)時(shí)計(jì)算。查詢涉及到幾千萬(wàn)到上億個(gè)節(jié)點(diǎn)和邊關(guān)聯(lián)(點(diǎn)是實(shí)體,邊是關(guān)系),眨眼間就把復(fù)雜的關(guān)聯(lián)結(jié)果推送出來(lái),不論是做欺詐、分析、推薦還是實(shí)時(shí)的網(wǎng)絡(luò)計(jì)算,都可在1秒鐘以內(nèi)實(shí)現(xiàn),比傳統(tǒng)?法快多個(gè)數(shù)量級(jí)。
二是超大規(guī)模,每臺(tái)機(jī)器每?時(shí)可加載50到150GB數(shù)據(jù),不再需要批量加載,在只有20臺(tái)商用計(jì)算機(jī)的集群上,能夠?qū)?0億以上的每日事件實(shí)時(shí)流式傳輸?shù)骄哂谐^(guò)1000億個(gè)頂點(diǎn)和超過(guò)6000億個(gè)邊的大數(shù)據(jù)圖譜。已成功在世界上最大的電子支付公司生產(chǎn)線上運(yùn)行兩年多,支持?jǐn)?shù)據(jù)庫(kù)的增刪改查,成為可以上線運(yùn)行的數(shù)據(jù)庫(kù)。
三是深度關(guān)聯(lián)。公司現(xiàn)在有高級(jí)易用的開發(fā)語(yǔ)言;客戶完全不需要公司支持,借助TigerGraph網(wǎng)站上的技術(shù)文檔,下載軟件自己去寫GSQL,做圖模型、數(shù)據(jù)錄入和二次開發(fā);從數(shù)據(jù)深度發(fā)掘看,可以每秒每機(jī)遍歷數(shù)億個(gè)頂點(diǎn)/邊,步數(shù)可達(dá)三步或更多。
五年來(lái),TigerGraph在研發(fā)中其實(shí)踩過(guò)很多“坑”,實(shí)現(xiàn)了非常革命性的突破。許昱博士認(rèn)為,公司做得最好的是兩點(diǎn):一是基于分布式存儲(chǔ)系統(tǒng),選擇了最優(yōu)化的體系結(jié)構(gòu),解決了數(shù)據(jù)一致性的問(wèn)題;二是選型用C++做底層控制一切的內(nèi)存。盡管Java有很多優(yōu)點(diǎn),但是當(dāng)時(shí)TigerGraph做出了這個(gè)艱難的決定。
這些技術(shù)上的突破對(duì)于在最?的數(shù)據(jù)上進(jìn)?實(shí)時(shí)分析至關(guān)重。
這些數(shù)據(jù)應(yīng)用包括世界上最大的電子商務(wù)提供商的欺詐預(yù)防、世界上最大的移動(dòng)電子商務(wù)公司的實(shí)時(shí)推薦,和管理世界上最大的電力公司的能源傳輸網(wǎng)。
TigerGraph今年6月份在美國(guó)發(fā)布了兩個(gè)版本:一是終身免費(fèi)的開發(fā)者版本(單機(jī)版),沒(méi)有數(shù)據(jù)限制、沒(méi)有時(shí)間限制;二是企業(yè)版本,是多機(jī)版,但有時(shí)間限制,比如幾個(gè)月。
廣泛的行業(yè)應(yīng)用
TigerGraph是業(yè)界唯一的原生、并行圖計(jì)算的大平臺(tái),特別適?于?圖——深度鏈接分析的最佳模型,這是因?yàn)樗軌蛱剿?、發(fā)現(xiàn)和預(yù)測(cè)關(guān)系。
在反欺詐和反洗錢方面,企業(yè)可以借助TigerGraph系統(tǒng)在企業(yè)數(shù)據(jù)全景圖上快速部署復(fù)雜有效的反欺詐和反洗錢業(yè)務(wù),利?實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)深度鏈接分析應(yīng)對(duì)?融犯罪。
原本許昱博士認(rèn)為TigerGraph是反洗錢最天然、最好的應(yīng)用,但去年11月份在美國(guó)發(fā)布以后的應(yīng)用結(jié)果令人驚訝——雖然紐約有不少銀行應(yīng)用于客戶的360度畫像、風(fēng)控、合規(guī)等領(lǐng)域,但西雅圖到南加州,到佛羅里達(dá),到美國(guó)的明尼蘇達(dá)不同的城市各行各業(yè)的客戶蜂擁而來(lái)——健康保險(xiǎn)公司利用知識(shí)圖譜反欺詐、電信公司為流失用戶畫像、昂貴新藥上市后制藥公司通過(guò)查悉醫(yī)生的影響力進(jìn)行精準(zhǔn)推送……
此外,采用TigerGraph,可通過(guò)了解企業(yè)控制人的關(guān)系、企業(yè)之間的擔(dān)保關(guān)聯(lián),銀行可最大限度地降低風(fēng)險(xiǎn)。例如,某些企業(yè)可能破產(chǎn)了,為其提供擔(dān)保的企業(yè)就可能陷入糾紛中。
專注為客戶創(chuàng)造價(jià)值,而非取代
圖數(shù)據(jù)庫(kù)最重要的能力是計(jì)算能力、關(guān)聯(lián)能力。許昱博士表示,TigerGraph生成很多高質(zhì)量的新的訓(xùn)練數(shù)據(jù),然后交給機(jī)器系統(tǒng)去學(xué)習(xí),可極大地減少誤報(bào)率,為各行各業(yè)提供做圖分析和知識(shí)圖譜的通用圖引擎,客戶可以很快建立針對(duì)自己企業(yè)的圖模型,將任何關(guān)聯(lián)方找出來(lái)。
TigerGraph有很多的優(yōu)勢(shì),但并不意味著要去顛覆傳統(tǒng)的數(shù)據(jù)庫(kù)。許昱博士認(rèn)為,公司是在做復(fù)雜關(guān)聯(lián)、實(shí)時(shí)計(jì)算等別人以前根本做不了的事情,做新一代的應(yīng)用程序,給客戶帶來(lái)價(jià)值,以解決他們數(shù)據(jù)量快速增長(zhǎng),或者更新成本太昂貴的難題,方便他們的應(yīng)用程序移植到圖數(shù)據(jù)庫(kù)上。
目前,TigerGraph的解決方案已經(jīng)被國(guó)內(nèi)的大型金融機(jī)構(gòu)、電力等不同行業(yè)的大量的客戶所采用。
在美國(guó),圖數(shù)據(jù)庫(kù)是近年來(lái)所有數(shù)據(jù)庫(kù)里發(fā)展速度最快的。保守的估計(jì),未來(lái)五年里將會(huì)有十倍的增長(zhǎng),圖數(shù)據(jù)庫(kù)市場(chǎng)發(fā)展?jié)摿涂臻g很大。許昱博士十分看好TigerGraph的未來(lái)。
評(píng)論