欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數(shù)據(jù)湖是什么

汽車電子技術 ? 來源:碼農與軟件時代 ? 作者:碼農與軟件時代 ? 2023-02-15 10:22 ? 次閱讀

1.為什么出現(xiàn)數(shù)據(jù)湖?

支撐業(yè)務的IT軟件系統(tǒng)最簡單的數(shù)據(jù)鏈路是:操作業(yè)務APP的界面或者調用其API接口,將交易數(shù)據(jù)記錄到關系型數(shù)據(jù)庫中。

說其簡單,是因為這樣的系統(tǒng)能夠支撐業(yè)務交易。業(yè)務APP上的每筆交易數(shù)據(jù)都會記錄在數(shù)據(jù)庫中。

這對業(yè)務交易員來說,已經足夠了。但對業(yè)務管理者來說,期望看到的是“自己關心的、宏觀的、能夠反應歷史變化的數(shù)據(jù)”,并且最好是可視化的界面,一目了然。

于是,“數(shù)據(jù)倉庫”出現(xiàn)了,它就是一個面向主題的、集成的、反映歷史變化的數(shù)據(jù)集合。

那么,數(shù)據(jù)是如何從業(yè)務數(shù)據(jù)庫到達數(shù)據(jù)倉庫的呢?

首先,要理解的是業(yè)務數(shù)據(jù)庫和數(shù)據(jù)倉庫的Schema(表結構)大部分情況下是不同的,前者用來記錄實時交易信息,后者用來記錄歷史匯總信息。

其次,表結構的不同,就需要進行數(shù)據(jù)處理的三板斧--“抽取、轉換和加載”,即Extract-Transform-Load,簡稱ETL。具體來說就是抽取管理者關心的(面向主題)、轉換數(shù)據(jù)、加載到數(shù)據(jù)倉庫中。

最后,根據(jù)業(yè)務規(guī)則,提取數(shù)據(jù)倉庫中的數(shù)據(jù)進行可視化提取與展示(報表)。

數(shù)據(jù)倉庫的使用思路是:業(yè)務管理者知道“自己關心哪些數(shù)據(jù)”,在創(chuàng)建數(shù)據(jù)倉庫時,便可以將這些數(shù)據(jù)提取并記錄下來。這樣,數(shù)據(jù)倉庫記錄的是經過加工過的數(shù)據(jù),而非原始數(shù)據(jù)。

注意到數(shù)據(jù)倉庫的數(shù)據(jù)是結構化的。對于半結構化(CSVXMLJSON)和非結構化(e-mail文檔)的數(shù)據(jù)來說,也蘊含著有價值的信息,同樣需要分析,或者現(xiàn)在不知道怎么分析,也可以先存儲起來。

那么就需要有一種方法:不但可以存儲原始數(shù)據(jù),也可以存儲結構化、半結構化、非結構 化的數(shù)據(jù),并且還能支撐數(shù)據(jù)的分析。

時勢的呼喚下,“數(shù)據(jù)湖(Data Lake)”便產生了。

2.數(shù)據(jù)湖是什么?

數(shù)據(jù)湖是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。

“數(shù)據(jù)”可以是各種格式的,結構化、半結構化的、非結構化的。并且數(shù)據(jù)是未經加工的,像大自然的水,流入到“湖”中。也就是數(shù)據(jù)的存儲,無需像數(shù)據(jù)倉庫那樣事先設計Schema,也無需事先有明確的分析需求(有了想法,再延遲分析,稱為讀時模式Schema-On-Read)

3.數(shù)據(jù)湖如何實現(xiàn)?

數(shù)據(jù)湖是一種方法論,探討如何以原始形態(tài)存儲各種格式的數(shù)據(jù),并能支持后續(xù)的分析。

數(shù)據(jù)湖的開源實現(xiàn)有:Hadoop、Delta、Apache Iceberg 和 Apache Hudi。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    數(shù)據(jù)是什么

    點擊“藍字”關注我們來源 |談數(shù)據(jù)作者丨石秀峰一、認識數(shù)據(jù)1、初識數(shù)據(jù)Data lake,筆者第一次接觸這個概念,是在2014年IBM組
    發(fā)表于 07-12 08:14

    數(shù)據(jù)的定義是什么?如何去構建數(shù)據(jù)?

    數(shù)據(jù)的定義是什么?數(shù)據(jù)數(shù)據(jù)倉庫的區(qū)別在哪?如何去構建數(shù)據(jù)
    發(fā)表于 07-12 07:04

    數(shù)據(jù)可以用來解決大數(shù)據(jù)的挑戰(zhàn)嗎

    數(shù)據(jù)是機器學習和人工智能的強大基礎),因為它們在大型,多樣化的數(shù)據(jù)集上蓬勃發(fā)展。
    發(fā)表于 02-25 09:01 ?783次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>可以用來解決大<b class='flag-5'>數(shù)據(jù)</b>的挑戰(zhàn)嗎

    數(shù)據(jù)是什么,它的快速搭建方法介紹

    數(shù)據(jù)概念最早是在2011年提出,到現(xiàn)在也就9年左右的時間,算是一個較新的概念。雖然各方理解上有些差異,也存在一些爭議,但概念不重要,關鍵是否能真正幫助企業(yè)解決在業(yè)務快速發(fā)展過程中不斷遭遇的新問題。
    的頭像 發(fā)表于 04-03 20:38 ?4278次閱讀

    AWS數(shù)據(jù)怎么脫穎而出的

    在AWS 數(shù)據(jù)平臺中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松
    的頭像 發(fā)表于 04-12 19:34 ?2020次閱讀

    結合阿里云上的EMR JindoFS優(yōu)化和實踐,數(shù)據(jù)怎么玩“加速”?

    那么為什么需要加速呢?這和數(shù)據(jù)架構分層,以及相關技術演進具有很大關系。接下來,我們從三個方面的介紹來尋找答案。分別是:基礎版,要適配;標配版,做緩存;高配版,深度定制。JindoFS同時涵蓋這三個層次,實現(xiàn)
    的頭像 發(fā)表于 09-16 11:56 ?2394次閱讀
    結合阿里云上的EMR JindoFS優(yōu)化和實踐,<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>怎么玩“加速”?

    阿里云為什么要重構數(shù)據(jù)解決方案 主推下一代技術

    數(shù)據(jù)并不是一個新概念,大概在十多年前,從有Hadoop開始,就有很多人提出這樣的設想。面對海量數(shù)據(jù)增長,要想挖掘數(shù)據(jù)價值,首先得有一個能夠存儲各類
    的頭像 發(fā)表于 11-11 14:38 ?1157次閱讀

    阿里云宣布推出業(yè)內首個云原生企業(yè)級數(shù)據(jù)解決方案

    據(jù)悉,阿里云云原生企業(yè)級數(shù)據(jù)解決方案采用了存儲計算分離架構,基于阿里云對象存儲OSS構建,并與阿里云數(shù)據(jù)分析Data Lake Analytics(DLA)、
    的頭像 發(fā)表于 12-21 14:07 ?2734次閱讀

    虛擬化模型驅動的分布式數(shù)據(jù)架構設計

    提出了適應工商聯(lián)業(yè)務服務對象分布廣、類型多、不確定性強等特點的虛擬化模型驅動的分布式數(shù)據(jù)構建方法,給岀了分布式數(shù)據(jù)的整體架構設計,定乂了適應分散、碎片化欻據(jù)收集場景的欻據(jù)虛擬仳模型
    發(fā)表于 05-11 15:12 ?5次下載

    易華錄提出面向數(shù)據(jù)數(shù)據(jù)安全治理框架

    在“十四五”規(guī)劃明確提出加快構建全國一體化大數(shù)據(jù)中心體系的背景下,易華錄數(shù)據(jù)以低能耗、跨領域、跨系統(tǒng)的特性提供了全新的技術架構。此外,《數(shù)據(jù)安全法》等法律法規(guī)的相繼出臺,對
    的頭像 發(fā)表于 04-22 08:23 ?2332次閱讀

    數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會來襲 24日易華錄有約

    ·數(shù)據(jù)生態(tài)與數(shù)據(jù)智能峰會來襲 6月24日易華錄有約 ? · ? · · ? · · ? · · ? · · ? ? ? ?
    的頭像 發(fā)表于 06-23 17:51 ?1505次閱讀

    如何將SAP歸檔數(shù)據(jù)合并到數(shù)據(jù)

    存儲在傳統(tǒng) SAP 歸檔解決方案中的數(shù)據(jù)無法幫助企業(yè)做出更好的商業(yè)決策 SAP系統(tǒng)已經存在了幾十年,與大多數(shù)本地(Hadoop)或基于云的(Google, Azure, AWS)數(shù)據(jù)不同。這就
    的頭像 發(fā)表于 02-14 09:50 ?938次閱讀

    Azure Data Lake數(shù)據(jù)指南

    Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大數(shù)據(jù)分析的高度可擴展且經濟高效的數(shù)據(jù)解決方案。隨著我們繼續(xù)與客戶合作,利用 ADLS Gen2 從他們
    的頭像 發(fā)表于 05-22 18:01 ?680次閱讀
    Azure Data Lake<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>指南

    數(shù)據(jù)真的能取代數(shù)據(jù)倉庫嗎?【SNP SAP數(shù)據(jù)轉型 】

    數(shù)據(jù)數(shù)據(jù)倉庫的存在并不沖突,也并不是取代的關系,而是相互的融合關系。 數(shù)據(jù)是近兩年中比較新的技術在大
    的頭像 發(fā)表于 07-03 15:48 ?608次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>真的能取代<b class='flag-5'>數(shù)據(jù)</b>倉庫嗎?【SNP SAP<b class='flag-5'>數(shù)據(jù)</b>轉型 】

    什么是數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質上說,數(shù)據(jù)就是一個信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構和滿足的業(yè)務需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?689次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉庫有什么區(qū)別?