欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Spark結構化流中的加水位線方法

汽車玩家 ? 來源:今日頭條 ? 作者:聞數起舞 ? 2020-05-03 17:28 ? 次閱讀

對于流處理引擎來說,處理延遲到達的事件是至關重要的功能。 解決這個問題的方法是加水位線的概念。 從Spark 2.1開始,結構化流API就支持它。

什么是水位線?

加水位線是一種有用的方法,可幫助流處理引擎處理延遲。 基本上,水印是一個閾值,用于指定系統(tǒng)等待延遲事件的時間。 如果到達事件位于水位線之內,它將用于更新查詢。 否則,如果它早于水位線,它將被丟棄,并且流引擎不會對其進行進一步處理。

> Flooding watermarks

如何使用它?

自Spark 2.1起,水位線被引入到結構化流API中。 您可以通過將withWatermark-Operator添加到查詢中來啟用它:

withWatermark(eventTime:String,delayThreshold:String):數據集[T]

它需要兩個參數,a)一個事件時間列(必須與聚合正在處理的列相同)和b)一個閾值,用于指定應處理多長時間的延遲數據(以事件時間為單位)。 然后,Spark將維持聚合狀態(tài),直到max eventTime — delayThreshold> T,其中max eventTime是引擎看到的最新事件時間,T是窗口的開始時間。 如果后期數據落入此閾值之內,則查詢將最終得到更新(下圖中的右圖)。 否則,它將被丟棄,并且不會觸發(fā)任何重新處理(下圖中的左圖)。

Spark結構化流中的加水位線方法

Spark結構化流中的加水位線方法

> Late donkey in structured word count: event dropped (left), event within watermark updates Window

值得一提的是,查詢的輸出模式必須設置為"追加"(默認)或"更新"。完全模式不能與設計中的水印結合使用,因為它需要所有 要保存的數據,用于將整個結果表輸出到接收器。

可以在這里找到如何在簡單的Spark結構化流應用程序中使用該概念的快速演示-它是字數統(tǒng)計(對NLP進行了一些小的增強),還有其他:D

但是,為什么我要關心?

在分布式和聯(lián)網的系統(tǒng)中,總會有中斷的機會-節(jié)點故障,傳感器丟失連接等等。 因此,不能保證數據將按創(chuàng)建順序到達流處理引擎。 為了容錯,因此有必要處理此類亂序數據。

為了解決此問題,必須保留聚合狀態(tài)。 如果發(fā)生延遲事件,則可以重新處理查詢。 但這意味著所有聚合的狀態(tài)必須無限期地保持,這也導致內存使用量也無限期地增長。 除非系統(tǒng)具有無限的資源(即無限的預算),否則在現實世界中這是不切實際的。 因此,加水位線是一個有用的概念,可以通過設計約束系統(tǒng)并防止其在運行時爆炸。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • API
    API
    +關注

    關注

    2

    文章

    1518

    瀏覽量

    62459
  • SPARK
    +關注

    關注

    1

    文章

    105

    瀏覽量

    19992
收藏 人收藏

    評論

    相關推薦

    河道水位流量一體在線監(jiān)測系統(tǒng):快速響應水位變化,保障城市安全

    河道,是城市生態(tài)的重要脈絡,其水位流量的變化與城市安全息息相關。極端天氣增多,河道水情越發(fā)復雜,傳統(tǒng)監(jiān)測方式難以及時準確掌握動態(tài)。河道水位流量一體在線監(jiān)測系統(tǒng)應運而生,以快速響應水位
    的頭像 發(fā)表于 01-13 09:42 ?143次閱讀
    河道<b class='flag-5'>水位</b>流量一體<b class='flag-5'>化</b>在線監(jiān)測系統(tǒng):快速響應<b class='flag-5'>水位</b>變化,保障城市安全

    結構化布線在AI數據中心的關鍵作用

    AI 正在不斷顛覆各行各業(yè),推動從電影制作到金融行業(yè)等各個領域的創(chuàng)新。而在 AI 系統(tǒng)的背后,隱藏著這樣一位無名英雄:結構化布線。
    的頭像 發(fā)表于 11-21 16:51 ?471次閱讀

    投入式水位計如何監(jiān)測河湖水位

    在對河湖水位進行監(jiān)測的眾多手段,投入式水位計發(fā)揮著重要作用。那么,投入式水位計究竟是如何實現對河湖水位的準確監(jiān)測呢?下面是南京峟思工程儀器
    的頭像 發(fā)表于 11-18 16:42 ?225次閱讀
    投入式<b class='flag-5'>水位</b>計如何監(jiān)測河湖<b class='flag-5'>水位</b>

    基于分布式對象存儲WDS的信托非結構化數據整合平臺

    基于分布式對象存儲WDS的信托非結構化數據整合平臺
    的頭像 發(fā)表于 08-28 09:56 ?419次閱讀
    基于分布式對象存儲WDS的信托非<b class='flag-5'>結構化</b>數據整合平臺

    spark運行的基本流程

    前言: 由于最近對spark的運行流程非常感興趣,所以閱讀了《Spark大數據處理:技術、應用與性能優(yōu)化》一書。通過這本書的學習,了解了spark的核心技術、實際應用場景以及性能優(yōu)化的方法
    的頭像 發(fā)表于 07-02 10:31 ?489次閱讀
    <b class='flag-5'>spark</b>運行的基本流程

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源的分布式計算框架,由UC Berkeley AMP Lab開發(fā),可用于批處理、交互式查詢(Spark SQL)、實時
    的頭像 發(fā)表于 06-28 17:12 ?769次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    水位傳感器怎么測好壞

    水位傳感器是一種檢測水位變化的傳感器,廣泛應用于工業(yè)、農業(yè)、城市供水等領域。本文將詳細介紹水位傳感器的工作原理、類型、性能指標、安裝方法以及如何檢測
    的頭像 發(fā)表于 06-19 10:38 ?2150次閱讀

    定期維護結構化布線對于辦公室得重要性

    最大限度地減少網絡停機時間,確保最佳性能,并延長基礎設施的使用壽命。忽視維護可能會導致連接問題、數據傳輸速度變慢,甚至整個系統(tǒng)故障。 投入時間和資源進行結構化布線維護是一種積極主動的方法,從長遠來看,可以節(jié)省
    的頭像 發(fā)表于 06-14 10:44 ?288次閱讀

    什么是結構化網絡布線?結構化網絡布線有哪些好處?

    在電纜領域,結構化網絡布線這個術語經常被提及。人們將其用作流行語,但它的真正含義是什么?結構化布線到底是什么? 為了了解真正的含義,讓我們看它的一些相關定義。 根據光纖協(xié)會的說法,結構化布線是由
    的頭像 發(fā)表于 04-11 11:54 ?599次閱讀

    結構化布線的好處多嗎

    結構化布線是網絡系統(tǒng)的重要組成部分,因為它為數據傳輸提供了強大、可擴展且可靠的基礎。通過遵守全球公認的標準,結構化布線可促進高速連接、簡化故障排除并確保未來的可擴展性??紤]到這些優(yōu)勢,企業(yè)應優(yōu)先
    的頭像 發(fā)表于 04-07 11:15 ?498次閱讀

    什么是網絡系統(tǒng)結構化布線?

    。 什么是結構化布線? 結構化布線是指旨在支持網絡性能和可靠性的建筑基礎設施。它包含許多標準的較小元件(結構化)和各種組件,包括電纜、連接器、機架和接線板,所有這些都安裝在預定義的分
    的頭像 發(fā)表于 04-07 10:58 ?482次閱讀

    Spark基于DPU Snappy壓縮算法的異構加速方案

    Spark 在某些工作負載方面表現得更加優(yōu)越。換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark SQL是Spark的計算模塊
    的頭像 發(fā)表于 03-26 17:06 ?877次閱讀
    <b class='flag-5'>Spark</b>基于DPU Snappy壓縮算法的異構加速方案

    RDMA技術在Apache Spark的應用

    背景介紹 在當今數據驅動的時代,Apache?Spark已經成為了處理大規(guī)模數據集的首選框架。作為一個開源的分布式計算系統(tǒng),Spark因其高效的大數據處理能力而在各行各業(yè)中廣受歡迎。無論是金融服務
    的頭像 發(fā)表于 03-25 18:13 ?1613次閱讀
    RDMA技術在Apache <b class='flag-5'>Spark</b><b class='flag-5'>中</b>的應用

    基于DPU和HADOS-RACE加速Spark 3.x

    、Python、Java、Scala、R)等特性在大數據計算領域被廣泛使用。其中,Spark SQL 是 Spark 生態(tài)系統(tǒng)的一個重要組件,它允許用戶以結構化數據的方式進行數據處理
    的頭像 發(fā)表于 03-25 18:12 ?1431次閱讀
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x

    水位傳感器怎么調水位高低

    水位傳感器是一種用于測量液體水位高低的設備,廣泛應用于各種工業(yè)、農業(yè)和家用領域。調整水位的高低對于確保設備的正常運行和合理利用水資源非常重要。在本篇文章,我們將詳細介紹
    的頭像 發(fā)表于 02-14 16:23 ?3871次閱讀