Spark Streaming窗口和水印功能,无需聚合

时间:2018-06-24 08:52:31

标签: apache-spark spark-streaming window-functions watermark

据文档了解,要使用窗口和水印功能,必须执行聚合。

就我而言,我有以下格式的日志流:

|name|type|action|received_time|....another 60 columns

我有兴趣每10分钟(12:00、12:10 ...)将数据拆分到存储桶中 如果我收到旧数据(最后一条记录的Received_time-60。),我将其抛出。 重要的是所有工作人员之间都应同步旧数据(如果worker_1处理12:50,而worker_2处理12:10,我们可以抛出11:50)

0 个答案:

没有答案