标签: apache-spark spark-streaming window-functions watermark
据文档了解,要使用窗口和水印功能,必须执行聚合。
就我而言,我有以下格式的日志流:
|name|type|action|received_time|....another 60 columns
我有兴趣每10分钟(12:00、12:10 ...)将数据拆分到存储桶中 如果我收到旧数据(最后一条记录的Received_time-60。),我将其抛出。 重要的是所有工作人员之间都应同步旧数据(如果worker_1处理12:50,而worker_2处理12:10,我们可以抛出11:50)