Spark结构化流在聚合期间延迟写入数据,并在附加模式下对流数据和静态数据进行JOIN操作

时间:2019-02-05 12:45:10

标签: spark-structured-streaming

每当出现新数据时,

火花结构化的流传输都会延迟数据。 我每分钟都会从kafaka获取数据。我已经对流数据和静态数据进行了一些连接和聚合。我正在APPEND模式下将数据写入hdfs位置。我的问题是,我的窗口时间是1秒。

我的问题是,每当我向kafkatopic添加数据时,即使2秒后仍无法在HDFS上写入数据。spark总是等待至少3个数据到达kafka。

如果我在kafka spark上添加一些data-1不会写任何东西,因为它正在等待一些最大时间戳概念。        我添加了date-2-仍然不写任何东西。        当我添加datae-3-仍然火花不写任何东西。        当我添加data-4时-火花将data-1写入HDFS。 我正在使用以下方法将数据写入HDFS

  df.writeStream.option("latestFirst", "true").option("maxFilesPerTrigger", "20").option("startingOffsets", "latest").option("checkpointLocation", "/user/sdt/sparkCheckpoint/").outputMode("append").trigger(Trigger.ProcessingTime("10 seconds")).partitionBy("date").format("csv").option("path", "hdfs://dddd/area.table1/").start().awaitTermination()

有人可以帮助您如何获取数据以及何时到达kafka吗?我在写数据时需要更改任何设置

0 个答案:

没有答案