火花结构化的流传输都会延迟数据。 我每分钟都会从kafaka获取数据。我已经对流数据和静态数据进行了一些连接和聚合。我正在APPEND模式下将数据写入hdfs位置。我的问题是,我的窗口时间是1秒。
我的问题是,每当我向kafkatopic添加数据时,即使2秒后仍无法在HDFS上写入数据。spark总是等待至少3个数据到达kafka。
如果我在kafka spark上添加一些data-1不会写任何东西,因为它正在等待一些最大时间戳概念。 我添加了date-2-仍然不写任何东西。 当我添加datae-3-仍然火花不写任何东西。 当我添加data-4时-火花将data-1写入HDFS。 我正在使用以下方法将数据写入HDFS
df.writeStream.option("latestFirst", "true").option("maxFilesPerTrigger", "20").option("startingOffsets", "latest").option("checkpointLocation", "/user/sdt/sparkCheckpoint/").outputMode("append").trigger(Trigger.ProcessingTime("10 seconds")).partitionBy("date").format("csv").option("path", "hdfs://dddd/area.table1/").start().awaitTermination()
有人可以帮助您如何获取数据以及何时到达kafka吗?我在写数据时需要更改任何设置