Spark结构化流处理以前的文件

时间:2018-03-13 22:21:19

标签: scala apache-spark

我正在Spark Structures Streaming中实现文件源,并且如果文件已被修改,则希望再次处理相同的文件名。基本上是对文件的更新。目前,Spark现在处理后不再处理相同的文件名。与使用Dstream的Spark Streaming相比,似乎有限。有没有办法做到这一点? Spark Structured Streaming不会在任何地方记录它,只会处理具有不同名称的新文件。

1 个答案:

答案 0 :(得分:1)

我认为这有点像反模式,但您可以挖掘检查点数据并删除该原始文件的条目。

尝试在/ checkpoint / sources / / 文件中查找原始文件名,删除文件或条目。这可能会导致流再次获取文件名。我自己没试过。

如果这是一次性手动更新,我只需将文件名更改为新内容并将其放在源目录中。这种方法无法维护或自动化。