我正在Spark Structures Streaming中实现文件源,并且如果文件已被修改,则希望再次处理相同的文件名。基本上是对文件的更新。目前,Spark现在处理后不再处理相同的文件名。与使用Dstream的Spark Streaming相比,似乎有限。有没有办法做到这一点? Spark Structured Streaming不会在任何地方记录它,只会处理具有不同名称的新文件。
答案 0 :(得分:1)
我认为这有点像反模式,但您可以挖掘检查点数据并删除该原始文件的条目。
尝试在/ checkpoint / sources / / 文件中查找原始文件名,删除文件或条目。这可能会导致流再次获取文件名。我自己没试过。
如果这是一次性手动更新,我只需将文件名更改为新内容并将其放在源目录中。这种方法无法维护或自动化。