如何删除旧的Spark Streaming数据?

时间:2018-06-22 15:03:39

标签: apache-spark apache-kafka hdfs

如何删除旧的Spark流数据?

我们有一个火花流传输过程,它可以从kafka读取数据,转换数据并将其写入hdfs。

我们还有另一个spark流程,该流程创建spark sql查询以生成由第一个流程创建的流式传输结果。

第一个进程将检查点写入hdfs及其目录:

/commits
/metadata
/offsets
/sources

并且此过程还会在目录中创建目录/ _spark_metadata,以设置流式传输结果。

我们没有找到删除不再需要的流数据的方法。 如果我们只是删除进行流传输的文件,则第一个过程也会产生错误,第二个过程也会产生错误。如果删除目录 / _spark_metadata,搜索过程开始搜索,但是看起来很慢,并且第一个过程会产生错误,直到您删除带有元数据的目录

如何正确删除旧的Spark Streaming数据?

0 个答案:

没有答案