应用错误收集

如何删除旧的Spark流数据？

我们有一个火花流传输过程，它可以从kafka读取数据，转换数据并将其写入hdfs。

我们还有另一个spark流程，该流程创建spark sql查询以生成由第一个流程创建的流式传输结果。

第一个进程将检查点写入hdfs及其目录：

/commits
/metadata
/offsets
/sources

并且此过程还会在目录中创建目录/ _spark_metadata，以设置流式传输结果。

我们没有找到删除不再需要的流数据的方法。如果我们只是删除进行流传输的文件，则第一个过程也会产生错误，第二个过程也会产生错误。如果删除目录 / _spark_metadata，搜索过程开始搜索，但是看起来很慢，并且第一个过程会产生错误，直到您删除带有元数据的目录

如何正确删除旧的Spark Streaming数据？