应用错误收集

我实现了带有检查点的火花流。我们会每隔5秒钟从源将文件接收到一个文件夹中。因此，我们已实现FileStream来读取文件，并且批处理间隔为5分钟。由于每个批次的文件数量过多，因此我删除了10分钟之前的文件。

但是重新启动流媒体时出现问题。它试图获取文件的路径状态。由于不存在已处理的旧文件，因此会引发“输入路径不存在”错误。

Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:

我的问题是，为什么在有检查点数据时需要再次检查处理过的文件。对于多少个旧批次，我们需要将文件保存在文件夹中，间隔为5分钟。

谢谢