重新启动火花流时有关未找到文件的检查点给出问题

时间:2019-07-19 08:11:36

标签: apache-spark spark-streaming

我实现了带有检查点的火花流。我们会每隔5秒钟从源将文件接收到一个文件夹中。因此,我们已实现FileStream来读取文件,并且批处理间隔为5分钟。由于每个批次的文件数量过多,因此我删除了10分钟之前的文件。

但是重新启动流媒体时出现问题。它试图获取文件的路径状态。由于不存在已处理的旧文件,因此会引发“输入路径不存在”错误。

Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:

我的问题是,为什么在有检查点数据时需要再次检查处理过的文件。对于多少个旧批次,我们需要将文件保存在文件夹中,间隔为5分钟。

谢谢

0 个答案:

没有答案