我实现了带有检查点的火花流。我们会每隔5秒钟从源将文件接收到一个文件夹中。因此,我们已实现FileStream来读取文件,并且批处理间隔为5分钟。由于每个批次的文件数量过多,因此我删除了10分钟之前的文件。
但是重新启动流媒体时出现问题。它试图获取文件的路径状态。由于不存在已处理的旧文件,因此会引发“输入路径不存在”错误。
Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:
我的问题是,为什么在有检查点数据时需要再次检查处理过的文件。对于多少个旧批次,我们需要将文件保存在文件夹中,间隔为5分钟。
谢谢