处理火花检查点文件

时间:2016-03-22 16:26:22

标签: apache-spark

我正在创建火花流媒体应用。基本上它应该从HDFS文件夹中读取文件(可能非常大),进行转换(使用滑动窗口)并将输出保存到HDFS。我正在努力寻找一种方法来检查已经处理过的文件。 FileInputDStream本身通过recentlySelectedFiles跟踪以前处理过的文件,以确定是否应在当前批处理中处理给定的文件/文件,但recentlySelectedFiles似乎不可序列化... 无论如何都有"标记"已处理的文件,所以当作业重新启动时,它将开始处理在作业停止时上传的文件,跳过已处理的文件......

0 个答案:

没有答案