不处理已处理的文件?

时间:2013-03-27 10:34:56

标签: hadoop mapreduce apache-pig

在我们的系统中,我们有多个针对特定HDFS目录运行的pig脚本。猪脚本可以在不同的时间运行,并计划定期运行。

有没有办法将pig脚本指向同一个目录以进行多次执行,但是确保它只处理了以前没见过的新文件?

我正在考虑为我的装载机使用自定义PathFilter,但我想我会问是否已经有办法做到这一点,而不是重新发明轮子(!)。

1 个答案:

答案 0 :(得分:0)

您是否尝试在处理完成后将文件移动到已处理的目录。