标签: hadoop mapreduce apache-pig
在我们的系统中,我们有多个针对特定HDFS目录运行的pig脚本。猪脚本可以在不同的时间运行,并计划定期运行。
有没有办法将pig脚本指向同一个目录以进行多次执行,但是确保它只处理了以前没见过的新文件?
我正在考虑为我的装载机使用自定义PathFilter,但我想我会问是否已经有办法做到这一点,而不是重新发明轮子(!)。
答案 0 :(得分:0)
您是否尝试在处理完成后将文件移动到已处理的目录。