在HDFS上使用Pig时,用move替换文件

时间:2018-11-20 17:07:48

标签: hdfs apache-pig

我有一个过程,可以将包含猪脚本的文件作为MapReduce2任务移动到处理文件夹中,这是hadoop工作流程的一部分。

我发现最近复制失败,导致文件部分移动。

当作业然后下一次重新运行时,出现错误,因为Pig脚本将尝试再次移动文件文件,但是由于目标位置中有文件的一部分,它将失败。猪中没有其他选项可以替换。

我可以进行复制和删除,但是这样做的风险是,在复制过程中,可以将另一个文件上载到HDFS中,这是原始复制操作中未包含的,然后当我运行删除操作时,我也会删除尚未移动到处理目录的文件。

我知道移动时没有强制替换,但是有一种方法可以创建我要从源位置移动的所有文件的列表,然后在目标位置检查它们,然后检查它们是否存在于目标中将其删除后再移动?

非常感谢您的提前帮助。

0 个答案:

没有答案