在HDFS中移动替换文件

时间:2017-12-05 10:32:05

标签: python hadoop hdfs

在HDFS中,尝试在处理完所有子目录/文件后移动目录。

通过python的hadoop -mv模块使用subprocess命令。

我的问题是,具有相同名称的目录可以再次用于处理不同的文件集。 hadoop -mv因文件存在错误而失败。

循环遍历完整目录并移动不存在的文件会使进程变慢,因为给定目录中可能有很多子目录

是否有标准的方法来移动文件以实现移动/替换功能?

或者,如果有任何其他标准方式处理已处理的文件/目录

,则可以关注

我的目录结构: 新的未处理文件 - / new / YEAR / MONTH / DAY / ID /文件 处理过的文件 - /处理/年/月/日/ ID /文件

在DAY中的所有文件都被处理后,文件将被移动到处理

0 个答案:

没有答案