使用MapR将数据从一个卷移动到另一个卷的最快方法是什么?

时间:2018-07-27 03:18:58

标签: hadoop mapr distcp

我想将数据从一个卷移动到另一个卷。文件夹和文件大小会有所不同。文件最大可以为100 GB,但是我们也可以有很多小文件。如果目标卷中该特定文件夹中有数据,则可以将其覆盖。

到目前为止,我已经尝试过(出于演示目的,已简化了代码)

   (1)for root, directories, files in os.walk(src):
        for file in files:
            mv -v <src> <dest>

   (2)hadoop distcp -overwrite -m100 <src> <dest>

少于10 GB的mv选项更快。这两个选项的容量均为10 GB时,大约需要2分钟的传输时间。

0 个答案:

没有答案