s3distcp - 需要很长时间才能将大量小文件从一个存储桶复制到另一个存储桶

时间:2017-05-28 09:19:49

标签: s3distcp

我需要将大量小文件从一个S3存储桶复制到另一个存储桶。我使用AWS提供的S3-Dist-Cp命令。

s3-dist-cp --src=s3://some-bucket/ --dest=s3://another-bucket/ --groupBy=<some-pattern> --targetSize=<size> --deleteOnSuccess

现在,这个命令的问题是复制所有小文件并合并它们需要永远。

注意 - 源存储桶正在通过其他工作连续写入新文件,我认为s3-dist-cp永远不会捕获最后一个文件。

此解决方案有解决方法吗? Spark作业将使用目标存储桶来处理这些文件。

0 个答案:

没有答案