我需要将大量小文件从一个S3存储桶复制到另一个存储桶。我使用AWS提供的S3-Dist-Cp命令。
s3-dist-cp --src=s3://some-bucket/ --dest=s3://another-bucket/ --groupBy=<some-pattern> --targetSize=<size> --deleteOnSuccess
现在,这个命令的问题是复制所有小文件并合并它们需要永远。
注意 - 源存储桶正在通过其他工作连续写入新文件,我认为s3-dist-cp永远不会捕获最后一个文件。
此解决方案有解决方法吗? Spark作业将使用目标存储桶来处理这些文件。