将数百万个文件从S3复制到GCS的最佳方法是什么?

时间:2014-07-10 16:40:05

标签: amazon-s3 google-cloud-storage cloud-storage

我正在寻找一种方法将大量文件(超过1000万)从S3存储桶移动到Google云端存储,但到目前为止还存在问题。

目前我正在使用gsutil,因为它本身支持S3和GCS之间的通信,但我的性能不佳。也许我只是做错了但我一直在使用以下gsutil命令:

gsutil -m cp -R s3://bucket gs://bucket

我启动了一个c3.2xlarge AWS实例(16GB 8CPU),这样我就可以拥有足够的马力但看起来这个盒子没有比2GB 2CPU盒子更好的吞吐量,我不明白?

我一直在搞乱~/.boto配置文件,目前设置了以下选项:

parallel_process_count = 8
parallel_thread_count = 100

我认为确保将线程数增加10倍会有所帮助,但到目前为止我的测试并没有产生任何影响。还有什么可以提高性能吗?

或者是否有更好的工具可以将S3数据移动到GCS?我正在看SDK,并且我很想用Java编写一些东西。

1 个答案:

答案 0 :(得分:5)

Google Cloud Storage Online Cloud Import专门用于从大量URL或S3存储桶中将大型和大量文件导入GCS。它的设计用于使用“gsutil -m”(这是首先尝试的好东西)需要太长时间的数据大小。它目前可以免费使用。

(免责声明,我是该项目的PM)