我正在寻找一种方法将大量文件(超过1000万)从S3存储桶移动到Google云端存储,但到目前为止还存在问题。
目前我正在使用gsutil,因为它本身支持S3和GCS之间的通信,但我的性能不佳。也许我只是做错了但我一直在使用以下gsutil命令:
gsutil -m cp -R s3://bucket gs://bucket
我启动了一个c3.2xlarge AWS实例(16GB 8CPU),这样我就可以拥有足够的马力但看起来这个盒子没有比2GB 2CPU盒子更好的吞吐量,我不明白?
我一直在搞乱~/.boto
配置文件,目前设置了以下选项:
parallel_process_count = 8
parallel_thread_count = 100
我认为确保将线程数增加10倍会有所帮助,但到目前为止我的测试并没有产生任何影响。还有什么可以提高性能吗?
或者是否有更好的工具可以将S3数据移动到GCS?我正在看SDK,并且我很想用Java编写一些东西。
答案 0 :(得分:5)
Google Cloud Storage Online Cloud Import专门用于从大量URL或S3存储桶中将大型和大量文件导入GCS。它的设计用于使用“gsutil -m”(这是首先尝试的好东西)需要太长时间的数据大小。它目前可以免费使用。
(免责声明,我是该项目的PM)