从S3下载大型卷到本地机器? - s3distcp

时间:2015-07-08 21:26:03

标签: hadoop amazon-web-services hdfs distcp

目前使用distcp速度很慢,需要4:16分钟来复制1小时的日志,而我写的自定义函数只需要16秒。鉴于亚马逊提供了涉及日志的s3distcp示例,我想考虑一下并测试其性能。

我知道distcp可以实现这一点,但可以在本地计算机上使用s3distcp将大量数据(可能是100gb +)复制到本地计算机上的hfs集群上而无需使用EMR?

亚马逊及其后续教程和文章仅将s3distcp能力作为EMR中的一个步骤进行参考。

0 个答案:

没有答案