标签: hadoop amazon-web-services hdfs distcp
目前使用distcp速度很慢,需要4:16分钟来复制1小时的日志,而我写的自定义函数只需要16秒。鉴于亚马逊提供了涉及日志的s3distcp示例,我想考虑一下并测试其性能。
distcp
s3distcp
我知道distcp可以实现这一点,但可以在本地计算机上使用s3distcp将大量数据(可能是100gb +)复制到本地计算机上的hfs集群上而无需使用EMR?
亚马逊及其后续教程和文章仅将s3distcp能力作为EMR中的一个步骤进行参考。