我正在尝试使用s3cmd CLI将 32GB 文件上传到S3存储桶。它正在进行分段上传并经常失败。我是从一个带有1000mbps带宽的服务器上做的。但上传仍然很慢。我有什么办法可以加快速度吗?
另一方面,该文件位于我提到的服务器上的HDFS上。有没有办法引用Amazon Elastic Map Reduce作业从这个HDFS中获取它?它仍然是一个上传,但工作也正在执行。所以整个过程要快得多。
答案 0 :(得分:0)
首先我承认我从未使用过s3cmd的Multipart功能,所以我不能说到这一点。但是,我过去曾使用boto将大型(10-15GB文件)上传到S3并取得了很大的成功。事实上,我写了little utility以使其更容易,这对我来说变得如此普遍。
至于您的HDFS问题,您始终可以使用完全限定的URI引用HDFS路径,例如,hdfs:// {namenode}:{port} / path / to / files。这假设您的EMR集群可以访问此外部HDFS集群(可能必须使用安全组设置)