应用错误收集

时间：2012-11-13 13:39:00

标签： hadoop amazon-s3 amazon-ec2 amazon-emr

我正在尝试使用s3cmd CLI将 32GB 文件上传到S3存储桶。它正在进行分段上传并经常失败。我是从一个带有1000mbps带宽的服务器上做的。但上传仍然很慢。我有什么办法可以加快速度吗？

另一方面，该文件位于我提到的服务器上的HDFS上。有没有办法引用Amazon Elastic Map Reduce作业从这个HDFS中获取它？它仍然是一个上传，但工作也正在执行。所以整个过程要快得多。

答案 0 :(得分：0)

首先我承认我从未使用过s3cmd的Multipart功能，所以我不能说到这一点。但是，我过去曾使用boto将大型（10-15GB文件）上传到S3并取得了很大的成功。事实上，我写了little utility以使其更容易，这对我来说变得如此普遍。

至于您的HDFS问题，您始终可以使用完全限定的URI引用HDFS路径，例如，hdfs：// {namenode}：{port} / path / to / files。这假设您的EMR集群可以访问此外部HDFS集群（可能必须使用安全组设置）