糟糕的s3上传性能使用spark

时间:2016-02-20 00:22:45

标签: linux networking amazon-s3 amazon-ec2 apache-spark

我想验证

的结果
-6

但使用火花。因此,远远增加分区数会导致相同或更差的上传速度。甚至不接近作者的1 GB /秒。当然,我的实例是M1.xlarge,没有针对网络进行优化,但仍然以1Gb /秒的速度进行评级。而且,为此目的,我只是想验证分区RDD和并行保存每个分区的好处。

我的预感是并发连接的限制,文章声称对于Windows服务器为2。我正在使用Amazon linux,我已经看到了默认情况下20个并发连接的数字。如果这是真的,我应该看到如果使用我使用的实验参数的吞吐量增加。有没有办法验证这个号码。或者,如果它很低,我会如何增加它?

1 个答案:

答案 0 :(得分:1)

好吧,Spark-S3接口显然存在问题。我使用aws客户端和线程重复了实验,正如文章中所描述的那样,随着线程数量的增加,性能得到了明显的提升,速度的提升达到了10倍。