我想验证
的结果-6
但使用火花。因此,远远增加分区数会导致相同或更差的上传速度。甚至不接近作者的1 GB /秒。当然,我的实例是M1.xlarge,没有针对网络进行优化,但仍然以1Gb /秒的速度进行评级。而且,为此目的,我只是想验证分区RDD和并行保存每个分区的好处。
我的预感是并发连接的限制,文章声称对于Windows服务器为2。我正在使用Amazon linux,我已经看到了默认情况下20个并发连接的数字。如果这是真的,我应该看到如果使用我使用的实验参数的吞吐量增加。有没有办法验证这个号码。或者,如果它很低,我会如何增加它?
答案 0 :(得分:1)
好吧,Spark-S3接口显然存在问题。我使用aws客户端和线程重复了实验,正如文章中所描述的那样,随着线程数量的增加,性能得到了明显的提升,速度的提升达到了10倍。