在从AWS S3读取CSV时火花RDD分区

时间:2019-02-19 16:12:36

标签: apache-spark hadoop amazon-s3 hdfs rdd

在从AWS S3读取数据时,我无法弄清楚spark是如何决定分区数量的。

我的案子:

我正在使用Spark 1.3(对不起,但不在我手中)

我的 S3包含100个csv文件,每个文件的大小约为60-75MB,即folder1,folder2,folder3等均包含100个CSV文件

从此文件夹中读取文件时,我得到分区295-300

我希望默认分区始终为200,因为如果spark将S3数据理解为基于块的系统,则它应该读取64MB或128MB。

谢谢。

0 个答案:

没有答案