应用错误收集

在从AWS S3读取CSV时火花RDD分区

时间：2019-02-19 16:12:36

标签： apache-spark hadoop amazon-s3 hdfs rdd

在从AWS S3读取数据时，我无法弄清楚spark是如何决定分区数量的。

我的案子：

我正在使用Spark 1.3（对不起，但不在我手中）

我的 S3包含100个csv文件，每个文件的大小约为60-75MB，即folder1，folder2，folder3等均包含100个CSV文件

从此文件夹中读取文件时，我得到分区295-300

我希望默认分区始终为200，因为如果spark将S3数据理解为基于块的系统，则它应该读取64MB或128MB。

谢谢。

0 个答案:

没有答案