标签: apache-spark hadoop amazon-s3 hdfs rdd
在从AWS S3读取数据时,我无法弄清楚spark是如何决定分区数量的。
我的案子:
我正在使用Spark 1.3(对不起,但不在我手中)
我的 S3包含100个csv文件,每个文件的大小约为60-75MB,即folder1,folder2,folder3等均包含100个CSV文件
从此文件夹中读取文件时,我得到分区295-300
我希望默认分区始终为200,因为如果spark将S3数据理解为基于块的系统,则它应该读取64MB或128MB。
谢谢。