使用Spark将数据帧写入CSV文件时写入磁盘的分区数量

时间:2020-01-04 17:33:04

标签: scala apache-spark apache-spark-sql

我正在将带有10分区的数据帧写入Spark的CSV文件中。写入操作结束后,我仅看到4个文件写入了在option方法中给出的文件夹内。

但是根据概念,所有分区都应写入单个文件,即使它们为空。下面是我使用的代码:

//partitionedDataFromMySql is already available
Console println  "Number of partitions are: " + partitionedDataFromMySql.rdd.getNumPartitions  //prints 10
partitionedDataFromMySql.write.format("csv").option("path","E:\\xxxx\\spark\\example").save

有人可以帮助我,为什么分区数量较少。我不会在代码中的任何地方减少数据框的分区数。

谢谢!

0 个答案:

没有答案