我正在将带有10
分区的数据帧写入Spark的CSV文件中。写入操作结束后,我仅看到4
个文件写入了在option方法中给出的文件夹内。
但是根据概念,所有分区都应写入单个文件,即使它们为空。下面是我使用的代码:
//partitionedDataFromMySql is already available
Console println "Number of partitions are: " + partitionedDataFromMySql.rdd.getNumPartitions //prints 10
partitionedDataFromMySql.write.format("csv").option("path","E:\\xxxx\\spark\\example").save
有人可以帮助我,为什么分区数量较少。我不会在代码中的任何地方减少数据框的分区数。
谢谢!