标签: apache-spark apache-spark-sql parquet
我最近将我的代码从Spark 1.6升级到Spark 2.1
我为Spark 1.6编写了一些代码
到目前为止,在所有这些操作中分区的数量始终是。
由于我已经升级到Spark 2.1,我可以看到使用指定数量的分区存储数据(部分文件与指定的分区一样多)。但是,当我读取镶木地板文件时,分区的数量突然完全不同。
为什么会这样,我该如何避免这种行为?