应用错误收集

在Spark 2

时间：2017-01-24 11:02:42

标签： apache-spark apache-spark-sql parquet

我最近将我的代码从Spark 1.6升级到Spark 2.1

我为Spark 1.6编写了一些代码

重新分区数据框，
将数据框存储为镶木地板文件
从镶木地板文件中重新加载数据框。

到目前为止，在所有这些操作中分区的数量始终是。

由于我已经升级到Spark 2.1，我可以看到使用指定数量的分区存储数据（部分文件与指定的分区一样多）。但是，当我读取镶木地板文件时，分区的数量突然完全不同。

为什么会这样，我该如何避免这种行为？

0 个答案:

没有答案