在Spark 2

时间:2017-01-24 11:02:42

标签: apache-spark apache-spark-sql parquet

我最近将我的代码从Spark 1.6升级到Spark 2.1

我为Spark 1.6编写了一些代码

  1. 重新分区数据框,
  2. 将数据框存储为镶木地板文件
  3. 从镶木地板文件中重新加载数据框。
  4. 到目前为止,在所有这些操作中分区的数量始终是

    由于我已经升级到Spark 2.1,我可以看到使用指定数量的分区存储数据(部分文件与指定的分区一样多)。但是,当我读取镶木地板文件时,分区的数量突然完全不同。

    为什么会这样,我该如何避免这种行为?

0 个答案:

没有答案