如何有效地在Spark 2.2中重新分区

时间:2019-04-01 12:48:40

标签: apache-spark partition

我在一列中有8192个不同的条目,并且想对我的数据框重新分区,以便每个分区仅包含1个不同值的值。

使用分区并将列名作为参数,我看到8192分区中有3000个为空。使用spark 1.6.2时我没有遇到这个问题,但是spark 2.2及更高版本似乎有此问题。

0 个答案:

没有答案