标签: apache-spark partition
我在一列中有8192个不同的条目,并且想对我的数据框重新分区,以便每个分区仅包含1个不同值的值。
使用分区并将列名作为参数,我看到8192分区中有3000个为空。使用spark 1.6.2时我没有遇到这个问题,但是spark 2.2及更高版本似乎有此问题。