Apache Spark数据帧重新分区问题

时间:2017-09-01 09:45:48

标签: hadoop apache-spark spark-dataframe

我使用Spark 1.6,我有一个数据帧;我在下面显示的某个键上重新分区数据帧。

pairJdbcDF.repartition(pairJdbcDF.select($"Asset").distinct.count.toInt, $"Asset")

我的观察是,假设我有6个不同的键key1,key2,key3,key4,key5,key6,我正在为这6个键创建6个分区。我可以看到由火花创建的6个分区,如下所示。

Partition1: Empty
Partition2: Holds all values for key1
Partition3: Holds all values for key2,3
Partition4: Holds all values for key4
Partition5: Holds all values for key5
Partition6: Holds all values for key6

有人可以解释一下为什么spark保持1个分区为空并将2个键的记录放在单个分区中,如上图所示为分区3.这主要发生在记录数量非常少的密钥上。

0 个答案:

没有答案