应用错误收集

我使用Spark 1.6，我有一个数据帧;我在下面显示的某个键上重新分区数据帧。

pairJdbcDF.repartition(pairJdbcDF.select($"Asset").distinct.count.toInt, $"Asset")

我的观察是，假设我有6个不同的键key1，key2，key3，key4，key5，key6，我正在为这6个键创建6个分区。我可以看到由火花创建的6个分区，如下所示。

Partition1: Empty
Partition2: Holds all values for key1
Partition3: Holds all values for key2,3
Partition4: Holds all values for key4
Partition5: Holds all values for key5
Partition6: Holds all values for key6

有人可以解释一下为什么spark保持1个分区为空并将2个键的记录放在单个分区中，如上图所示为分区3.这主要发生在记录数量非常少的密钥上。

Apache Spark数据帧重新分区问题

0 个答案: