应用错误收集

我希望在正确分区的GROUP BY上执行DataFrame子句，同时按照分区键列进行分组。显然，在这种情况下，由于所有相等的密钥已经驻留在相同的分区中，因此实际上不需要改组。但是，我无法弄清楚如何真正避免这种混乱，以及它是否可能。我尝试在DataFrameWriter上进行分组和分区选项，但是当我继续看到计划中的交换时，这些选项似乎没什么帮助。除了mapPartitions之外，还有什么方法可以做类似的事情吗？

避免在Spark SQL中对GROUP BY进行随机播放

0 个答案: