标签: sql apache-spark group-by bigdata shuffle
我希望在正确分区的GROUP BY上执行DataFrame子句,同时按照分区键列进行分组。显然,在这种情况下,由于所有相等的密钥已经驻留在相同的分区中,因此实际上不需要改组。但是,我无法弄清楚如何真正避免这种混乱,以及它是否可能。我尝试在DataFrameWriter上进行分组和分区选项,但是当我继续看到计划中的交换时,这些选项似乎没什么帮助。除了mapPartitions之外,还有什么方法可以做类似的事情吗?
GROUP BY
DataFrame
DataFrameWriter
mapPartitions