应用错误收集

按列分区并映射该分区

时间：2018-02-22 11:52:54

标签： python apache-spark pyspark pyspark-sql

我有一个Spark SQL DataFrame，并且有一个函数需要应用于partition_col相同的所有行。

到目前为止，我知道我可以将DataFrame转换为RDD并在那里应用mapPartitions。我遇到的问题是可靠地确保在mapPartitions运行时所有符合条件的实例都在同一个分区中。

我已经尝试了df.repartition(partition_col).rdd.mapPartitions(...)，但这留下了一些空的分区，所以我不相信它正在做我想要的。

0 个答案:

没有答案