Question

我想在每个分区中dropDuplicates，而不是完整的DataFrame。

PySpark有可能吗？感谢。

Answer 1

import pyspark.sql.functions as f
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()

基本上你使用spark_partition_id添加一个分区id的列，然后执行distinct，它将分别考虑不同的分区