我想在每个分区中dropDuplicates
,而不是完整的DataFrame。
PySpark有可能吗?感谢。
答案 0 :(得分:1)
import pyspark.sql.functions as f
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()
基本上你使用spark_partition_id添加一个分区id的列,然后执行distinct,它将分别考虑不同的分区