SPARK:dropDuplicates仅限于每个分区

时间:2017-02-14 07:07:28

标签: apache-spark dataframe pyspark

我想在每个分区中dropDuplicates,而不是完整的DataFrame。

PySpark有可能吗?感谢。

1 个答案:

答案 0 :(得分:1)

import pyspark.sql.functions as f
withNoDuplicates = df.withColumn("partitionID", f.spark_partition_id()).dropDuplicates()

基本上你使用spark_partition_id添加一个分区id的列,然后执行distinct,它将分别考虑不同的分区