检查Pyspark Dataframe中的重复项

时间:2018-05-01 19:55:16

标签: python-2.7 dataframe pyspark spark-dataframe

是否有一种简单有效的方法来检查python数据帧只是为了重复(而不是删除它们)?

我想检查一个数据框是否有基于列组合的重复,如果有,则会使该过程失败。

TIA。

3 个答案:

答案 0 :(得分:3)

如果您还想实际检查重复项,则可以

df \
    .groupby(['column1', 'column2']) \
    .count() \
    .where('count > 1') \
    .sort('count', ascending=False) \
    .show()

答案 1 :(得分:2)

最简单的方法是检查数据框中的行数是否等于删除重复项后的行数。

if df.count() > df.dropDuplicates([listOfColumns]).count():
    raise ValueError('Data has duplicates')

答案 2 :(得分:0)

检查重复项的另一种方法是:

2*i + 2 < list.size()