是否有一种简单有效的方法来检查python数据帧只是为了重复(而不是删除它们)?
我想检查一个数据框是否有基于列组合的重复,如果有,则会使该过程失败。
TIA。
答案 0 :(得分:3)
如果您还想实际检查重复项,则可以
df \
.groupby(['column1', 'column2']) \
.count() \
.where('count > 1') \
.sort('count', ascending=False) \
.show()
答案 1 :(得分:2)
最简单的方法是检查数据框中的行数是否等于删除重复项后的行数。
if df.count() > df.dropDuplicates([listOfColumns]).count():
raise ValueError('Data has duplicates')
答案 2 :(得分:0)
检查重复项的另一种方法是:
2*i + 2 < list.size()