删除伪重复的pandas

时间:2018-03-14 20:50:38

标签: python pandas

我有一个Pandas数据框,有四列< id1',' id2',' info1'和' info2'。 我希望不仅在经典意义上删除重复项,而且还要交换id1和id2。

示例:

' Joe',' Jane',1.2,' Blue'

' Jane',' Joe',1.2,' Blue'

必须视为重复。

id1和id2可以是任何类型,不仅是整数,浮点数或字符串。

1 个答案:

答案 0 :(得分:1)

ids进行排序,然后调用drop_duplicates

df[['id1', 'id2']] = np.sort(df[['id1', 'id2']], axis=1)
df.drop_duplicates(['id1', 'id2'])