我有一个Pandas数据框,有四列< id1',' id2',' info1'和' info2'。 我希望不仅在经典意义上删除重复项,而且还要交换id1和id2。
示例:
' Joe',' Jane',1.2,' Blue'
和
' Jane',' Joe',1.2,' Blue'
必须视为重复。
id1和id2可以是任何类型,不仅是整数,浮点数或字符串。
答案 0 :(得分:1)
对ids
进行排序,然后调用drop_duplicates
:
df[['id1', 'id2']] = np.sort(df[['id1', 'id2']], axis=1)
df.drop_duplicates(['id1', 'id2'])