Question

我想使用类似于删除DataFrame重复项的内容。我希望专栏的顺序无关紧要。我的意思是函数shuold认为由条目'a', 'b'组成的行与由条目'b', 'a'组成的行相同。例如，给定

df = pd.DataFrame([['a', 'b'], ['c', 'd'], ['a', 'b'], ['b', 'a']])

   0  1
0  a  b
1  c  d
2  a  b
3  b  a

我想获得：

   0  1
0  a  b
1  c  d

其中首选项是效率，因为我在groupby操作中的大型数据集上运行它。

Answer 1

先调用np.sort，然后删除重复项。

df[:] = np.sort(df.values, axis=1)
df.drop_duplicates()

   0  1
0  a  b
1  c  d