最好的方法是查看哪些行在DataFrame中重复,重复行排序并堆叠在一起?我知道我可以使用df.duplicated()
或类似df[df.duplicated()==True]
的内容过滤重复项,但需要能够生成包含重复项的数据框,然后对它们进行排序以显示Dataframe中的两个记录。我也不需要为此使用col子集参数。 - 谢谢你
答案 0 :(得分:1)
一个想法是按所有列排序。虽然不确定效率如何。
In [20]: df = pd.DataFrame (np.random.randint (100,size=(3,3)), columns= list('ABC'))
In [21]: df = df.append(df, ignore_index=True)
In [22]: df
Out[22]:
A B C
0 23 71 65
1 63 0 47
2 47 13 44
3 23 71 65
4 63 0 47
5 47 13 44
In [23]: df.sort(df.columns.tolist())
Out[23]:
A B C
0 23 71 65
3 23 71 65
2 47 13 44
5 47 13 44
1 63 0 47
4 63 0 47