Question

最好的方法是查看哪些行在DataFrame中重复，重复行排序并堆叠在一起？我知道我可以使用df.duplicated()或类似df[df.duplicated()==True]的内容过滤重复项，但需要能够生成包含重复项的数据框，然后对它们进行排序以显示Dataframe中的两个记录。我也不需要为此使用col子集参数。 - 谢谢你

Answer 1

一个想法是按所有列排序。虽然不确定效率如何。

In [20]: df = pd.DataFrame (np.random.randint (100,size=(3,3)), columns= list('ABC'))

In [21]: df = df.append(df, ignore_index=True)

In [22]: df
Out[22]: 
    A   B   C
0  23  71  65
1  63   0  47
2  47  13  44
3  23  71  65
4  63   0  47
5  47  13  44

In [23]: df.sort(df.columns.tolist())
Out[23]: 
    A   B   C
0  23  71  65
3  23  71  65
2  47  13  44
5  47  13  44
1  63   0  47
4  63   0  47

Python Pandas按重复行排序DataFrame

1 个答案: