Python Pandas按重复行排序DataFrame

时间:2014-06-12 01:21:52

标签: python pandas

最好的方法是查看哪些行在DataFrame中重复,重复行排序并堆叠在一起?我知道我可以使用df.duplicated()或类似df[df.duplicated()==True]的内容过滤重复项,但需要能够生成包含重复项的数据框,然后对它们进行排序以显示Dataframe中的两个记录。我也不需要为此使用col子集参数。 - 谢谢你

1 个答案:

答案 0 :(得分:1)

一个想法是按所有列排序。虽然不确定效率如何。

In [20]: df = pd.DataFrame (np.random.randint (100,size=(3,3)), columns= list('ABC'))

In [21]: df = df.append(df, ignore_index=True)

In [22]: df
Out[22]: 
    A   B   C
0  23  71  65
1  63   0  47
2  47  13  44
3  23  71  65
4  63   0  47
5  47  13  44

In [23]: df.sort(df.columns.tolist())
Out[23]: 
    A   B   C
0  23  71  65
3  23  71  65
2  47  13  44
5  47  13  44
1  63   0  47
4  63   0  47