如何识别熊猫中的重复条目

时间:2019-07-17 01:24:53

标签: pandas

我有一个如下数据框。

     title  description 
0  mmm  mmm
1  mmm  mmm
2  mmm  mmm
3  mmm  mmm
4  mmm  mmm
5  mmm  mmm
6  mmm  mmm
7  nnn  nnn 
8  nnn  nnn
9  lll  lll
10  jjj  jjj

我想保留一个条目并删除所有其他重复条目,同时返回另一个数据框,其中包括从上述数据框中删除的条目的详细信息。

例如,输出应为;

     title  description 
0  mmm  mmm 
1  nnn  nnn
2  lll  lll
3  jjj  jjj

,并且已删除条目的详细信息应输出为;

     title  description count
0  mmm  mmm 6
1  nnn  nnn 1

我当前的代码如下。

import pandas as pd
df = pd.DataFrame({"title":["mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "nnn", "nnn", "lll", "jjj"], "description":["mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "nnn", "nnn", "lll", "jjj"]})
df.drop_duplicates()

但是,它会删除所有重复项(这不是我的意图)。

是否可以在python中的熊猫中做到这一点?

很高兴在需要时提供更多详细信息。

1 个答案:

答案 0 :(得分:1)

涉及的方法duplicated + groupby.size

第一个问题

df[~df.duplicated()]
   title description
0    mmm         mmm
7    nnn         nnn
9    lll         lll
10   jjj         jjj

第二个问题

df[df.duplicated()].groupby(['title','description']).size()
title  description
mmm    mmm            6
nnn    nnn            1
dtype: int64