我有一个如下数据框。
title description
0 mmm mmm
1 mmm mmm
2 mmm mmm
3 mmm mmm
4 mmm mmm
5 mmm mmm
6 mmm mmm
7 nnn nnn
8 nnn nnn
9 lll lll
10 jjj jjj
我想保留一个条目并删除所有其他重复条目,同时返回另一个数据框,其中包括从上述数据框中删除的条目的详细信息。
例如,输出应为;
title description
0 mmm mmm
1 nnn nnn
2 lll lll
3 jjj jjj
,并且已删除条目的详细信息应输出为;
title description count
0 mmm mmm 6
1 nnn nnn 1
我当前的代码如下。
import pandas as pd
df = pd.DataFrame({"title":["mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "nnn", "nnn", "lll", "jjj"], "description":["mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "nnn", "nnn", "lll", "jjj"]})
df.drop_duplicates()
但是,它会删除所有重复项(这不是我的意图)。
是否可以在python中的熊猫中做到这一点?
很高兴在需要时提供更多详细信息。
答案 0 :(得分:1)
涉及的方法duplicated
+ groupby.size
第一个问题
df[~df.duplicated()]
title description
0 mmm mmm
7 nnn nnn
9 lll lll
10 jjj jjj
第二个问题
df[df.duplicated()].groupby(['title','description']).size()
title description
mmm mmm 6
nnn nnn 1
dtype: int64