Question

我有一个如下数据框。

     title  description 
0  mmm  mmm
1  mmm  mmm
2  mmm  mmm
3  mmm  mmm
4  mmm  mmm
5  mmm  mmm
6  mmm  mmm
7  nnn  nnn 
8  nnn  nnn
9  lll  lll
10  jjj  jjj

我想保留一个条目并删除所有其他重复条目，同时返回另一个数据框，其中包括从上述数据框中删除的条目的详细信息。

例如，输出应为；

     title  description 
0  mmm  mmm 
1  nnn  nnn
2  lll  lll
3  jjj  jjj

，并且已删除条目的详细信息应输出为；

     title  description count
0  mmm  mmm 6
1  nnn  nnn 1

我当前的代码如下。

import pandas as pd
df = pd.DataFrame({"title":["mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "nnn", "nnn", "lll", "jjj"], "description":["mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "mmm", "nnn", "nnn", "lll", "jjj"]})
df.drop_duplicates()

但是，它会删除所有重复项（这不是我的意图）。

是否可以在python中的熊猫中做到这一点？

很高兴在需要时提供更多详细信息。

Answer 1

涉及的方法duplicated + groupby.size

第一个问题

df[~df.duplicated()]
   title description
0    mmm         mmm
7    nnn         nnn
9    lll         lll
10   jjj         jjj

第二个问题

df[df.duplicated()].groupby(['title','description']).size()
title  description
mmm    mmm            6
nnn    nnn            1
dtype: int64

如何识别熊猫中的重复条目

1 个答案: