如何在DataFrame.drop_duplicates()调用中获取删除的重复项列表?

时间:2018-07-22 17:16:09

标签: python pandas

我有一个带有重复项的Python DataFrame。

是否有一种简单的方法来获取重复项列表?

我了解drop_duplicates(),但似乎没有返回所丢弃的内容。

我可以通过使用哈希映射来计算出现次数来开发某些东西,但我想避免使用大量执行内置功能的自定义函数来使代码膨胀。

1 个答案:

答案 0 :(得分:0)

获取重复列表的一种方法是使用“重复”功能。它返回一个布尔值列表,指示元素是否重复。

一个例子:

from io  import StringIO
import pandas as pd

txt1 = StringIO("""card
Amex
Visa
Amex""")
monthly_df = pd.read_csv(txt1)

print(monthly_df.duplicated())

print(monthly_df[monthly_df.duplicated()])

此代码的输出是:

0    False
1    False
2     True
dtype: bool
   card
2  Amex

所以我认为您正在寻找的代码段类似于:

monthly_df[monthly_df.duplicated()]