我有一个带有重复项的Python DataFrame。
是否有一种简单的方法来获取重复项列表?
我了解drop_duplicates()
,但似乎没有返回所丢弃的内容。
我可以通过使用哈希映射来计算出现次数来开发某些东西,但我想避免使用大量执行内置功能的自定义函数来使代码膨胀。
答案 0 :(得分:0)
获取重复列表的一种方法是使用“重复”功能。它返回一个布尔值列表,指示元素是否重复。
一个例子:
from io import StringIO
import pandas as pd
txt1 = StringIO("""card
Amex
Visa
Amex""")
monthly_df = pd.read_csv(txt1)
print(monthly_df.duplicated())
print(monthly_df[monthly_df.duplicated()])
此代码的输出是:
0 False
1 False
2 True
dtype: bool
card
2 Amex
所以我认为您正在寻找的代码段类似于:
monthly_df[monthly_df.duplicated()]