我有以下代码:
.join()
数据框:
df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')
所需的输出:
state county name
MS 95 Woodland Heights
MS 105 Woodland Heights
VA 179 Woodlawn
VA 775 Woodlawn
VA 179 Woodlawn
VA 775 Woodlawn
当前输出:
state county name
VA 179 Woodlawn
VA 775 Woodlawn
关于如何捕获重复数据的任何想法?
答案 0 :(得分:4)
keep=False
参数将指定列上的所有重复行标记为True
。如果每行具有'state'
,'county'
和'name'
的唯一组合,则所有行都将标记为False
。另请参见pd.DataFrame.duplicated
。
换句话说,您的结果为空,因为这3列之间没有重复项。您需要指定一些逻辑来返回True
值。