熊猫重复了3个字段

时间:2018-10-01 19:12:37

标签: python python-3.x pandas csv dataframe

我有以下代码:

.join()

数据框:

df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')

所需的输出:

state   county      name
MS      95          Woodland Heights
MS      105         Woodland Heights
VA      179         Woodlawn
VA      775         Woodlawn
VA      179         Woodlawn
VA      775         Woodlawn

当前输出:

state   county      name
VA      179         Woodlawn
VA      775         Woodlawn

关于如何捕获重复数据的任何想法?

1 个答案:

答案 0 :(得分:4)

keep=False参数将指定列上的所有重复行标记为True。如果每行具有'state''county''name'的唯一组合,则所有行都将标记为False。另请参见pd.DataFrame.duplicated

换句话说,您的结果为空,因为这3列之间没有重复项。您需要指定一些逻辑来返回True值。