Question

我有以下代码：

.join()

数据框：

df = pd.read_csv('/pr1/test/data.csv')
dupes = df[df.duplicated(subset=['state','county', 'name'], keep=False)]
dupes.to_csv('/pr1/test/duplicates.csv')

所需的输出：

state   county      name
MS      95          Woodland Heights
MS      105         Woodland Heights
VA      179         Woodlawn
VA      775         Woodlawn
VA      179         Woodlawn
VA      775         Woodlawn

当前输出：

state   county      name
VA      179         Woodlawn
VA      775         Woodlawn

关于如何捕获重复数据的任何想法？

Answer 1

keep=False参数将指定列上的所有重复行标记为True。如果每行具有'state'，'county'和'name'的唯一组合，则所有行都将标记为False。另请参见pd.DataFrame.duplicated。

换句话说，您的结果为空，因为这3列之间没有重复项。您需要指定一些逻辑来返回True值。

熊猫重复了3个字段

1 个答案: