我有以下代码:
import pandas as pd
df = pd.read_csv('/home/test/cities.csv')
dupes = df.drop_duplicates(subset=['latitude', 'longitude'], keep=False)
dupes.to_csv('/home/test/results.csv')
我要删除所有重复的纬度和经度信息的记录。
输出CSV文件包含所有非重复的记录。
关于如何提取所有重复记录的任何建议?
答案 0 :(得分:4)
duplicated
drop_duplicates
的姐妹方法
these_are_the_dupes = df[df.duplicated(subset=['latitude', 'longitude'], keep=False)]