我实际上正在通过python脚本清除我的电子邮件联系人数据库。但是,这样做的时候我遇到了一些问题,即使我检查是否显示了600个以上的重复项,删除重复项时数据框的形状仍然保留。您可以参考所附的代码。
我使用.drop_duplicates函数删除了重复项,并使用.shape重新显示了大小。
import pandas as pd
import numpy as np
from pandas import DataFrame
data = pd.read_csv('ToBeSort.csv')
data.shape
data['Last Name'].duplicated()
dupes = data.drop_duplicates(subset=["Last Name"], keep=False)
print(dupes.shape)
dupes.to_csv('New.csv')
在导出到新的csv之后,副本仍然浮出水面。新csv的预期输出不应包含重复的电子邮件。