从电子邮件中删除重复项并导出到csv

时间:2019-05-13 07:49:17

标签: python-3.x

我实际上正在通过python脚本清除我的电子邮件联系人数据库。但是,这样做的时候我遇到了一些问题,即使我检查是否显示了600个以上的重复项,删除重复项时数据框的形状仍然保留。您可以参考所附的代码。

我使用.drop_duplicates函数删除了重复项,并使用.shape重新显示了大小。

import pandas as pd
import numpy as np
from pandas import DataFrame

data = pd.read_csv('ToBeSort.csv')
data.shape
data['Last Name'].duplicated()
dupes = data.drop_duplicates(subset=["Last Name"], keep=False)
print(dupes.shape)
dupes.to_csv('New.csv')

在导出到新的csv之后,副本仍然浮出水面。新csv的预期输出不应包含重复的电子邮件。

0 个答案:

没有答案