删除仅显示唯一的所有重复数据

时间:2017-05-02 16:42:21

标签: pandas

我有一个数据集:

import pandas as pd
data = pd.read_csv('email_list.csv')
new_data = data[['Email Address','First Name','Last Name']]

            Email Address         First Name       Last Name
0               zoe@gmail.com                Zoé          Z
1              yvonne@yahoo.com            Yvonne         T
2             Whitney@gmail.com           Whitney         W
3                 zoe@gmail.com               Zoe         Z
4              yvonne@yahoo.com            Yvonne         T

我希望输出只显示我独特的电子邮件和名称。所以从上面的短列表中输出应该是:

  Email Address             First Name     Last Name
1 Whitney@gmail.com           Whitney         W

我该怎么做?最简单的方法是最好的。

1 个答案:

答案 0 :(得分:2)

这是您要搜索的内容:

df.drop_duplicates(keep=False)

drop_duplicates删除数据框中的dupes。强大的keep参数可让您调整要保留的内容和要删除的内容。如果参数为false,则删除所有dupes。