如何处理Pandas数据框中的重复条目?

时间:2015-09-21 14:56:52

标签: python pandas

我有一个带有以下条目的df

ID            FIRST_NAME    FIRST_SUBJECT     SECOND_SUBJECT
A2035559    Sometsdf        Science
A2035559    Sometsdf        ENGINEERING
A20340619   Nsdsjes         MATHS
A20340619   Nsdsjes         SCIENCE

我想通过列'ID'识别重复行并删除重复行,但将'FIRST_SUBJECT'从已删除行移动到原始行的'SECOND_SUBJECT'列。所以我有这个。

ID            FIRST_NAME    FIRST_SUBJECT     SECOND_SUBJECT
A2035559    Sometsdf        Science            ENGINEERING
A20340619   Nsdsjes         MATHS              SCIENCE

这对我来说似乎很棘手,我开始尝试按“ID”对dataFrame进行排序,但我的所有ID都以“A”开头,因此无效。我该如何实现这一目标?

我有另一个想法,我正在尝试,

我创建了dataFrame,df1和df2的两个副本。因为,我最多只有一个副本(即同一行的两个副本),我通过分别取df1和df2中的最后一个和第一个来删除重复,然后尝试合并这两个副本。

  df1 = df.drop_duplicates('ID' , take_last=False)
  df2 = df.drop_duplicates('ID' , take_last=True)

  df1['SECOND_SUBJECT'] = df2['FIRST_SUBJECT']

这会有用吗?

1 个答案:

答案 0 :(得分:1)

我不是真正的Python或熊猫开发者,所以不要把它当作“正确的”方式(我确定它不是 - 而且我对第一/第二主题的这种方法持怀疑态度而不是更一般的映射架构) - 这不会很好地扩展到3个以上的主题。

data = {
    'ID': ['A2035559', 'A20340619', 'A2035559', 'A20340619'],
    'FIRST_NAME': ['Sometsdf', 'Nsdsjes', 'Sometsdf', 'Nsdsjes'],
    'FIRST_SUBJECT': ['SCIENCE', 'MATHS', 'ENGINEERING', 'SCIENCE'],
    'SECOND_SUBJECT': [None, None, None, None]
}

d = pandas.DataFrame(data=data, columns=['ID', 'FIRST_NAME', 'FIRST_SUBJECT', 'SECOND_SUBJECT'])

dup_first = d.drop_duplicates(subset=['ID'], take_last=True)
dup_last = d.drop_duplicates(subset=['ID'], take_last=False)

for row in dup_last['ID']:
    dup_first.loc[dup_first['ID'] == row, 'SECOND_SUBJECT'] = dup_last.loc[dup_last['ID'] == row, 'FIRST_SUBJECT'].values[0]

dup_first

可生产

ID         FIRST_NAME  FIRST_SUBJECT  SECOND_SUBJECT
A2035559   Sometsdf    ENGINEERING    SCIENCE
A20340619  Nsdsjes     SCIENCE        MATHS