如何删除数据框中的重复项忽略空格?

时间:2016-01-29 16:14:27

标签: python pandas

我有一个DataFrame df:

  print df

  Name | Company     |
  Mark |XYZ Corp     |
  Mark |    XYZ Corp |

  df = df.drop_duplicates()
  print df

  Name | Company     |
  Mark |XYZ Corp     |
  Mark |    XYZ Corp |

我想忽略任何前导或前面的空格并删除重复项。

2 个答案:

答案 0 :(得分:1)

使用矢量化str.strip,然后您可以调用drop_duplicates

In [271]:
df['Company'] = df['Company'].str.strip()
df.drop_duplicates()

Out[271]:
   Name   Company
0  Mark  XYZ Corp

答案 1 :(得分:1)

在删除重复项之前,您需要使用strip删除空白区域,例如

for i, row in df.iterrows():
  df.loc[i, "Company"] = df.loc[i, "Company"].strip()