Question

我有一个DataFrame df：

  print df

  Name | Company     |
  Mark |XYZ Corp     |
  Mark |    XYZ Corp |

  df = df.drop_duplicates()
  print df

  Name | Company     |
  Mark |XYZ Corp     |
  Mark |    XYZ Corp |

我想忽略任何前导或前面的空格并删除重复项。

Answer 1

使用矢量化str.strip，然后您可以调用drop_duplicates：

In [271]:
df['Company'] = df['Company'].str.strip()
df.drop_duplicates()

Out[271]:
   Name   Company
0  Mark  XYZ Corp

Answer 2

在删除重复项之前，您需要使用strip删除空白区域，例如

for i, row in df.iterrows():
  df.loc[i, "Company"] = df.loc[i, "Company"].strip()

如何删除数据框中的重复项忽略空格？

2 个答案: