我有一个DataFrame df:
print df
Name | Company |
Mark |XYZ Corp |
Mark | XYZ Corp |
df = df.drop_duplicates()
print df
Name | Company |
Mark |XYZ Corp |
Mark | XYZ Corp |
我想忽略任何前导或前面的空格并删除重复项。
答案 0 :(得分:1)
使用矢量化str.strip
,然后您可以调用drop_duplicates
:
In [271]:
df['Company'] = df['Company'].str.strip()
df.drop_duplicates()
Out[271]:
Name Company
0 Mark XYZ Corp
答案 1 :(得分:1)
在删除重复项之前,您需要使用strip
删除空白区域,例如
for i, row in df.iterrows():
df.loc[i, "Company"] = df.loc[i, "Company"].strip()