Pandas脚本不删除重复项

时间:2016-10-20 20:32:56

标签: python pandas duplicates

我是Pandas的新手,我正在尝试删除一些不必要的列,然后删除重复的记录。删除列时脚本的第一部分工作。但是,脚本没有执行任务的第二部分,因为还有大量重复项。任何帮助将不胜感激。

import pandas as pd
f =pd.read_csv("filename.csv")
    keep_col =['ZIP5','STATE CODE','STATE','COUNTY CODE','COUNTY NAME','CBSA CODE','CBSA TITLE','CBSA LSAD','METRO DIVISION CODE','METRO DIVISION TITLE','METRO DIVISION LSAD','CSA CODE','CSA TITLE','CSA LSAD']
    new_f = f[keep_col]
    new_f.drop_duplicates()
    new_f.to_csv("newfile.csv", index=False)

1 个答案:

答案 0 :(得分:2)

您需要分配回来或通过inplace=True

new_f = new_f.drop_duplicates()

new_f.drop_duplicates(inplace=True)

docs说明了这一点,通常几乎所有的pandas ops都会返回一个副本,大多数都支持inplace param所以你需要分配回来覆盖或传递inplace=true支持的地方。