所以我有一个Pandas DataFrame加载了一堆数据,但是,数据中有一些重复。存在重复的方式,使其难以删除。想象一下:
1 |a |b |c |1232
2 | |b |c |1232
3 | |as |ac |89231
现在我希望代码能够删除第2行,因为它与第1行基本相同,但第二列是空的(第二列根据从网络上抓取数据的方式有一些空的工件),但我不希望代码删除3和1.
有什么想法吗?
答案 0 :(得分:0)
您可以使用drop_duplicates。如果您的列名是,请说:['A', 'B', 'C', 'D', 'E']
,您的数据框为df
,而row 0
和row 1
不会在列中重复' A& #39;和列' B'然后你可以这样做:
df.drop_duplicates(['C', 'D','E'], keep='first')