基于除列之外的所有列在Pandas中删除条件的重复项?

时间:2016-10-05 22:16:52

标签: python database algorithm csv pandas

所以我有一个Pandas DataFrame加载了一堆数据,但是,数据中有一些重复。存在重复的方式,使其难以删除。想象一下:

1         |a          |b         |c          |1232
2         |           |b         |c          |1232
3         |           |as        |ac         |89231

现在我希望代码能够删除第2行,因为它与第1行基本相同,但第二列是空的(第二列根据从网络上抓取数据的方式有一些空的工件),但我不希望代码删除3和1.

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

您可以使用drop_duplicates。如果您的列名是,请说:['A', 'B', 'C', 'D', 'E'],您的数据框为df,而row 0row 1不会在列中重复' A& #39;和列' B'然后你可以这样做:

df.drop_duplicates(['C', 'D','E'], keep='first')