Question

所以我有一个Pandas DataFrame加载了一堆数据，但是，数据中有一些重复。存在重复的方式，使其难以删除。想象一下：

1         |a          |b         |c          |1232
2         |           |b         |c          |1232
3         |           |as        |ac         |89231

现在我希望代码能够删除第2行，因为它与第1行基本相同，但第二列是空的（第二列根据从网络上抓取数据的方式有一些空的工件），但我不希望代码删除3和1.

有什么想法吗？

Answer 1

您可以使用drop_duplicates。如果您的列名是，请说：['A', 'B', 'C', 'D', 'E']，您的数据框为df，而row 0和row 1不会在列中重复＆＃39; A＆＃39;和列＆＃39; B＆＃39;然后你可以这样做：

df.drop_duplicates(['C', 'D','E'], keep='first')

基于除列之外的所有列在Pandas中删除条件的重复项？

1 个答案: