Question

我有一个包含两列的数据集，一列具有分类值（State2），另一列（State）仅包含二进制值。
我使用了OneHotEncoding。

import pandas as pd

mydataset = pd.read_csv('fieldprotobackup.binetflow')

mydataset.drop_duplicates(['Proto2','Proto'], keep='first')
mydataset.to_csv('fieldprotobackup.binetflow', columns=['Proto2','Proto'], index=False)

Dataset

我想从文件中删除所有冗余。在研究过程中，我找到了命令df.drop_duplicates，但它对我不起作用。

Answer 1

您要么需要添加inplace=True参数，要么需要捕获返回的数据帧：

mydataset.drop_duplicates(['Proto2','Proto'], keep='first', inplace=True)

或

no_duplicates = mydataset.drop_duplicates(['Proto2','Proto'], keep='first')

在某些情况下无法正常工作时，最好检查documentation。

从文件中删除冗余的问题

1 个答案: