我有一个包含两列的数据集,一列具有分类值(State2
),另一列(State
)仅包含二进制值。
我使用了OneHotEncoding
。
import pandas as pd
mydataset = pd.read_csv('fieldprotobackup.binetflow')
mydataset.drop_duplicates(['Proto2','Proto'], keep='first')
mydataset.to_csv('fieldprotobackup.binetflow', columns=['Proto2','Proto'], index=False)
我想从文件中删除所有冗余。在研究过程中,我找到了命令df.drop_duplicates
,但它对我不起作用。
答案 0 :(得分:2)
您要么需要添加inplace=True
参数,要么需要捕获返回的数据帧:
mydataset.drop_duplicates(['Proto2','Proto'], keep='first', inplace=True)
或
no_duplicates = mydataset.drop_duplicates(['Proto2','Proto'], keep='first')
在某些情况下无法正常工作时,最好检查documentation。