我正在预处理数据集以供决策树使用,我想删除所有重复数据(基本上是两个确切的索引)。
请记住,我是python的初学者,数据科学和Jupyter Notebook尤其如此。我试过单独运行每个索引,将其与前面的索引进行比较,如果相等,则使用df.drop从数据帧中删除它。但这不仅感觉到基本的/业余的/效率低下的,而且还...在语法上是错误的。
for i in range(0, len(cleanDF)):
if cleanDF['ResponseName'][i] == cleanDF['ResponseName'][i+1] :
cleanDF.drop([i], axis=0)
如果有帮助,错误ID为KeyError:13357。这也是我第一次使用StackOverflow,所以希望我对这个问题有足够的描述。谢谢!