Python Pandas df.duplicated()误报

时间:2016-11-16 20:08:14

标签: python pandas duplicates false-positive

我遇到了df.duplicated()错误地返回true的问题。当我重置索引(df.reset_index())时,df.duplicates()返回正确的结果。

这个问题是raised in 2013但是,原因尚未确定,只是解决了问题。从SQL数据库读取数据后,我现在遇到了问题。如果有人有解决方案,我将非常感激,因为我不想每次运行.duplicated()方法时都不得不求助于重置df的索引。

当我显示'复制品时,我会得到以下信息。使用df [df.duplicated()]:

name        type  code 
John Doe    A     6532  
Jane Doe    A     1124 
Rudolph Doe B     3412 

这些都不是重复的。在我执行df.reset_index()后,我得到完全不同(和正确)的结果。

我很困惑,并在互联网上寻找解决方案。我感谢任何人提供的帮助。

我正在使用最新的Pandas(0.19.1)版本。但是,我尝试使用0.18并遇到了同样的问题。

1 个答案:

答案 0 :(得分:0)

我的RAM中有一根今天死了。一旦被替换,这个问题就不再成为问题。我假设这是造成我问题的原因,因为我在更换RAM后没有任何问题。

感谢您的评论和尝试提供帮助。我真的很感激。