Pandas - 使用.isnull(),notnull(),dropna()

时间:2016-09-06 02:50:00

标签: python pandas

这真的很奇怪。我已经尝试了几种方法从pandas数据帧中删除丢失数据的行,但它们似乎都没有工作。 这是代码(我只是取消了使用的方法之一 - 但这些是我在不同修改中使用的三种 - 这是最新的):

import pandas as pd
Test = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,'NaN',4,5],'C':[1,2,3,'NaT',5]})
print(Test)
#Test = Test.ix[Test.C.notnull()]
#Test = Test.dropna()
Test = Test[~Test[Test.columns.values].isnull()]
print "And now"
print(Test)

但在所有情况下,我得到的只是:

   A    B    C
0  1    1    1
1  2    2    2
2  3  NaN    3
3  4    4  NaT
4  5    5    5
And now
   A    B    C
0  1    1    1
1  2    2    2
2  3  NaN    3
3  4    4  NaT
4  5    5    5

我有什么错误吗?或者问题是什么?理想情况下,我想得到这个:

   A    B    C
0  1    1    1
1  2    2    2
4  5    5    5

2 个答案:

答案 0 :(得分:13)

您的示例DF有NaNNaT作为.dropna.notnull和co的字符串。不会考虑假,所以根据你的例子,你可以使用......

df[~df.isin(['NaN', 'NaT']).any(axis=1)]

这给了你:

   A  B  C
0  1  1  1
1  2  2  2
4  5  5  5

如果你有DF这样的(注意使用np.nannp.datetime64('NaT')而不是字符串:

df = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,np.nan,4,5],'C':[1,2,3,np.datetime64('NaT'),5]})

然后运行df.dropna()给你:

   A    B  C
0  1  1.0  1
1  2  2.0  2
4  5  5.0  5

请注意,列B现在是float,而不是存储NaN值所需的整数。

答案 1 :(得分:10)

在原始数据上试试这个:

Test.replace(["NaN", 'NaT'], np.nan, inplace = True)
Test = Test.dropna()
Test

或修改数据并执行此操作

import pandas as pd
import numpy as np 

Test = pd.DataFrame({'A':[1,2,3,4,5],'B':[1,2,np.nan,4,5],'C':[1,2,3,pd.NaT,5]})
print(Test)
Test = Test.dropna()
print(Test)



   A    B  C
0  1  1.0  1
1  2  2.0  2
4  5  5.0  5