如何使用包含NaN / None值的布尔掩码过滤DataFrame

时间:2019-02-18 21:08:05

标签: python pandas numpy dataframe nan

下面是我的熊猫DataFrame:

    Id                          Guild                                     Test
0   5c5dc770f920209b94c3def3    72f92390/7f2e/4b41/b53b/393470619eca      True
1   5c5dc7707d62f8b356457863    596f57d7/c8a9/4b14/aec1/18ef2b9fa940      None
2   5c5dc770974d1a6d38cffa3a    6a7ad94c/0511/4ef9/8b60/e05158cad03c     False
3   5c5dc7709809c3452ae07d22    843d9c5f/1f53/4752/a905/0b1de73efab2      None
4   5c5dc7706c606a2118c4350b    9d63dcc5/1063/49b3/9a90/a854e7eb7398      None

当我尝试应用numpy.where时:

pdf['Id'] = np.where(bool(pdf['Test']), pdf['Id'], None)

还尝试使用numpy.equal:

pdf['Id'] = np.where(np.equal(pdf['Test'], None), None, pdf['Id'])

向我抛出错误:

  

ValueError:系列的真值不明确。使用空   a.bool(),a.item(),a.any()或a.all()。

我的目标:对Teste不是有效布尔值的ID列应用“无”。

我已经检查了以下类似问题: link One Link Two

谢谢。

1 个答案:

答案 0 :(得分:0)

这里的复杂之处在于您的“布尔值”列也没有值。

您可以将“测试”列与True进行比较。

pdf['Id'] = np.where(pdf['Test'] == True, pdf['Id'], None)
pdf    
                         Id                                 Guild   Test
0  5c5dc770f920209b94c3def3  72f92390/7f2e/4b41/b53b/393470619eca   True
1                      None  596f57d7/c8a9/4b14/aec1/18ef2b9fa940   None
2                      None  6a7ad94c/0511/4ef9/8b60/e05158cad03c  False
3                      None  843d9c5f/1f53/4752/a905/0b1de73efab2   None
4                      None  9d63dcc5/1063/49b3/9a90/a854e7eb7398   None

或者,使用loc进行分配。

pdf.loc[pdf['Test'] != True, 'Id'] = None
pdf    
                         Id                                 Guild   Test
0  5c5dc770f920209b94c3def3  72f92390/7f2e/4b41/b53b/393470619eca   True
1                      None  596f57d7/c8a9/4b14/aec1/18ef2b9fa940   None
2                      None  6a7ad94c/0511/4ef9/8b60/e05158cad03c  False
3                      None  843d9c5f/1f53/4752/a905/0b1de73efab2   None
4                      None  9d63dcc5/1063/49b3/9a90/a854e7eb7398   None