根据2个条件,用一定的数值​​填充多个NaN值

时间:2019-02-10 10:44:24

标签: python pandas numpy nan data-cleaning

所以基本上,我一直在尝试根据另一列来填充列的nan值。

比方说,我有一列称为“容纳”(表示某栋房屋可容纳多少人)的列,另一列称为“卧室”。

例如,要填充这些nan值,我发现一间房屋有1间卧室时,最常容纳的值是什么。返回的结果是,最常见的值是2。我现在要做的是用2填充对应于一居室房屋的nan值。

数据示例如下:

 accommodates bathrooms  bedrooms
    nan         2.0       1.0
    nan         2.0       1.0
    nan         2.0       1.0
    nan         2.0       1.0
    nan         2.0       1.0
    nan         2.0       1.0
    ...         ...       ...

我对其他属性也做了类似的事情,所以我尝试了以下代码:

accom_cond=((house.bedrooms==1) & (house.accommodates.isna()))
accom_val= [2,2,2,2,2,2,2,2,2,2,2,2,2,2]

house.accommodates= np.select(accom_cond,accom_val,house.accommodates)

假设在这种情况下有14个NaN值(同样,如果您知道比重复2次14次更好的方法,我会很感激的:D)

但是,它不起作用。它返回错误:

ValueError: list of cases must be same length as list of conditions

我尝试打印accom_cond以查看发生了什么,并且返回了此消息:

accom_cond
Out[156]: 
0       False
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28      False
29      False
        ...

我不明白为什么它不只返回符合我定义的条件的14个空值。

有人可以帮我吗? (预先感谢您抽出宝贵的时间阅读本文!!)

1 个答案:

答案 0 :(得分:2)

 accom_cond=[((house.bedrooms==1) & (house.accommodates.isna()))]
 accom_val= [2]

根据numpy.select documentation:第一个参数是您的条件列表。第二个参数是您的选项列表。
这意味着,如果满足第一个条件,则返回第一个选项,否则,如果满足第二个条件,则返回第二个选项,依此类推。否则返回第三个参数。