所以基本上,我一直在尝试根据另一列来填充列的nan值。
比方说,我有一列称为“容纳”(表示某栋房屋可容纳多少人)的列,另一列称为“卧室”。
例如,要填充这些nan值,我发现一间房屋有1间卧室时,最常容纳的值是什么。返回的结果是,最常见的值是2。我现在要做的是用2填充对应于一居室房屋的nan值。
数据示例如下:
accommodates bathrooms bedrooms
nan 2.0 1.0
nan 2.0 1.0
nan 2.0 1.0
nan 2.0 1.0
nan 2.0 1.0
nan 2.0 1.0
... ... ...
我对其他属性也做了类似的事情,所以我尝试了以下代码:
accom_cond=((house.bedrooms==1) & (house.accommodates.isna()))
accom_val= [2,2,2,2,2,2,2,2,2,2,2,2,2,2]
house.accommodates= np.select(accom_cond,accom_val,house.accommodates)
假设在这种情况下有14个NaN值(同样,如果您知道比重复2次14次更好的方法,我会很感激的:D)
但是,它不起作用。它返回错误:
ValueError: list of cases must be same length as list of conditions
我尝试打印accom_cond以查看发生了什么,并且返回了此消息:
accom_cond
Out[156]:
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False
19 False
20 False
21 False
22 False
23 False
24 False
25 False
26 False
27 False
28 False
29 False
...
我不明白为什么它不只返回符合我定义的条件的14个空值。
有人可以帮我吗? (预先感谢您抽出宝贵的时间阅读本文!!)
答案 0 :(得分:2)
accom_cond=[((house.bedrooms==1) & (house.accommodates.isna()))]
accom_val= [2]
根据numpy.select
documentation:第一个参数是您的条件列表。第二个参数是您的选项列表。
这意味着,如果满足第一个条件,则返回第一个选项,否则,如果满足第二个条件,则返回第二个选项,依此类推。否则返回第三个参数。