我想在数据框中创建一个指标列,该指标列向我显示其他列中是否缺少值。例如:
| var_1 | var_2 | indicator|
--------------------------
| 3 | 2 | 1 |
| NaN | 4 | 2 |
| 1 | NaN | 3 |
如您所见,如果var_1和var_2中没有值丢失,则新列“ indicator”应为1;如果仅缺少var_1,则应为2;如果仅缺少var_2,则应为3。 某些代码将非常有帮助。谢谢!
答案 0 :(得分:2)
使用速度很快的np.select()
。
import numpy as np
df['indicator']=np.select([df.var_1.isnull(),df.var_2.isnull()],[2,3],1)
print(df)
var_1 var_2 indicator
0 3.0 2.0 1
1 NaN 4.0 2
2 1.0 NaN 3