我有一个如下的数据集。
building_id meter meter_reading primary_use square_feet air_temperature dew_temperature sea_level_pressure wind_direction wind_speed hour day weekend month
0 0 0 NaN 0 7432 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
1 1 0 NaN 0 2720 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
2 2 0 NaN 0 5376 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
3 3 0 NaN 0 23685 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
4 4 0 NaN 0 116607 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
您可以看到meter_reading下的值是Nan,我喜欢用“ primary_use”和“ square_feet”列分组的列均值来填充该值。我可以使用哪种API来实现这一目标。我目前正在使用scikit Learn的imputer。
非常感谢,感谢您的帮助。
答案 0 :(得分:0)
如果使用pandas数据框,它已经带来了您需要的一切。
请注意,priary_use
是连续的,而square_feet
是分类特征。因此,首先您想将square_feet
分成几类,以便可以计算每组的平均值meter_reading
。