填写数据集中的缺失值

时间:2019-10-24 07:50:26

标签: scikit-learn data-science

我有一个如下的数据集。

building_id meter   meter_reading   primary_use square_feet air_temperature dew_temperature sea_level_pressure  wind_direction  wind_speed  hour    day weekend month
0            0  0   NaN 0   7432    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
1            1  0   NaN 0   2720    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
2            2  0   NaN 0   5376    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
3            3  0   NaN 0   23685   25.0    20.0    1019.7  0.0 0.0 0   1   4   1
4            4  0   NaN 0   116607  25.0    20.0    1019.7  0.0 0.0 0   1   4   1

您可以看到meter_reading下的值是Nan,我喜欢用“ primary_use”和“ square_feet”列分组的列均值来填充该值。我可以使用哪种API来实现这一目标。我目前正在使用scikit Learn的imputer。

非常感谢,感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

如果使用pandas数据框,它已经带来了您需要的一切。

请注意,priary_use是连续的,而square_feet是分类特征。因此,首先您想将square_feet分成几类,以便可以计算每组的平均值meter_reading