功能工程,处理丢失的数据

时间:2019-03-06 09:36:15

标签: machine-learning classification missing-data

考虑此数据表

NumberOfAccidents   MeanDistance
1                   5
3                   0
0                   NA
0                   NA
6                   1.2
2                   0

第一个特征是事故的数量,第二个特征是这些事故到某一点的平均距离。对于零事故的记录,这显然是MeanDistance的值。但是,估算这些缺失值是不合逻辑的!

我的解决方案:我已决定将MeanDistance离散化,其中NAs是一个级别(bin),其余数据位于以下bins中:{{1 }}。决赛桌将如下所示:

[0,1), [1,2.5), [2.5, Inf)

对于这些无法估算的缺失值类型,您有何想法? 您如何解决此问题?

1 个答案:

答案 0 :(得分:1)

这实际上取决于域和您要预测的内容。即使您的解决方案很好,我也不会像您那样对其余数据进行装箱。假设NumberOfAccidents功能已经告诉了MeanDistance具有NA的值,我可能会将0推算到NA的值中(用于计算),然后保留其余数据保持不变。

尽管如此,没有必要限制自己,只需尝试其他方法,并保持能提高KPI(关键绩效指标)的方法即可。