考虑此数据表
NumberOfAccidents MeanDistance
1 5
3 0
0 NA
0 NA
6 1.2
2 0
第一个特征是事故的数量,第二个特征是这些事故到某一点的平均距离。对于零事故的记录,这显然是MeanDistance
的值。但是,估算这些缺失值是不合逻辑的!
我的解决方案:我已决定将MeanDistance
离散化,其中NAs
是一个级别(bin),其余数据位于以下bins中:{{1 }}。决赛桌将如下所示:
[0,1), [1,2.5), [2.5, Inf)
对于这些无法估算的缺失值类型,您有何想法? 您如何解决此问题?
答案 0 :(得分:1)
这实际上取决于域和您要预测的内容。即使您的解决方案很好,我也不会像您那样对其余数据进行装箱。假设NumberOfAccidents
功能已经告诉了MeanDistance
具有NA
的值,我可能会将0
推算到NA
的值中(用于计算),然后保留其余数据保持不变。
尽管如此,没有必要限制自己,只需尝试其他方法,并保持能提高KPI
(关键绩效指标)的方法即可。