我抓取了一个房地产网站,并希望使用线性回归将缺失的数据归因于总面积(缺失约40%)。我使用价格,房间数量,卧室,浴室和化妆间达到了最佳效果。
在房间信息中添加价格会有很大的不同。这是有道理的,因为仅房间数量并不能提供任何有关这些房间可能多大的信息。价格可以减少这种不确定性。包含模型的R ^ 2得分与不包含价格的R ^ 2得分之间存在20分的差(0.62 vs 0.82)。
我看到的问题是,我的最终模型也可能是将价格作为目标的线性回归。因此,将价格包含在预测归因总面积中似乎是错误的。结果,我的最终模型将看起来更好,但我将设计一个综合关联。这一点特别重要,因为需要替换大约40%的值。
有人反对吗?即使价格将成为最终模型的目标,我也应该保留价格作为预测缺失值的预测因素吗?
答案 0 :(得分:0)
根据上下文,我认为您是在谈论酒店价格?
根据我的经验,为预测变量值插补缺失值,确实可以显着提高R ^ 2分数,但是,插补预测变量的次数越多,观察到的结果就越少,因此对得出这样的结论:从更大的角度看待酒店价格,因为您可能永远不知道是否存在变化较大的未观察到的酒店价格,对吗?