我想做线性回归分析。我有多个功能。某些功能对数据中的某些项具有未分配(null)值。对于序数特征(例如“年”或“房间数”),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类功能(例如颜色或区域)? 为了更清楚,我提供了示例:
分类类型有几个特征:
Color, material, security, type, district
如果没有过多复杂的插补方法,如何在分类要素中插入空值?我被建议只将“Null”本身作为一个单独的数据变体。因此,例如在“区”栏中,“Null”将成为新的“区域”。对所有那种分类特征使用这种简单的估算是否合理,或者可能是或多或少简单,更好的插补方法存在?
答案 0 :(得分:3)
是的,您可以在分类变量中使用NULL作为新级别。如果您只需要对分类变量使用简单的插补方法,您还可以尝试使用该变量的最频繁级别(值)或对此数据集合理的一些简单规则。