处理回归(机器学习)中分类特征的未分配(null)值?

时间:2015-12-04 19:12:35

标签: null machine-learning regression linear-regression categorical-data

我想做线性回归分析。我有多个功能。某些功能对数据中的某些项具有未分配(null)值。对于序数特征(例如“年”或“房间数”),我可以使用平均值插补并用数据的平均值替换所有空值。但是如何处理分类功能(例如颜色或区域)? 为了更清楚,我提供了示例:enter image description here

分类类型有几个特征:

Color, material, security, type, district

如果没有过多复杂的插补方法,如何在分类要素中插入空值?我被建议只将“Null”本身作为一个单独的数据变体。因此,例如在“区”栏中,“Null”将成为新的“区域”。对所有那种分类特征使用这种简单的估算是否合理,或者可能是或多或少简单,更好的插补方法存在?

1 个答案:

答案 0 :(得分:3)

是的,您可以在分类变量中使用NULL作为新级别。如果您只需要对分类变量使用简单的插补方法,您还可以尝试使用该变量的最频繁级别(值)或对此数据集合理的一些简单规则。