使用随机森林回归器(或任何整体学习者)时,处理缺失分类特征值的一般准则是什么?我知道scikit learn具有估算缺失值(数值)的函数(如均值...策略或接近度)。但是,如何处理缺失的分类价值:像工业(石油,计算机,汽车,无),专业(学士,硕士,博士,无)。
任何建议都表示赞赏。
答案 0 :(得分:1)
随机森林的发明者布莱曼和卡特勒提出了两种可能的策略(见http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):
随机森林有两种方法可以替换缺失值。第一种方式 很快如果第m个变量不是分类,则该方法计算 在类j中该变量的所有值的中值,然后它使用 此值将替换类中第m个变量的所有缺失值 学家如果mth变量是分类的,则替换是最多的 j类中经常出现的非缺失值。这些替换值是 称为填充。
替换缺失值的第二种方法在计算上更多 昂贵,但比第一个更好,甚至有 大量的缺失数据。它只替换了缺失值 训练集。它首先进行粗略和不准确的填充 缺失的值。然后它执行森林运行并计算 邻近区域。
或者,将您的标签变量搁置一分钟,您可以使用分类器中的所有功能,对具有相关分类变量的非空值的行训练分类器。然后使用此分类器在“测试集”中预测相关分类变量的值。有了更完整的数据集,您现在可以返回预测原始标签变量值的任务。