在随机森林回归器中处理缺失的分类特征值的指南

时间:2016-05-13 21:20:10

标签: scikit-learn random-forest

使用随机森林回归器(或任何整体学习者)时,处理缺失分类特征值的一般准则是什么?我知道scikit learn具有估算缺失值(数值)的函数(如均值...策略或接近度)。但是,如何处理缺失的分类价值:像工业(石油,计算机,汽车,),专业(学士,硕士,博士,)。

任何建议都表示赞赏。

1 个答案:

答案 0 :(得分:1)

随机森林的发明者布莱曼和卡特勒提出了两种可能的策略(见http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):

  

随机森林有两种方法可以替换缺失值。第一种方式   很快如果第m个变量不是分类,则该方法计算   在类j中该变量的所有值的中值,然后它使用   此值将替换类中第m个变量的所有缺失值   学家如果mth变量是分类的,则替换是最多的   j类中经常出现的非缺失值。这些替换值是   称为填充。

     

替换缺失值的第二种方法在计算上更多   昂贵,但比第一个更好,甚至有   大量的缺失数据。它只替换了缺失值   训练集。它首先进行粗略和不准确的填充   缺失的值。然后它执行森林运行并计算   邻近区域。

或者,将您的标签变量搁置一分钟,您可以使用分类器中的所有功能,对具有相关分类变量的非空值的行训练分类器。然后使用此分类器在“测试集”中预测相关分类变量的值。有了更完整的数据集,您现在可以返回预测原始标签变量值的任务。