使用随机森林进行特征选择-处理相关变量

时间:2019-06-10 00:15:55

标签: python random-forest

我想知道在构建用于特征选择的随机森林时如何处理相关变量

因此,我需要对包含分类变量和连续变量的不同数据集进行一些特征选择。我在这里有点迷惑,因为最明显的相关度量是适用于连续变量的Pearson相关系数,但是分类变量呢?

如果我想使用RF进行良好的功能选择,以下方法是否可行:

通过使用本文所述的任何技术,对连续变量进行某种类型的特征选择,而与类别变量无关:https://machinelearningmastery.com/an-introduction-to-feature-selection/

据我了解,单变量选择,RFE或PCA仅对连续变量有效。 (我怀疑通过一种热编码对分类进行转换,然后再进行这些技术将是有益的)

一旦选择了连续变量,就创建一个随机森林,该森林将给出不相关的变量。

但是,分类变量可以关联吗?如果是,则仅对分类变量进行卡方检验会很有用。

最后,将连续变量的特征选择结果与cat变量的卡方检验结果相结合是一个好的解决方案吗?

感谢您的帮助,我是功能选择的新手:)

0 个答案:

没有答案