我想知道在构建用于特征选择的随机森林时如何处理相关变量
因此,我需要对包含分类变量和连续变量的不同数据集进行一些特征选择。我在这里有点迷惑,因为最明显的相关度量是适用于连续变量的Pearson相关系数,但是分类变量呢?
如果我想使用RF进行良好的功能选择,以下方法是否可行:
通过使用本文所述的任何技术,对连续变量进行某种类型的特征选择,而与类别变量无关:https://machinelearningmastery.com/an-introduction-to-feature-selection/
据我了解,单变量选择,RFE或PCA仅对连续变量有效。 (我怀疑通过一种热编码对分类进行转换,然后再进行这些技术将是有益的)
一旦选择了连续变量,就创建一个随机森林,该森林将给出不相关的变量。
但是,分类变量可以关联吗?如果是,则仅对分类变量进行卡方检验会很有用。
最后,将连续变量的特征选择结果与cat变量的卡方检验结果相结合是一个好的解决方案吗?
感谢您的帮助,我是功能选择的新手:)