应用错误收集

我想知道在构建用于特征选择的随机森林时如何处理相关变量

因此，我需要对包含分类变量和连续变量的不同数据集进行一些特征选择。我在这里有点迷惑，因为最明显的相关度量是适用于连续变量的Pearson相关系数，但是分类变量呢？

如果我想使用RF进行良好的功能选择，以下方法是否可行：

通过使用本文所述的任何技术，对连续变量进行某种类型的特征选择，而与类别变量无关：https://machinelearningmastery.com/an-introduction-to-feature-selection/

据我了解，单变量选择，RFE或PCA仅对连续变量有效。（我怀疑通过一种热编码对分类进行转换，然后再进行这些技术将是有益的）

一旦选择了连续变量，就创建一个随机森林，该森林将给出不相关的变量。

但是，分类变量可以关联吗？如果是，则仅对分类变量进行卡方检验会很有用。

最后，将连续变量的特征选择结果与cat变量的卡方检验结果相结合是一个好的解决方案吗？

感谢您的帮助，我是功能选择的新手：）