如何对具有分类和数字特征的数据集进行特征选择?

时间:2020-07-14 14:43:20

标签: python pandas scikit-learn feature-selection rfe

我正在处理一个包含30列(29个数字,1个非常规分类)的数据集。我对分类功能进行了热编码,并达到了35列。 为了提高训练效率,我想对数据集执行特征选择。但是,我对如何处理结合了分类和数字特征的数据集感到困惑。

  1. 我读到,将PCA应用于假人是不合理的 是离散的。首先在数值上应用PCA是否合理 功能然后将它们与假人连接起来?
  2. 我尝试实施 具有交叉验证(RFECV)的递归特征消除 整个功能空间。但是我认为删除不合理 给定一些但不是全部的虚拟特征,因为它们是由一个虚拟特征生成的 类别。

有什么建议吗?任何帮助表示赞赏。

0 个答案:

没有答案