我正在处理一个包含30列(29个数字,1个非常规分类)的数据集。我对分类功能进行了热编码,并达到了35列。
为了提高训练效率,我想对数据集执行特征选择。但是,我对如何处理结合了分类和数字特征的数据集感到困惑。
- 我读到,将PCA应用于假人是不合理的
是离散的。首先在数值上应用PCA是否合理
功能然后将它们与假人连接起来?
- 我尝试实施
具有交叉验证(RFECV)的递归特征消除
整个功能空间。但是我认为删除不合理
给定一些但不是全部的虚拟特征,因为它们是由一个虚拟特征生成的
类别。
有什么建议吗?任何帮助表示赞赏。