我对集合功能选择有疑问。
我的数据集由1000个样本组成,具有约30000个特征,它们分为标签A或标签B. 我想要做的是选择一些可以有效分类标签的功能。
我使用了三种方法,单变量方法(Pearson系数),套索回归和SVM-RFE(递归特征消除),所以我从中得到了三个特征集。我使用python scikit-learn进行特征选择。
然后我考虑了合奏特征选择方法,因为特征的大小是如此之大。在这种情况下,使用3个功能集制作集成子集的方法是什么?
我能想到的是将集合联合起来并再次使用套索回归或SVM-RFE,或者只是采用集合的交集。
任何人都可以提出想法吗?
答案 0 :(得分:1)
我猜你做的事情取决于你以后如何使用这些功能。如果您的目标是"有效地对标签进行分类"您可以做的一件事是使用您的分类算法(即SVC,Lasso等)作为包装并执行Recursive Feature Elimination (RFE) with cross-validation。
您可以从您使用的前三种方法的特征联合开始,或从头开始为您想要适合的给定类型的模型开始,因为示例的数量很少。无论如何,我认为在您的案例中选择功能的最佳方法是选择优化目标的方法,这似乎是分类准确性,因此是CV提案。