应用错误收集

时间：2015-12-11 05:50:52

标签： python machine-learning scikit-learn feature-selection

我对集合功能选择有疑问。

我的数据集由1000个样本组成，具有约30000个特征，它们分为标签A或标签B. 我想要做的是选择一些可以有效分类标签的功能。

我使用了三种方法，单变量方法（Pearson系数），套索回归和SVM-RFE（递归特征消除），所以我从中得到了三个特征集。我使用python scikit-learn进行特征选择。

然后我考虑了合奏特征选择方法，因为特征的大小是如此之大。在这种情况下，使用3个功能集制作集成子集的方法是什么？

我能想到的是将集合联合起来并再次使用套索回归或SVM-RFE，或者只是采用集合的交集。

任何人都可以提出想法吗？

答案 0 :(得分：1)

我猜你做的事情取决于你以后如何使用这些功能。如果您的目标是＆＃34;有效地对标签进行分类＆＃34;您可以做的一件事是使用您的分类算法（即SVC，Lasso等）作为包装并执行Recursive Feature Elimination (RFE) with cross-validation。

您可以从您使用的前三种方法的特征联合开始，或从头开始为您想要适合的给定类型的模型开始，因为示例的数量很少。无论如何，我认为在您的案例中选择功能的最佳方法是选择优化目标的方法，这似乎是分类准确性，因此是CV提案。