Question

我正在研究具有以下特征的二元分类不平衡营销数据集：

否：是的比例是88:12
〜4300个观测值和30个特征（9个数字和21个分类）

我将数据分为火车（80％）和测试（20％）集，然后在火车集上使用了standard_scalar和SMOTE。 SMOTE将火车数据集的“否：是”比率设为1：1。然后，我运行了一个随机森林分类器，如下代码所示，在没有标准缩放和SMOTE的情况下应用随机森林分类器，在测试数据上的召回得分为53％，而在测试数据上仅为35％。

现在，我想进一步改进模型（提高召回得分），并仅选择重要功能。

我很困惑在应用随机森林分类器之前应该使用哪种功能选择方法。我知道这些功能选择方法： 1基于树的特征选择，2递归特征选择，3主成分分析，4拉索回归以丢弃unimp特征

在这种情况下，哪种功能选择方法可行？（请注意，我所有的分类功能都是伪变量，建议正确的方法时请考虑这一点）

谢谢！

#fitting random forest on SMOTE resampled & scaled data
clf_random=RandomForestClassifier(n_estimators=20, max_depth=None,    min_samples_split=10, random_state=0)

X_train_sc_resampled, y_train_resampled= SMOTE().fit_resample(X_train_sc,y_train)

clf_random.fit(X_train_sc_resampled,y_train_resampled)

失衡数据集的正确特征选择方法

0 个答案: