我正在研究具有以下特征的二元分类不平衡营销数据集:
我将数据分为火车(80%)和测试(20%)集,然后在火车集上使用了standard_scalar和SMOTE。 SMOTE将火车数据集的“否:是”比率设为1:1。然后,我运行了一个随机森林分类器,如下代码所示,在没有标准缩放和SMOTE的情况下应用随机森林分类器,在测试数据上的召回得分为53%,而在测试数据上仅为35%。
现在,我想进一步改进模型(提高召回得分),并仅选择重要功能。
我很困惑在应用随机森林分类器之前应该使用哪种功能选择方法。我知道这些功能选择方法: 1基于树的特征选择,2递归特征选择,3主成分分析,4拉索回归以丢弃unimp特征
在这种情况下,哪种功能选择方法可行? (请注意,我所有的分类功能都是伪变量,建议正确的方法时请考虑这一点)
谢谢!
#fitting random forest on SMOTE resampled & scaled data
clf_random=RandomForestClassifier(n_estimators=20, max_depth=None, min_samples_split=10, random_state=0)
X_train_sc_resampled, y_train_resampled= SMOTE().fit_resample(X_train_sc,y_train)
clf_random.fit(X_train_sc_resampled,y_train_resampled)