失衡数据集的正确特征选择方法

时间:2019-05-18 09:46:02

标签: machine-learning classification feature-selection oversampling

我正在研究具有以下特征的二元分类不平衡营销数据集:

  1. 否:是的比例是88:12
  2. 〜4300个观测值和30个特征(9个数字和21个分类)

我将数据分为火车(80%)和测试(20%)集,然后在火车集上使用了standard_scalar和SMOTE。 SMOTE将火车数据集的“否:是”比率设为1:1。然后,我运行了一个随机森林分类器,如下代码所示,在没有标准缩放和SMOTE的情况下应用随机森林分类器,在测试数据上的召回得分为53%,而在测试数据上仅为35%。

现在,我想进一步改进模型(提高召回得分),并仅选择重要功能。

我很困惑在应用随机森林分类器之前应该使用哪种功能选择方法。我知道这些功能选择方法: 1基于树的特征选择,2递归特征选择,3主成分分析,4拉索回归以丢弃unimp特征

在这种情况下,哪种功能选择方法可行? (请注意,我所有的分类功能都是伪变量,建议正确的方法时请考虑这一点)

谢谢!

#fitting random forest on SMOTE resampled & scaled data
clf_random=RandomForestClassifier(n_estimators=20, max_depth=None,    min_samples_split=10, random_state=0)

X_train_sc_resampled, y_train_resampled= SMOTE().fit_resample(X_train_sc,y_train)

clf_random.fit(X_train_sc_resampled,y_train_resampled)

0 个答案:

没有答案