我正在尝试开发技巧,以处理在Kaggle“ Do n't Overfit” dataset上练习的极少量带标签的样本(总共250个标签/ 20000个特征,共200个特征)(Traget_Practice已提供了所有20,000个目标)。我已经阅读了大量关于此主题的论文和文章,但是我尝试过的所有内容都没有改善简单的正则化SVM结果(最佳acc 75 / auc 85)或任何其他算法结果(LR,K-NN,NaiveBayes,RF) ,MLP)。我相信结果会更好(在排行榜上甚至超过95分)
我尝试失败的尝试:
移除异常值我尝试使用EllipticEnvelope和IsolationForest移除5%-10%的异常值。
功能选择我尝试了RFE(带有或不带有CV)+ L1 / L2正则化LogisticRegression,以及SelectKBest(带有chi2)。
谁能给我建议我做错了什么或尝试什么?