少量标记样品应如何处理?

时间:2019-05-04 07:14:11

标签: machine-learning classification

我正在尝试开发技巧,以处理在Kaggle“ Do n't Overfit” dataset上练习的极少量带标签的样本(总共250个标签/ 20000个特征,共200个特征)(Traget_Practice已提供了所有20,000个目标)。我已经阅读了大量关于此主题的论文和文章,但是我尝试过的所有内容都没有改善简单的正则化SVM结果(最佳acc 75 / auc 85)或任何其他算法结果(LR,K-NN,NaiveBayes,RF) ,MLP)。我相信结果会更好(在排行榜上甚至超过95分)

我尝试失败的尝试:

  • 移除异常值我尝试使用EllipticEnvelope和IsolationForest移除5%-10%的异常值。

  • 功能选择我尝试了RFE(带有或不带有CV)+ L1 / L2正则化LogisticRegression,以及SelectKBest(带有chi2)。

  • 半监督技术我曾尝试使用两种互补算法和:100-100:分割特征的不同组合进行协同训练。我也尝试过LabelSpreading,但是我不知道如何提供大多数不确定的样本(我尝试了其他算法的预测,但是样本错误贴标很多,但没有成功)。
  • 集成分类器 StackingClassifier具有所有可能的算法组合,这也不能改善结果(最好与SVM acc75 / auc 85相同)。

谁能给我建议我做错了什么或尝试什么?

0 个答案:

没有答案