组合不同的分类器

时间:2018-12-12 18:58:44

标签: python-3.x scikit-learn ensemble-learning

我正在构造一个多项式分类器,并且我的特征集包括一些行为良好的特征(即基数低的实值或分类)和一些表现不好的特征(基数极高但大多数情况下稀疏的分类特征) )。

我不确定如何在同一模型中组合这两种类型的功能。我正在考虑要么做一些降维(例如PCA / SVD),要么为表现欠佳的特征选择特征。最后,我决定训练两个不同的分类器-一个使用行为良好的功能,另一个使用行为不佳的功能。对于前者,我使用逻辑回归。对于后者,我在梯度增强决策树分类器中使用了带有tf-idf加权的词袋方法。

所以我现在有两个不同的分类器,它们使用同一训练数据集的不同(即不重叠)特征。

如果我要结合这两个分类器,我有不同的选择:

(A)投票(即软投票分类器)

(B)堆叠(即创建一个元分类器,该元分类器使用两个现有分类器报告的概率(predict_proba)作为特征)

我的问题是:

  1. 您会推荐哪种策略?
  2. 在(A)或(B)中使用概率之前,我应该校准这些概率吗?
  3. 如果我要参加(B),我应该使用原始功能吗? 概率?

0 个答案:

没有答案