我正在构造一个多项式分类器,并且我的特征集包括一些行为良好的特征(即基数低的实值或分类)和一些表现不好的特征(基数极高但大多数情况下稀疏的分类特征) )。
我不确定如何在同一模型中组合这两种类型的功能。我正在考虑要么做一些降维(例如PCA / SVD),要么为表现欠佳的特征选择特征。最后,我决定训练两个不同的分类器-一个使用行为良好的功能,另一个使用行为不佳的功能。对于前者,我使用逻辑回归。对于后者,我在梯度增强决策树分类器中使用了带有tf-idf加权的词袋方法。
所以我现在有两个不同的分类器,它们使用同一训练数据集的不同(即不重叠)特征。
如果我要结合这两个分类器,我有不同的选择:
(A)投票(即软投票分类器)
(B)堆叠(即创建一个元分类器,该元分类器使用两个现有分类器报告的概率(predict_proba)作为特征)
我的问题是: