如何在单词包中组合多个功能集

时间:2015-09-30 06:41:42

标签: python-2.7 machine-learning scikit-learn text-mining text-classification

我的文本分类数据包含预测,具体取决于类别,“描述”和“组件”。我可以使用python中的单词包进行分类,并在'描述'上使用scikit。但是我希望在单个特征集的权重包中使用这两个类别进行预测 x =描述+ 2 *组件 我该怎么办?

1 个答案:

答案 0 :(得分:0)

您可以为描述和商家培训单独的分类器,并使用score = w1 * predictions + w2 * components.获得最终分数

应使用交叉验证获取w1w2的值。

或者,您可以通过组合训练数据集来训练单个多类分类器。

您现在将有4个班级:

  1. 没有预测'也不是'组件'
  2. '预测'但不是'组件'
  3. 不是'预测'但是'组件'
  4. '预测'和'组件'
  5. 你可以像往常一样继续训练。