错误分类到具有不同类别的多个类

时间:2014-06-24 09:12:02

标签: machine-learning nlp scikit-learn text-classification

我鼓励下一个问题: 我正在尝试对很多文本文档进行分类。

有20个班级:1个正常,19个 - 异常。 当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于19个班级,但对于“正常”班级,我得到了许多错误分类错误:几乎所有“正常”类别的案例都被归类为其他(非正常)类别。

有我的问题:

  • 我应该如何选择“正常”课程的训练集? (现在,我很适合 到具有“普通”类别的分类器文本集,带有1/20 比例)。
  • 可以这样指定分类器:如果属于的概率 某些类少于某个阈值然后分类器必须设置
    该样本的类别(例如正常)?

2 个答案:

答案 0 :(得分:2)

每个类的实例数量可能不平衡导致问题。您需要在最终的类估计中定义某种先验,以避免不平衡实例的问题,并且您需要通过交叉验证来微调此先验的外生参数。我猜Dirichlet Prior用于多项式NB。

答案 1 :(得分:1)

我不确定是否有完整的图片,但事实上你似乎只有2个课程"正常"和"异常"它们在体积上是不平衡的,因此是先前的。

要回答你的第一个问题,在那种情况下,我会尝试过度抽样你的正常班级进行训练(将同样的#34;正常"实例多次传递给"假的"更大的音量)看看它是否能提高你的表现。

我没有得到你的第二个问题。