应用错误收集

时间：2014-06-24 09:12:02

标签： machine-learning nlp scikit-learn text-classification

我鼓励下一个问题：我正在尝试对很多文本文档进行分类。

有20个班级：1个正常，19个 - 异常。当我使用朴素贝叶斯分类时，我得到以下结果：分类适用于19个班级，但对于“正常”班级，我得到了许多错误分类错误：几乎所有“正常”类别的案例都被归类为其他（非正常）类别。

有我的问题：

答案 0 :(得分：2)

每个类的实例数量可能不平衡导致问题。您需要在最终的类估计中定义某种先验，以避免不平衡实例的问题，并且您需要通过交叉验证来微调此先验的外生参数。我猜Dirichlet Prior用于多项式NB。

答案 1 :(得分：1)

我不确定是否有完整的图片，但事实上你似乎只有2个课程＆＃34;正常＆＃34;和＆＃34;异常＆＃34;它们在体积上是不平衡的，因此是先前的。

要回答你的第一个问题，在那种情况下，我会尝试过度抽样你的正常班级进行训练（将同样的＃34;正常＆＃34;实例多次传递给＆＃34;假的＆＃34;更大的音量）看看它是否能提高你的表现。

我没有得到你的第二个问题。