我鼓励下一个问题: 我正在尝试对很多文本文档进行分类。
有20个班级:1个正常,19个 - 异常。 当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于19个班级,但对于“正常”班级,我得到了许多错误分类错误:几乎所有“正常”类别的案例都被归类为其他(非正常)类别。
有我的问题:
答案 0 :(得分:2)
每个类的实例数量可能不平衡导致问题。您需要在最终的类估计中定义某种先验,以避免不平衡实例的问题,并且您需要通过交叉验证来微调此先验的外生参数。我猜Dirichlet Prior用于多项式NB。
答案 1 :(得分:1)
我不确定是否有完整的图片,但事实上你似乎只有2个课程"正常"和"异常"它们在体积上是不平衡的,因此是先前的。
要回答你的第一个问题,在那种情况下,我会尝试过度抽样你的正常班级进行训练(将同样的#34;正常"实例多次传递给"假的"更大的音量)看看它是否能提高你的表现。
我没有得到你的第二个问题。