文本分类:NaïveBayes分类器,具有偏斜的数据分布

时间:2017-03-05 20:43:36

标签: nlp data-mining text-classification naivebayes

我有一个关于NaïveBayes分类器的问题,其中包含用于训练和测试数据的偏差数据分布。

  • 培训数据包含90%的垃圾邮件和10%的非垃圾邮件
  • 测试数据有80%非垃圾邮件和20%垃圾邮件

使用MLE(最大似然)而不是MAP(标准最大后验概率)对于训练数据的决策函数是否更好?

我的理解是,如果我们使用max,训练数据的分布和测试数据的分布是不同的。后验概率然后测试结果会偏向垃圾邮件类,所以MLE更好。我的理解是否正确?

0 个答案:

没有答案