朴素贝叶斯分类器的平衡语料库

时间:2017-07-02 00:21:18

标签: machine-learning bayesian naivebayes

我正在使用NB分类器进行情绪分析。我发现了培训语料库应该平衡的一些信息(博客,教程等):

  • 33.3%肯定;
  • 33.3%中性
  • 33.3%否定

我的问题是:

为什么corspus应该平衡?贝叶斯定理基于理性/案例的可支持性。因此,对于培训目的而言,在现实世界中,例如负面推文只有10%而不是33.3%并不重要吗?

2 个答案:

答案 0 :(得分:1)

你是对的,平衡数据对许多判别模型很重要,但对NB来说并不是很重要。

然而,偏向P(y)估计量以获得更好的预测性能可能更有利(因为由于各种简化模型的使用,分配给少数群体的概率可能会重度不足)。对于NB,关于平衡数据,但实际上修改了估计的P(y),以便在验证集上准确度最大化。

答案 1 :(得分:0)

在我看来,如果您的分类器将使用的真实世界数据的样本,则用于培训目的的最佳数据集。

对于所有分类器都是如此(但是其中一些分类器确实不适用于不平衡的训练集,在这种情况下,您实际上没有选择倾斜分布的情况),尤其是对于像Naive Bayes这样的概率分类器。所以最好的样本应该反映自然类的分布。

请注意,这不仅对于班级先验估计很重要。朴素贝叶斯将为每个特征计算预测给定特征的类别的可能性。如果您的贝叶斯分类器专门用于对文本进行分类,则它将使用全局文档频率度量(给定单词出现在数据集中的次数,跨所有类别)。如果训练集中每个类别的文件数量不能反映其自然分布,则通常在不常见类别中看到的术语的全球术语频率将被高估,而频繁类别的术语频率被低估。因此,不仅先前的类概率不正确,而且所有P(category=c|term=t)估计都是错误的。