我正在构建一个文本分类器,用于将评论分类为正面或负面。我有一个关于NaiveBayes分类器公式的查询:
| P(label) * P(f1|label) * ... * P(fn|label)
| P(label|features) = --------------------------------------------
| P(features)
根据我的理解,如果事件一起发生,概率就会成倍增加。例如。 A和B一起出现的概率是多少。在这种情况下乘以概率是否合适?感谢有人能够详细解释这个公式。我正在尝试进行一些手动分类(只是为了检查一些算法生成的分类似乎有点过时,这将使我能够确定错误分类的确切原因。)
在基本概率术语中,为了计算p(label | feature1,feature2),我们必须将概率相乘以一起计算特征1和特征2的出现。但在这种情况下,我并不是要计算标准概率,而是计算文本的积极性/消极性。因此,如果我总结概率,我会得到一个可以识别积极性/消极性商的数字。这有点不合常规,但你认为这可以带来一些好的结果。原因是总和和产品可能完全不同。例如。 2 * 2 = 4但3 * 1 = 3
答案 0 :(得分:0)
如果类条件概率P(特征|标签)在统计上是独立的,则它们可以相乘。然而,在实践中发现,即使对于非独立的类条件概率,Naive Bayes仍然可以产生良好的结果。因此,您可以从简单计数中计算出各个类条件概率P(feature | label),然后将它们相乘。
有一点需要注意的是,在某些应用中,这些概率可能非常小,导致潜在的数字下溢。因此,您可能希望将 log 添加到概率中(而不是乘以概率)。
答案 1 :(得分:0)
我理解这些特征是否不同,如果身高是170厘米,体重200磅,那么男性的概率是多少。然后,当这些条件(事件)一起发生时,这些概率必须相乘。但是在文本分类的情况下,这是无效的,因为事件一起发生并不重要。例如。考虑到单词最佳的出现,评论为正的概率为0.1,并且考虑到单词礼貌的发生,评论的概率为0.05,那么考虑到两个单词的出现,评论的概率是正的(最好和礼貌)不是0.1 * 0.05。更具指示性的数字将是概率的总和(需要标准化),