我正在对发票和收据进行分类,我将与伯努利模型合作。
这是朴素的贝叶斯分类器:
P(c | x)= P(x | c)x P(c)/ P(x)
我知道如何计算P(c)类先验概率,因为我们假设所有单词都是独立的,我们不需要P(x)。
现在公式将是这样的:P(c | x)= P(x | c)x P(c)并且为了计算P(x | c)我们做了计算所有单词概率P的可能性方法(c | X)= P(x1 | c)P(x2 | c)* P(x3 | c)....
我的问题是在计算了可能性之后我需要将它乘以P(c)与否,P(c | X)= P(x1 | c)P(x2 | c)* P(x3 | c) ... * P(C)?
答案 0 :(得分:1)
P(c|x)
不等于P(x|c) P(c)
。它是比例,就像你在分类时一样
cl(x) = arg max_c P(c|x) = arg max_c P(x|c) P(c) / P(x) = arg max_c P(x|c) P(c)
这适用于每个概率分布,其中P(x)>0
,此时不需要任何贝叶斯假设。这只是一个简单的贝叶斯定理+注意P(x)
只是这个等式中的正常数。
因此,您从不实际计算P(c|x)
,您只需计算P(x|c) P(c)
即可为您提供相同的分类。我希望这表明您的分类必须基于P(x|c)
和P(c)
的产品,您指出P(x|c) = PROD_i P(x_i|c)
(这里我们使用Naive Bayes假设)关于独立,而不是之前)。